@百面机器学习

第1章 特征工程

  • 第1节 特征归一化

  • 第2节 类别型特征

  • 第3节 高维组合特征的处理

  • 第4节 组合特征

  • 第5节 文本表示模型

    • [[TF-IDF]]
  • 第6节 Word2Vec

  • 第7节 图像数据不足时的处理方法

    • 一个模型能提供的信息来自于哪里? #card
      • 训练数据中包含的信息
      • 模型形成过程中(构造、学习、推理),人们提供的先验信息

第2章 模型评估

  • 第1节 评估指标的局限性

  • 第2节 ROC 曲线

  • 第3节 余弦距离的应用

    • 什么时候使用余弦相似度而不是欧式距离 #card
      • 余弦相似度,方向上的相对差异。视频观看时长和在线时长 (1, 10) (10, 100) 方向差异很小
      • 欧式距离,数值上的绝对差异
    • 余弦距离是否是一个严格定义的距离?#card
      • [[正定性]]、对称性

      • 同一性

        • 未归一化前两个向量方向相同,但是模长不同,相似度还是为 0
      • 不满足[[三角形不等式]]

  • 第4节 A/B 测试的陷阱

  • 第5节 模型评估的方法

    • Holdout

    • 交叉验证

    • 自助法 [[Bootstrap]] :-> n 个样本,n 次有放回采样。采样结果为训练集,没有采样到的样本为测试集。

      • 样本很大时,测试集中样本占比约 :-> 36.8%
  • 第6节 超参数调优

    • 网格搜索

    • 随机搜索

    • 贝叶斯优化算法

  • 第7节 [[过拟合]]与欠拟合

第3章 经典算法

  • 第1节 支持向量机

  • 第2节 逻辑回归

  • 第3节 决策树

第4章 降维

  • 第1节 PCA 最大方差理论

  • 第2节 PCA 最小平方误差理论

  • 第3节 线性判别分析

  • 第4节 线性判别分析与主成分分析

第5章 非监督学习

  • 第1节 K均值聚类 [[K-Means Clustering]]

  • 第2节 高斯混合模型 [[GMM]]

  • 第3节 自组织映射神经网络 self-organizing map SOM

  • 第4节 非监督学习算法的评估

第6章 概率图模型

  • 第1节 概率图模型的联合概率分布

  • 第2节 概率图表示

  • 第3节 生成式模型与判别式模型

  • 第4节 马尔可夫模型

  • 第5节 主题模型

第7章 优化算法

  • 第1节 有监督学习的损失函数

    • 二分类 0-1 损失,寻找损失的凸上界

    • 回归问题

      • MSE 平方损失

        • 均值回归
        • 对异常点敏感
      • MAE 绝对值损失

        • 中值回归
      • [[Huber Loss]]可导性和对异常点的鲁棒性

  • 第2节 机器学习中的优化问题

    • 凸函数直观解释

      • 函数两点之间的连线都不在函数曲面的下方。
    • 凸优化:逻辑回归。

      • [[Hessian 矩阵]] 利用 [[半正定]] 特性
    • 非凸优化 主成分分析,矩阵分解、深度神经网络

  • 第3节 经典优化算法

    • 无约束优化问题 [[凸优化]] $$min L(\theta)$$

    • 直接法,目标函数是凸函数,存在梯度等于零的闭式解。

    • 迭代法,一阶法 [[SGD]] 和二阶法 [[Hessian 矩阵]]

  • 第4节 梯度验证

    • 利用微元法近似计算梯度,将结果和公式计算出的梯度对比。理论依据[[泰勒展开]]。
  • 第5节 随机梯度下降法

    • 优化问题的目标函数 $$L(\theta)=\mathbb{E}{(x, y)-P{\operatorname{data}}} L(f(x, \theta), y)$$

      • 平均损失最小的模型参数
    • 梯度下降法

      • 采用所有训练样本的平均损失来近似目标函数
    • 当数据量很大时,梯度下降法需要遍历全部的训练数据,计算量大。

    • [[SGD]] 用单个样本对模型参数进行更新

    • 小批量梯度下降法

      • batch 尽量是 2 的幂次

        • 充分利用矩阵计算
      • 每次迭代前对全部数据随机排序

      • 衰减学习速率

        • 加快收敛速度,同时提高求解精度
        • 一开始算法采用较大的学习速率,当误差曲线进入平台期后,减小学习速率做更精细的调整。
  • 第6节 随机梯度下降法的加速

    • 随机梯度下降法:陷入山谷和鞍点

    • 改进

    • [[Momentum]] 动量,利用惯性冲出

    • [[AdaGrad]] 历史梯度平方和:更新频率低的参数可以拥有较大的更新步幅。

      • [[RMSProp]]
    • [[@Adam: A Method for Stochastic Optimization]] 一阶矩,二阶矩。相当于是期望

  • 第7节 L1 正则化与稀疏性

    • [[Regularization]]

第8章 采样

  • 第1节 采样的作用

  • 第2节 均匀分布随机数

    • 线性同余法

      • xt+1axt+c(modm)x_{t+1} \equiv a*x_t+c\pmod m
  • 第3节 常见的采样方法

  • 第4节 高斯分布的采样

  • 第5节 马尔科夫蒙特卡洛采样法

  • 第6节 贝叶斯网络的采样

  • 第7节 不均衡样本集的重采样

第9章 前向神经网络

  • 第1节 多层感知机与布尔函数

    • 如果只使用一个隐层,需要多少隐节点能够实现包含n元输入的任意布尔函数?

    • 考虑多隐层的情况,实现包含n元输入的任意布尔函数最少需要多少个网络节点和网络层?

  • 第2节 深度神经网络中的[[激活函数]]

    • 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?
  • 第3节 多层感知机的反向传播算法

  • 第4节 神经网络训练技巧

  • 第5节 深度卷积神经网络

    • [[CNN]]

    • [[Pooling]]

  • 第6节 深度残差网络

第 10 章 循环神经网络

  • 第1节 循环神经网络和卷积神经网络

  • 第2节 循环神经网络的梯度消失问题

    • 梯度爆炸,对梯度进行裁剪(超过阈值,等比例缩放)

    • 梯度消失

      • [[ResNet]] 中对前馈神经网络改造

      • [[RNN]] 通过 lstm 以及 gru 等进行改造

  • 第3节 循环神经网络中的激活函数

    • 为什么不能使用 relu 做为激活函数?

      • rnn 中,每一层的参数相同,如果 relu 之后处于激活区,那么还是存在连乘的问题。

      • 采用 relu 做为 rnn 的激活函数时,需要 w 取值在单位举证附近。

  • 第4节 长短期记忆网络

  • 第5节 [[Seq2Seq]] 模型

  • 第6节 注意力机制 [[Attention]]

    • 只有前向信息,防止前后信息的丢失。

第11章 [[强化学习]]

  • 第1节 强化学习基础

  • 第2节 视频游戏里的强化学习

  • 第3节 策略梯度

  • 第4节 探索与利用

第12章 [[集成学习]]

  • 第1节 集成学习的种类

  • 第2节 集成学习的步骤和例子

  • 第3节 基分类器

    • 不稳定的分类器:随机性大

    • 表达和泛化能力

  • 第4节 偏差与方差

  • 第5节 梯度提升决策树的基本原理

  • 第6节 XGBoost与GBDT 的联系和区别

第13章 生成式对抗网络

  • 第1节 初识GANs 的秘密

  • 第2节 WGAN:抓住低维的幽灵

  • 第3节 DCGAN:当GANs 遇上卷积

  • 第4节 ALI:包揽推断业务

  • 第5节 IRGAN:生成离散样本

  • 第6节 SeqGAN:生成文本序列

第14章 人工智能的热门应用

  • 第1节 计算广告

  • 第2节 游戏中的人工智能

  • 第3节 AI 在自动驾驶中的应用

  • 第4节 机器翻译

  • 第5节 人机交互中的智能计算

作者

Ryen Xiang

发布于

2024-10-05

更新于

2025-04-23

许可协议


网络回响

评论