@百面机器学习
第1章 特征工程
-
第1节 特征归一化
-
第2节 类别型特征
- 通过序列编码、[[One-hot Encoding]]、二进制编码转化成数值型。
-
第3节 高维组合特征的处理
-
第4节 组合特征
-
第5节 文本表示模型
- [[TF-IDF]]
-
第6节 Word2Vec
-
第7节 图像数据不足时的处理方法
- 一个模型能提供的信息来自于哪里? #card
- 训练数据中包含的信息
- 模型形成过程中(构造、学习、推理),人们提供的先验信息
- 一个模型能提供的信息来自于哪里? #card
第2章 模型评估
-
第1节 评估指标的局限性
-
第2节 ROC 曲线
-
第3节 余弦距离的应用
- 什么时候使用余弦相似度而不是欧式距离 #card
- 余弦相似度,方向上的相对差异。视频观看时长和在线时长
(1, 10) (10, 100)
方向差异很小 - 欧式距离,数值上的绝对差异
- 余弦相似度,方向上的相对差异。视频观看时长和在线时长
- 余弦距离是否是一个严格定义的距离?#card
-
[[正定性]]、对称性
-
同一性
- 未归一化前两个向量方向相同,但是模长不同,相似度还是为 0
-
不满足[[三角形不等式]]
-
- 什么时候使用余弦相似度而不是欧式距离 #card
-
第4节 A/B 测试的陷阱
-
第5节 模型评估的方法
-
Holdout
-
交叉验证
-
自助法 [[Bootstrap]] :-> n 个样本,n 次有放回采样。采样结果为训练集,没有采样到的样本为测试集。
- 样本很大时,测试集中样本占比约 :-> 36.8%
-
-
第6节 超参数调优
-
网格搜索
-
随机搜索
-
贝叶斯优化算法
-
-
第7节 [[过拟合]]与欠拟合
第3章 经典算法
-
第1节 支持向量机
-
第2节 逻辑回归
-
第3节 决策树
第4章 降维
-
第1节 PCA 最大方差理论
-
第2节 PCA 最小平方误差理论
-
第3节 线性判别分析
-
第4节 线性判别分析与主成分分析
第5章 非监督学习
-
第1节 K均值聚类 [[K-Means Clustering]]
-
第2节 高斯混合模型 [[GMM]]
-
第3节 自组织映射神经网络 self-organizing map SOM
-
第4节 非监督学习算法的评估
第6章 概率图模型
-
第1节 概率图模型的联合概率分布
-
第2节 概率图表示
-
第3节 生成式模型与判别式模型
-
第4节 马尔可夫模型
-
第5节 主题模型
第7章 优化算法
-
第1节 有监督学习的损失函数
-
二分类 0-1 损失,寻找损失的凸上界
-
[[Hinge Loss]]
-
- [[Problem]] 和下面一种的公式有一些奇怪
-
[[Cross Entropy]]
-
-
回归问题
-
MSE 平方损失
- 均值回归
- 对异常点敏感
-
MAE 绝对值损失
- 中值回归
-
[[Huber Loss]]可导性和对异常点的鲁棒性
-
-
-
第2节 机器学习中的优化问题
-
凸函数直观解释
- 函数两点之间的连线都不在函数曲面的下方。
-
凸优化:逻辑回归。
- [[Hessian 矩阵]] 利用 [[半正定]] 特性
-
非凸优化 主成分分析,矩阵分解、深度神经网络
-
-
第3节 经典优化算法
-
无约束优化问题 [[凸优化]] $$min L(\theta)$$
-
直接法,目标函数是凸函数,存在梯度等于零的闭式解。
-
迭代法,一阶法 [[SGD]] 和二阶法 [[Hessian 矩阵]]
-
-
第4节 梯度验证
- 利用微元法近似计算梯度,将结果和公式计算出的梯度对比。理论依据[[泰勒展开]]。
-
第5节 随机梯度下降法
-
优化问题的目标函数 $$L(\theta)=\mathbb{E}{(x, y)-P{\operatorname{data}}} L(f(x, \theta), y)$$
- 平均损失最小的模型参数
-
梯度下降法
- 采用所有训练样本的平均损失来近似目标函数
-
当数据量很大时,梯度下降法需要遍历全部的训练数据,计算量大。
-
[[SGD]] 用单个样本对模型参数进行更新
-
小批量梯度下降法
-
batch 尽量是 2 的幂次
- 充分利用矩阵计算
-
每次迭代前对全部数据随机排序
-
衰减学习速率
- 加快收敛速度,同时提高求解精度
- 一开始算法采用较大的学习速率,当误差曲线进入平台期后,减小学习速率做更精细的调整。
-
-
-
第6节 随机梯度下降法的加速
-
随机梯度下降法:陷入山谷和鞍点
-
改进
-
[[Momentum]] 动量,利用惯性冲出
-
[[AdaGrad]] 历史梯度平方和:更新频率低的参数可以拥有较大的更新步幅。
- [[RMSProp]]
-
[[@Adam: A Method for Stochastic Optimization]] 一阶矩,二阶矩。相当于是期望
-
-
第7节 L1 正则化与稀疏性
- [[Regularization]]
第8章 采样
-
第1节 采样的作用
-
第2节 均匀分布随机数
-
线性同余法
-
-
第3节 常见的采样方法
-
第4节 高斯分布的采样
-
第5节 马尔科夫蒙特卡洛采样法
-
第6节 贝叶斯网络的采样
-
第7节 不均衡样本集的重采样
第9章 前向神经网络
-
第1节 多层感知机与布尔函数
-
如果只使用一个隐层,需要多少隐节点能够实现包含n元输入的任意布尔函数?
-
考虑多隐层的情况,实现包含n元输入的任意布尔函数最少需要多少个网络节点和网络层?
-
-
第2节 深度神经网络中的[[激活函数]]
- 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?
-
第3节 多层感知机的反向传播算法
-
第4节 神经网络训练技巧
-
[[Dropout]]
-
-
第5节 深度卷积神经网络
-
[[CNN]]
-
[[Pooling]]
-
-
第6节 深度残差网络
第 10 章 循环神经网络
-
第1节 循环神经网络和卷积神经网络
-
第2节 循环神经网络的梯度消失问题
-
梯度爆炸,对梯度进行裁剪(超过阈值,等比例缩放)
-
梯度消失
-
[[ResNet]] 中对前馈神经网络改造
-
[[RNN]] 通过 lstm 以及 gru 等进行改造
-
-
-
第3节 循环神经网络中的激活函数
-
为什么不能使用 relu 做为激活函数?
-
rnn 中,每一层的参数相同,如果 relu 之后处于激活区,那么还是存在连乘的问题。
-
采用 relu 做为 rnn 的激活函数时,需要 w 取值在单位举证附近。
-
-
-
第4节 长短期记忆网络
-
第5节 [[Seq2Seq]] 模型
-
编码和解码
-
解码方法
-
贪心法
-
集束搜索 [[Beam Search]]
-
-
-
第6节 注意力机制 [[Attention]]
- 只有前向信息,防止前后信息的丢失。
第11章 [[强化学习]]
-
第1节 强化学习基础
-
第2节 视频游戏里的强化学习
-
第3节 策略梯度
-
第4节 探索与利用
第12章 [[集成学习]]
-
第1节 集成学习的种类
-
第2节 集成学习的步骤和例子
-
第3节 基分类器
-
不稳定的分类器:随机性大
-
表达和泛化能力
-
-
第4节 偏差与方差
-
第5节 梯度提升决策树的基本原理
-
第6节 XGBoost与GBDT 的联系和区别
第13章 生成式对抗网络
-
第1节 初识GANs 的秘密
-
第2节 WGAN:抓住低维的幽灵
-
第3节 DCGAN:当GANs 遇上卷积
-
第4节 ALI:包揽推断业务
-
第5节 IRGAN:生成离散样本
-
第6节 SeqGAN:生成文本序列
第14章 人工智能的热门应用
-
第1节 计算广告
-
第2节 游戏中的人工智能
-
第3节 AI 在自动驾驶中的应用
-
第4节 机器翻译
-
第5节 人机交互中的智能计算