@百面机器学习
第1章 特征工程
- 第1节 特征归一化
- 第2节 类别型特征
- 通过序列编码、[[One-hot Encoding]]、二进制编码转化成数值型。
- 第3节 高维组合特征的处理
- 第4节 组合特征
- 第5节 文本表示模型
- [[TF-IDF]]
- 第6节 Word2Vec
- 第7节 图像数据不足时的处理方法
- 一个模型能提供的信息来自于哪里?#card
- 训练数据中包含的信息
- 模型形成过程中(构造、学习、推理),人们提供的先验信息
- 一个模型能提供的信息来自于哪里?#card
第2章 模型评估
- 第1节 评估指标的局限性
- 第2节 ROC 曲线
- 第3节 余弦距离的应用
- 什么时候使用余弦相似度而不是欧式距离 #card
- 余弦相似度,方向上的相对差异。视频观看时长和在线时长
(1, 10) (10, 100)方向差异很小 - 欧式距离,数值上的绝对差异
- 余弦相似度,方向上的相对差异。视频观看时长和在线时长
- 余弦距离是否是一个严格定义的距离?#card
- [[正定性]]、对称性
- 同一性
- 未归一化前两个向量方向相同,但是模长不同,相似度还是为 0
- 不满足[[三角形不等式]]
- 什么时候使用余弦相似度而不是欧式距离 #card
- 第4节 A/B 测试的陷阱
- 第5节 模型评估的方法
- Holdout
- 交叉验证
- 自助法 [[Bootstrap]] → n 个样本,n 次有放回采样。采样结果为训练集,没有采样到的样本为测试集。
- 样本很大时,测试集中样本占比约 → 36.8%
- 第6节 超参数调优
- 网格搜索
- 随机搜索
- 贝叶斯优化算法
- 第7节 [[过拟合]]与欠拟合
第3章 经典算法
第4章 降维
第5章 非监督学习
第6章 概率图模型
第7章 优化算法
- 第5节 随机梯度下降法
- 优化问题的目标函数 $$L(\theta)=\mathbb{E}{(x, y)-P{\operatorname{data}}} L(f(x, \theta), y)$$
- 平均损失最小的模型参数
- 梯度下降法
- 采用所有训练样本的平均损失来近似目标函数
- 小批量梯度下降法
- batch 尽量是 2 的幂次
- 充分利用矩阵计算
- 衰减学习速率
- 加快收敛速度,同时提高求解精度
- 一开始算法采用较大的学习速率,当误差曲线进入平台期后,减小学习速率做更精细的调整。
- batch 尽量是 2 的幂次
- 优化问题的目标函数 $$L(\theta)=\mathbb{E}{(x, y)-P{\operatorname{data}}} L(f(x, \theta), y)$$
第8章 采样
第9章 前向神经网络
- 第2节 深度神经网络中的[[激活函数]]
- 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象?