2024-10-052025-04-23 Book 14 分钟读完 (大约2111个字) 0次访问

@百面机器学习

第1章　特征工程

第1节　特征归一化
- [[Normalization]]
第2节　类别型特征
- 通过序列编码、[[One-hot Encoding]]、二进制编码转化成数值型。
第3节　高维组合特征的处理
第4节　组合特征
第5节　文本表示模型
- [[TF-IDF]]
第6节　Word2Vec
第7节　图像数据不足时的处理方法
- 一个模型能提供的信息来自于哪里？ #card
  - 训练数据中包含的信息
  - 模型形成过程中(构造、学习、推理)，人们提供的先验信息

第2章　模型评估

第1节　评估指标的局限性
第2节　ROC 曲线
第3节　余弦距离的应用
- 什么时候使用余弦相似度而不是欧式距离 #card
  - 余弦相似度，方向上的相对差异。视频观看时长和在线时长 (1, 10) (10, 100) 方向差异很小
  - 欧式距离，数值上的绝对差异
- 余弦距离是否是一个严格定义的距离？#card
  - [[正定性]]、对称性
  - 同一性
    - 未归一化前两个向量方向相同，但是模长不同，相似度还是为 0
  - 不满足[[三角形不等式]]
第4节　A/B 测试的陷阱
第5节　模型评估的方法
- Holdout
- 交叉验证
- 自助法 [[Bootstrap]] :-> n 个样本，n 次有放回采样。采样结果为训练集，没有采样到的样本为测试集。
  - 样本很大时，测试集中样本占比约 :-> 36.8%
第6节　超参数调优
- 网格搜索
- 随机搜索
- 贝叶斯优化算法
第7节　[[过拟合]]与欠拟合

第3章　经典算法

第1节　支持向量机
第2节　逻辑回归
第3节　决策树

第4章　降维

第1节　PCA 最大方差理论
第2节 PCA 最小平方误差理论
第3节　线性判别分析
第4节　线性判别分析与主成分分析

第5章　非监督学习

第1节　K均值聚类 [[K-Means Clustering]]
第2节　高斯混合模型 [[GMM]]
第3节　自组织映射神经网络 self-organizing map SOM
第4节　非监督学习算法的评估

第6章　概率图模型

第1节　概率图模型的联合概率分布
第2节　概率图表示
第3节　生成式模型与判别式模型
第4节　马尔可夫模型
第5节　主题模型

第7章　优化算法

第1节　有监督学习的损失函数
- 二分类 0-1 损失，寻找损失的凸上界
  - [[Hinge Loss]]
  - [[Logistic Regression]]
    - [[Problem]] 和下面一种的公式有一些奇怪
  - [[Cross Entropy]]
- 回归问题
  - MSE 平方损失
    - 均值回归
    - 对异常点敏感
  - MAE 绝对值损失
    - 中值回归
  - [[Huber Loss]]可导性和对异常点的鲁棒性
第2节　机器学习中的优化问题
- 凸函数直观解释
  - 函数两点之间的连线都不在函数曲面的下方。
- 凸优化：逻辑回归。
  - [[Hessian 矩阵]] 利用 [[半正定]] 特性
- 非凸优化主成分分析，矩阵分解、深度神经网络
第3节　经典优化算法
- 无约束优化问题 [[凸优化]] $$min L(\theta)$$
- 直接法，目标函数是凸函数，存在梯度等于零的闭式解。
- 迭代法，一阶法 [[SGD]] 和二阶法 [[Hessian 矩阵]]
第4节　梯度验证
- 利用微元法近似计算梯度，将结果和公式计算出的梯度对比。理论依据[[泰勒展开]]。
第5节　随机梯度下降法
- 优化问题的目标函数 $$L(\theta)=\mathbb{E}{(x, y)-P{\operatorname{data}}} L(f(x, \theta), y)$$
  - 平均损失最小的模型参数
- 梯度下降法
  - 采用所有训练样本的平均损失来近似目标函数
- 当数据量很大时，梯度下降法需要遍历全部的训练数据，计算量大。
- [[SGD]] 用单个样本对模型参数进行更新
- 小批量梯度下降法
  - batch 尽量是 2 的幂次
    - 充分利用矩阵计算
  - 每次迭代前对全部数据随机排序
  - 衰减学习速率
    - 加快收敛速度，同时提高求解精度
    - 一开始算法采用较大的学习速率，当误差曲线进入平台期后，减小学习速率做更精细的调整。
第6节　随机梯度下降法的加速
- 随机梯度下降法：陷入山谷和鞍点
- 改进
- [[Momentum]] 动量，利用惯性冲出
- [[AdaGrad]] 历史梯度平方和：更新频率低的参数可以拥有较大的更新步幅。
  - [[RMSProp]]
- [[@Adam: A Method for Stochastic Optimization]] 一阶矩，二阶矩。相当于是期望
  - [[AdamW]]
第7节　L1 正则化与稀疏性
- [[Regularization]]

第8章　采样

第1节　采样的作用
第2节　均匀分布随机数
- 线性同余法
  - $x_{t+1} \equiv a*x_t+c\pmod m$
第3节　常见的采样方法
第4节　高斯分布的采样
第5节　马尔科夫蒙特卡洛采样法
第6节　贝叶斯网络的采样
第7节　不均衡样本集的重采样

第9章　前向神经网络

第1节　多层感知机与布尔函数
- 如果只使用一个隐层，需要多少隐节点能够实现包含n元输入的任意布尔函数？
- 考虑多隐层的情况，实现包含n元输入的任意布尔函数最少需要多少个网络节点和网络层？
第2节　深度神经网络中的[[激活函数]]
- 为什么Sigmoid和Tanh激活函数会导致梯度消失的现象？
第3节　多层感知机的反向传播算法
第4节　神经网络训练技巧
- [[Dropout]]
- [[Batch Normalization]]
第5节　深度卷积神经网络
- [[CNN]]
- [[Pooling]]
第6节　深度残差网络
- [[ResNet]]

第 10 章循环神经网络

第1节　循环神经网络和卷积神经网络
第2节　循环神经网络的梯度消失问题
- 梯度爆炸，对梯度进行裁剪（超过阈值，等比例缩放）
- 梯度消失
  - [[ResNet]] 中对前馈神经网络改造
  - [[RNN]] 通过 lstm 以及 gru 等进行改造
第3节　循环神经网络中的激活函数
- 为什么不能使用 relu 做为激活函数？
  - rnn 中，每一层的参数相同，如果 relu 之后处于激活区，那么还是存在连乘的问题。
  - 采用 relu 做为 rnn 的激活函数时，需要 w 取值在单位举证附近。
第4节　长短期记忆网络
第5节 [[Seq2Seq]] 模型
- 编码和解码
- 解码方法
  - 贪心法
  - 集束搜索 [[Beam Search]]
第6节注意力机制 [[Attention]]
- 只有前向信息，防止前后信息的丢失。

第11章　[[强化学习]]

第1节　强化学习基础
第2节　视频游戏里的强化学习
第3节　策略梯度
第4节　探索与利用

第12章　[[集成学习]]

第1节　集成学习的种类
第2节　集成学习的步骤和例子
第3节　基分类器
- 不稳定的分类器：随机性大
- 表达和泛化能力
第4节　偏差与方差
第5节　梯度提升决策树的基本原理
第6节　XGBoost与GBDT 的联系和区别

第13章　生成式对抗网络

第1节　初识GANs 的秘密
第2节　WGAN：抓住低维的幽灵
第3节　DCGAN：当GANs 遇上卷积
第4节　ALI：包揽推断业务
第5节　IRGAN：生成离散样本
第6节　SeqGAN：生成文本序列

第14章　人工智能的热门应用

第1节　计算广告
第2节　游戏中的人工智能
第3节　AI 在自动驾驶中的应用
第4节　机器翻译
第5节　人机交互中的智能计算

@百面机器学习

https://blog.xiang578.com/post/logseq/@百面机器学习.html

作者

Ryen Xiang

发布于

2024-10-05

更新于

2025-04-23

许可协议

Book

@百面机器学习

第1章　特征工程

第2章　模型评估

第3章　经典算法

第4章　降维

第5章　非监督学习

第6章　概率图模型

第7章　优化算法

第8章　采样

第9章　前向神经网络

第 10 章循环神经网络

第11章　[[强化学习]]

第12章　[[集成学习]]

第13章　生成式对抗网络

第14章　人工智能的热门应用

作者

发布于

更新于

许可协议

相关文章

网络回响

评论

目录

最新文章

@百面机器学习

第1章 特征工程

第2章 模型评估

第3章 经典算法

第4章 降维

第5章 非监督学习

第6章 概率图模型

第7章 优化算法

第8章 采样

第9章 前向神经网络

第 10 章 循环神经网络

第11章 [[强化学习]]

第12章 [[集成学习]]

第13章 生成式对抗网络

第14章 人工智能的热门应用

作者

发布于

更新于

许可协议

相关文章

@Antinet Zettelkasten: A Knowledge System That Will Turn You Into a Prolific Reader, Researcher and Writer

@How to Take Smart Notes

@互联网大厂推荐算法实战

@吴军阅读与写作讲义

@最高學以致用法：讓學習發揮最大成果的輸出大全

网络回响

评论

目录

最新文章

第1章　特征工程

第2章　模型评估

第3章　经典算法

第4章　降维

第5章　非监督学习

第6章　概率图模型

第7章　优化算法

第8章　采样

第9章　前向神经网络

第 10 章循环神经网络

第11章　[[强化学习]]

第12章　[[集成学习]]

第13章　生成式对抗网络

第14章　人工智能的热门应用