2024-10-052024-11-28 随手记 2 分钟读完 (大约305个字) 0次访问

Normalization

解决 [[Internal Covariance Shift]]

本质是平滑 Loss，保持在梯度下降过程中的稳定。

连续特征的值分布不统一，会导致训练波动，影响收敛速度。
归一化：对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的，即使得那些扁平分布的数据伸缩变换成类圆形。

[[归一化方法]]

减少人为参数选择

缓解过拟合

减少梯度消失，加快收敛速度，提高训练精度

通过计算均值和方差的集合分成，输入 [N, C, H, W] 维度图片

不同方法的区别在于神经元集合 S 的范围如何确定

[[Group Normalization]]
[[Batch Normalization]] 神经网络中间层进行归一化
- C 维度上，计算 (N, H, W) 的统计量
[[Layer Normalization]] RNN 等序列模型
[[Instance Normalization]]
- 与 LN 相同对单个样本操作
- IN 对同一层神经元中的同一个通道进行归一化

[[Weight Normalization]]

Ref

详解深度学习中的Normalization，BN/LN/WN - 知乎

Normalization

https://blog.xiang578.com/post/logseq/Normalization.html

作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-11-28

许可协议

Algorithm

Normalization

Ref

作者

发布于

更新于

许可协议

相关文章

网络回响

评论

目录

最新文章

Normalization

Ref

作者

发布于

更新于

许可协议

相关文章

pointer network

@Real-time Personalization using Embeddings for Search Ranking at Airbnb

A Survey of Transformers

BERT

Attention

网络回响

评论

目录

最新文章