Initialization
影响模型的收敛速度和模型质量。
[[Batch Normalization]] 可以有效降低深度网络对 weight 初始化的依赖。非线性计算之前,输出值有较好的分布。BN 强行将输出值做一次高斯变换和线性变换。
常量初始化
高斯分布初始化
- tf.truncated_normal 按两倍标准差截断
- tf.random_normal
[[正交初始化]]
不同方法的均值和方差
- [[He Initialization]] ↔ 0 均值,标准差为 sqrt(2 / fan_in)
- [[Xavier Initialization]] ↔ 0 均值,标准差为 sqrt(2 / (fan_in + fan_out))
See Also
- [[神经网络参数全部初始化为0]] 不可行
Ref
网络回响
Initialization