梯度爆炸
原因
-
层数过多
- 链式法则是一个连乘的形式
-
权重初始化值过大
- 网络之间的梯度值大于 1.0
表现
-
权重值很大甚至溢出
-
模型不稳定,更新过程中损失出现显著变化
发生梯度爆炸有什么表现?
-
模型无法从训练数据中获得更新
-
模型不稳定,导致更新过程中的损失出现显著变化
-
训练过程中,模型损失变成 NaN
原因
层数过多
权重初始化值过大
表现
权重值很大甚至溢出
模型不稳定,更新过程中损失出现显著变化
发生梯度爆炸有什么表现?
模型无法从训练数据中获得更新
模型不稳定,导致更新过程中的损失出现显著变化
训练过程中,模型损失变成 NaN