梯度爆炸

原因

  • 层数过多

    • 链式法则是一个连乘的形式
  • 权重初始化值过大

    • 网络之间的梯度值大于 1.0

表现

  • 权重值很大甚至溢出

  • 模型不稳定,更新过程中损失出现显著变化

发生梯度爆炸有什么表现?

  • 模型无法从训练数据中获得更新

  • 模型不稳定,导致更新过程中的损失出现显著变化

  • 训练过程中,模型损失变成 NaN

作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议


网络回响

评论