梯度爆炸

原因

  • 层数过多
    • 链式法则是一个连乘的形式
  • 权重初始化值过大
    • 网络之间的梯度值大于 1.0

表现

  • 权重值很大甚至溢出
  • 模型不稳定,更新过程中损失出现显著变化

发生梯度爆炸有什么表现?

  • 模型无法从训练数据中获得更新
  • 模型不稳定,导致更新过程中的损失出现显著变化
  • 训练过程中,模型损失变成 NaN

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论