2026-02-17 2026-02-17 随手记 1 分钟读完 (大约127个字) 0次访问梯度爆炸原因 层数过多 链式法则是一个连乘的形式 权重初始化值过大 网络之间的梯度值大于 1.0 表现 权重值很大甚至溢出 模型不稳定,更新过程中损失出现显著变化 发生梯度爆炸有什么表现? 模型无法从训练数据中获得更新 模型不稳定,导致更新过程中的损失出现显著变化 训练过程中,模型损失变成 NaN 网络回响梯度爆炸https://blog.xiang578.com/post/logseq/137696.html作者Ryen Xiang发布于2026-02-17更新于2026-02-17许可协议