Learning Rate Decay

训练集的损失下降到一定程度后不在下降,training loss 一直在一个范围内震荡,遇到这种情况可以适当降低学习率。

常用方法

  • 线性衰减,每过 5 个 epochs 学习率减半
  • [[指数衰减]]
    • decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)

[[Adam]] 自适应的优化方法还需要学习率衰减吗?

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论