2026-02-172026-02-17 随手记 1 分钟读完 (大约177个字) 0次访问

Learning Rate Decay

训练集的损失下降到一定程度后不在下降，training loss 一直在一个范围内震荡，遇到这种情况可以适当降低学习率。

常用方法

线性衰减，每过 5 个 epochs 学习率减半
[[指数衰减]]
- decayed_learning_rate=learning_rate*decay_rate^(global_step/decay_steps)

[[Adam]] 自适应的优化方法还需要学习率衰减吗？

Learning Rate Decay

Ryen Xiang

2026-02-17

2026-02-17