梯度裁剪

常见做法

  • 根据参数的 gradient 值直接进行裁剪
  • 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪
    • 设定 clip_norm
    • 反向传播后计算参数 gradient 构成 vector 的 L2norm,记为 LNorm
    • 计算缩放因子 scale_factor = clip_norm/LNorm
    • tf.clip_by_global_norm
      image.png

Ref

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论