梯度裁剪

常见做法

  • 根据参数的 gradient 值直接进行裁剪

  • 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪

    • 设定 clip_norm

    • 反向传播后计算参数 gradient 构成 vector 的 L2norm,记为 LNorm

    • 计算缩放因子 scale_factor = clip_norm/LNorm

    • tf.clip_by_global_norm

image.png

Ref

作者

Ryen Xiang

发布于

2024-10-05

更新于

2024-10-05

许可协议


网络回响

评论