2026-02-17 2026-02-17 随手记 1 分钟读完 (大约130个字) 0次访问梯度裁剪常见做法 根据参数的 gradient 值直接进行裁剪 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪 设定 clip_norm 反向传播后计算参数 gradient 构成 vector 的 L2norm,记为 LNorm 计算缩放因子 scale_factor = clip_norm/LNorm tf.clip_by_global_norm Ref 梯度裁剪及其作用 | 吴良超的学习笔记 (wulc.me) 网络回响梯度裁剪https://blog.xiang578.com/post/logseq/137697.html作者Ryen Xiang发布于2026-02-17更新于2026-02-17许可协议