2024-10-05 2024-10-05 随手记 1 分钟读完 (大约123个字) 0次访问梯度裁剪常见做法 根据参数的 gradient 值直接进行裁剪 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪 设定 clip_norm 反向传播后计算参数 gradient 构成 vector 的 L2norm,记为 LNorm 计算缩放因子 scale_factor = clip_norm/LNorm tf.clip_by_global_norm Ref 梯度裁剪及其作用 | 吴良超的学习笔记 (wulc.me) 梯度裁剪https://blog.xiang578.com/post/logseq/梯度裁剪.html作者Ryen Xiang发布于2024-10-05更新于2024-10-05许可协议
2025-04-20@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning随手记