2024-10-05 2024-10-05 随手记 1 分钟读完 (大约180个字) 0次访问LazyAdamNLP 之类的任务,每个 batch 采样到的词有限,每次更新对 embedding 的梯度估计是稀疏的,对 momentum-based 的 Optimizer,现在所有框架实现都会用当前的 momentum 去更新所有的词,即时这些词在连续的几十步更新都没有被采样到,这可能会使 embedding 过拟合。 LazyAdam 仅更新当前 batch 中出现的稀疏变量索引的移动平均累加器,而不是更新所有索引的累加器。 Ref 优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)_sgd收敛比adam慢_糖葫芦君的博客-CSDN博客 LazyAdamhttps://blog.xiang578.com/post/logseq/LazyAdam.html作者Ryen Xiang发布于2024-10-05更新于2024-10-05许可协议 Optimization
2025-04-20@Towards Personalized and Semantic Retrieval: An End-to-End Solution for E-commerce Search via Embedding Learning随手记