2025-03-082025-03-08 随手记 1 分钟读完 (大约213个字) 0次访问

为什么要做MTP

针对token-by-token生成效率的瓶颈，业界很多方法来优化，包括减少存储的空间和减少访存次数等，进而提升训练和推理性能。

本文要学习的MTP方法，也是优化训练和推理效率的一个分支系列。

核心思想：通过解码阶段的优化，将1-token的生成，转变成multi-token的生成，从而提升训练和推理的性能。具体来说，#card

在训练阶段，一次生成多个后续token，可以一次学习多个位置的label，进而有效提升样本的利用效率，提升训练速度；
在推理阶段通过一次生成多个token，实现成倍的推理加速来提升推理性能。

为什么要做MTP

https://blog.xiang578.com/post/logseq/为什么要做MTP.html

作者

Ryen Xiang

发布于

2025-03-08

更新于

2025-03-08

许可协议

网络回响

评论