为什么要做MTP
针对token-by-token生成效率的瓶颈,业界很多方法来优化,包括减少存储的空间和减少访存次数等,进而提升训练和推理性能。
- 本文要学习的MTP方法,也是优化训练和推理效率的一个分支系列。
核心思想:通过解码阶段的优化,将1-token的生成,转变成multi-token的生成,从而提升训练和推理的性能。具体来说,#card
-
在训练阶段,一次生成多个后续token,可以一次学习多个位置的label,进而有效提升样本的利用效率,提升训练速度;
-
在推理阶段通过一次生成多个token,实现成倍的推理加速来提升推理性能。