为什么要做MTP

针对token-by-token生成效率的瓶颈,业界很多方法来优化,包括减少存储的空间和减少访存次数等,进而提升训练和推理性能。

  • 本文要学习的MTP方法,也是优化训练和推理效率的一个分支系列。

核心思想:通过解码阶段的优化,将1-token的生成,转变成multi-token的生成,从而提升训练和推理的性能。具体来说,#card

  • 在训练阶段,一次生成多个后续token,可以一次学习多个位置的label,进而有效提升样本的利用效率,提升训练速度;

  • 在推理阶段通过一次生成多个token,实现成倍的推理加速来提升推理性能。

作者

Ryen Xiang

发布于

2025-03-08

更新于

2025-03-08

许可协议


网络回响

评论