Dynamic NTK

分析:固定缩放的缺陷分析 #card

  • 在NTK中 S=LLS=\frac{L^{\prime}}{L} ,在推理时,这里的 SS 是固定的( LL^{\prime} 是固定的扩展上下文大小,LL 是预训练时候的最大上下文长度)。但是,这可能导致推理的序列长度 <L<L 时会损失模型性能。

image.png

动态 NTK 的公式定义 :-> 动态缩放因子:S=max(1,l/L)S=\max \left(1, l^{\prime} / L\right) ,其中 ll^{\prime} 是当前输入的实际长度。,这就允许模型在达到训练的上下文限制时较为缓慢地退化性能,避免了骤降。

  • 逻辑:#card
    • lLl^{\prime} \leq L 时,S=1S=1 ,频率基保持原样,位置编码与预训练一致。

    • l>Ll^{\prime}>L 时,S=l/L>1S=l^{\prime} / L>1 ,按实际需要的长度逐步增加频率基的缩放,避免突然调整。

作者

Ryen Xiang

发布于

2025-04-20

更新于

2025-04-20

许可协议


网络回响

评论