Dynamic NTK

分析:固定缩放的缺陷分析 #card

  • 在NTK中 $S=\frac{L^{\prime}}{L}$ ,在推理时,这里的 $S$ 是固定的( $L^{\prime}$ 是固定的扩展上下文大小,$L$ 是预训练时候的最大上下文长度)。但是,这可能导致推理的序列长度 $<L$ 时会损失模型性能。

image.png

动态 NTK 的公式定义 :-> 动态缩放因子:$S=\max \left(1, l^{\prime} / L\right)$ ,其中 $l^{\prime}$ 是当前输入的实际长度。,这就允许模型在达到训练的上下文限制时较为缓慢地退化性能,避免了骤降。

  • 逻辑:#card
    • 当 $l^{\prime} \leq L$ 时,$S=1$ ,频率基保持原样,位置编码与预训练一致。

    • 当 $l^{\prime}>L$ 时,$S=l^{\prime} / L>1$ ,按实际需要的长度逐步增加频率基的缩放,避免突然调整。

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论