Dynamic NTK
分析:固定缩放的缺陷分析 #card
- 在NTK中 ,在推理时,这里的 是固定的( 是固定的扩展上下文大小, 是预训练时候的最大上下文长度)。但是,这可能导致推理的序列长度 时会损失模型性能。
动态 NTK 的公式定义 :-> 动态缩放因子: ,其中 是当前输入的实际长度。,这就允许模型在达到训练的上下文限制时较为缓慢地退化性能,避免了骤降。
- 逻辑:#card
-
当 时, ,频率基保持原样,位置编码与预训练一致。
-
当 时, ,按实际需要的长度逐步增加频率基的缩放,避免突然调整。
-