YARN
波长的引入
- 在某个维度i下,波长被定义为: ,因此,有如下结论:#card
- 波长可描述为:在维度处嵌入的旋转位置执行全旋转 所需的token长度。
- 维度越高波长越长。
- 波长描述了维度i处执行全旋转2π所需的token长度 #card

- YaRN 和 PI和NTK这种类型的插值方案区别 #card
- 像PI和NTK这种类型的插值方案不关心波长的维数,可以将其称为“盲”插值方法(blind interpolation),因为它们面对所有RoPE隐藏维度没有做任何针对性的处理。
- YaRN,可将其归类为“有针对性的”插值方法,即对RoPE的不同维度做出不同处理。
[[NTK-by-parts]](局部NTK)
YARN
- YARN 在实际使用过程中,为了实现该公式,只需要将m位置和 位置的旋转位置嵌入各自缩放为原来的 即可。#card
