2025-06-072025-06-07 随手记 2 分钟读完 (大约300个字) 0次访问

YARN

波长的引入

#card 在某个维度i下，波长被定义为：$\lambda_i=\frac{2 \pi}{\theta_i}=\frac{2 \pi}{b^{-2 i / d}}=2 \pi b^{2 i / d}$ ，因此，有如下结论：
- 波长可描述为：在维度处嵌入的旋转位置执行全旋转 $2 \pi$ 所需的token长度。
- 维度越高波长越长。
波长描述了维度i处执行全旋转2π所需的token长度 #card
YaRN 和 PI和NTK这种类型的插值方案区别 #card
- 像PI和NTK这种类型的插值方案不关心波长的维数，可以将其称为“盲”插值方法（blind interpolation），因为它们面对所有RoPE隐藏维度没有做任何针对性的处理。
- YaRN，可将其归类为“有针对性的”插值方法，即对RoPE的不同维度做出不同处理。

YARN

Ryen Xiang

2025-06-07

2025-06-07