Neural Tangent Kernel
现状:PI会在扩展倍数特别大时显著降低位置编码区分不同位置的能力,这种现象称之为高频信息的损失。
-
[[RoPE]] 中周期和频率关系 #card
-
PI 频率降低、角频率降低、旋转角度降低原因 #card
NKT(Neural Tangent Kernel)的思想 :-> 高频外推+低频内插,即将 改为 ,也就是改变了基底(这里 , 。
-
位置编码的本质是求位置n的β进制数 #card
-
NKT推导2——统一高频外推和低频内插 #card
代码修改 #card
1 | from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig |
Neural Tangent Kernel
https://blog.xiang578.com/post/logseq/Neural Tangent Kernel.html