RoPE

设计目标:通过绝对位置编码的方式实现相对位置编码 #card
image.png

设计思路:在NLP中,通常会通过向量q和k的内积来计算注意力系数(ATTN),如果能够对q、k向量注入位置信息,然后用更新的q、k向量做内积就能丝滑地引入 {{c1 位置信息}} 了。

图3-1:RoPE的两种解释(左:直观解释,右:原始推导) #card
image.png

图3-2:RoPE的操作示意图 #card
image.png

Transformer升级之路:2、博采众长的旋转式位置编码 - 科学空间|Scientific Spaces

LLM学习记录(五)–超简单的RoPE理解方式 - 知乎

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论