RoPE

设计思路:在NLP中,通常会通过向量q和k的内积来计算注意力系数(ATTN),如果能够对q、k向量注入位置信息,然后用更新的q、k向量做内积就能丝滑地引入 位置信息 了。
图3-1:RoPE的两种解释(左:直观解释,右:原始推导)#card
image.png

图3-2:RoPE的操作示意图#card
image.png

作者

Ryen Xiang

发布于

2025-04-17

更新于

2025-04-17

许可协议


网络回响

评论