Positional Encoding

为什么使用

如何理解Transformer论文中的positional encoding,和三角函数有什么关系? - 知乎 (zhihu.com) #card

  • 如何构建一种位置编码?
    • 直接使用下标计数 PE= pos
      • 序列没有上限,后面的词可能位置编码非常大。
    • 使用文本长度对每个位置归一化 PE = pos/(T-1)
      • 不同长度文本的位置编码步长是不同的,长文本和短文本中两个相邻词的位置编码存在差异
    • 有界周期函数
  • 本质对位置信息进行建模,需要满足
    • 需要体现同一个单词在不同位置的区别
    • 相对次序关系,体现先后次序关系,编码差异不应该依赖于文本长度
    • 值域落在一定数值区间内

Ref

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论