A Survey of Transformers

[[PTM]] pre-train-model

17 年 Google 发表论文 「Attention is all you need」提出 Transformers 框架,之后一大批人在此基础上进行研究和应用。原始 Transformer 改进的变体被称为 「X-formers」。

X-formers 改进方向有三个:

  • Model Efficiency
    • self-attetion 带来的计算量和参数量(内存)
      • divide-and-conquer methods 分治方法

背景知识

模型使用形式

  • Encoder-Decoder

根据对原始 Transformer 的改进分类:architecture modification, pre-training, and applications

  • architecture modification
    • Module Level
      • OTHER MODULE-LEVEL MODIFICATIONS
        • Position Representations
          • Relative Position Representations.
            • Transformer-XL
        • LayerNorm
          • Placement of Layer Normalization
            • post-LN
    • Arch. Level
      • Transformers with Divide-and-Conquer Strategies
        • Recurrent Transformers 上一个 T 输出信息输入到下一个输入
          • Transformer-XL 上一个输出和下一个输入 concat 在一起

[[Layer Normalization]]

网络回响

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论