A Survey of Transformers
[[PTM]] pre-train-model
17 年 Google 发表论文 「Attention is all you need」提出 Transformers 框架,之后一大批人在此基础上进行研究和应用。原始 Transformer 改进的变体被称为 「X-formers」。
X-formers 改进方向有三个:
- Model Efficiency
- self-attetion 带来的计算量和参数量(内存)
- divide-and-conquer methods 分治方法
- self-attetion 带来的计算量和参数量(内存)
背景知识
模型使用形式
Encoder-Decoder
根据对原始 Transformer 的改进分类:architecture modification, pre-training, and applications
- architecture modification
- Module Level
- OTHER MODULE-LEVEL MODIFICATIONS
- Position Representations
- Relative Position Representations.
- Transformer-XL
- Relative Position Representations.
- LayerNorm
- Placement of Layer Normalization
- post-LN
- Placement of Layer Normalization
- Position Representations
- OTHER MODULE-LEVEL MODIFICATIONS
- Arch. Level
- Transformers with Divide-and-Conquer Strategies
- Recurrent Transformers 上一个 T 输出信息输入到下一个输入
- Transformer-XL 上一个输出和下一个输入 concat 在一起
- Recurrent Transformers 上一个 T 输出信息输入到下一个输入
- Transformers with Divide-and-Conquer Strategies
- Module Level
[[Layer Normalization]]
网络回响
A Survey of Transformers