2026-02-172026-02-17 随手记 1 分钟读完 (大约189个字) 0次访问

A Survey of Transformers

[[PTM]] pre-train-model

17 年 Google 发表论文「Attention is all you need」提出 Transformers 框架，之后一大批人在此基础上进行研究和应用。原始 Transformer 改进的变体被称为「X-formers」。

X-formers 改进方向有三个：

Model Efficiency
- self-attetion 带来的计算量和参数量(内存)
  - divide-and-conquer methods 分治方法

背景知识

模型使用形式

根据对原始 Transformer 的改进分类：architecture modification, pre-training, and applications

[[Layer Normalization]]

A Survey of Transformers

Ryen Xiang

2026-02-17

2026-02-17