2026-02-172026-02-17 随手记 6 分钟读完 (大约843个字) 0次访问

Attention

$c_{i}=\sum_{j=1}^{T_{x}} \alpha_{i j} h_{j}$

$\alpha_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{T_{x}} \exp \left(e_{i k}\right)}$ 是隐藏状态 $h_j$ 的权重
- 用 softmax 得到一个强度表征
- 为什么需要使用 softmax 做归一化 #card
  - 避免 attention score 数值过大，导致优化不稳定(数值小的部分)
  - 保证 score 非负

$e_{i j}=a\left(s_{i-1}, h_{j}\right)$ 是注意力打分机制

聚焦式（focus）注意力：

$$\text{ Attention (Query, Source) }=\sum_{i=1}^{L_{x}} \text{ Similarity (Query, Key}{i} ) * \text{Value}{i}$$

流程可视化

为什么要用 attention

按计算区域划分

soft-attention(global attention) → query 对所有 key 求相似度权重，得到 m*n 的 attention score
- $\begin{aligned} \operatorname{att}((K, V), \mathbf{q}) &=\sum_{i=1}^{N} \alpha_{i} \mathbf{v}{i} \ &=\sum{i=1}^{N} \frac{\exp \left(s\left(\mathbf{k}{i}, \mathbf{q}\right)\right)}{\sum{j} \exp \left(s\left(\mathbf{k}{j}, \mathbf{q}\right)\right)} \mathbf{v}{i} \end{aligned}$
hard-attention → 直接精准定位到某个 key，其余的 key 不管，单个样本 query 仅对单个 key 进行相似度计算，得到 m*1 的 attention score
local-attention → hard定位单个key，以这个 key 为中心取周围区域，计算各个窗口的 soft-attention，得到 m*k 的 attention score

按所用信息

按使用模型

[[Attention 按 QKV 划分]]

注意力计算方式 Neural Machine Translation by Jointly Learning to Align and Translate

Ref

Attention

Ryen Xiang

2026-02-17

2026-02-17