Interpretable Multi-Head Attention

((6428463d-b89b-48fe-b133-40a5b0b754f3))

相对于 [[Multi-Head Attention]] 的修改

  • 参数角度 #card
    • 针对 V 是多头共享参数 ((64301bc3-76e6-4854-a56f-087b94ca34e4)),
    • 对 Q 和 K 是多头独立参数
      • 每个头使用不同的值,仅凭注意力权重无法表明特定特征的重要性 ((64301c24-5825-48e6-9107-f12cd7991517))
  • Attention score 使用方式 #card
    • 计算多头 attention score 加权后的 V(求平均), ((64301c7e-4895-4bc4-803f-58acac207daf)),
    • 原始方法中是 concat

InterpretableMultiHead $(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\tilde{\boldsymbol{H}} \boldsymbol{W}_H$ 公式 #card

  • $\begin{aligned} \tilde{\boldsymbol{H}} & =\tilde{A}(\boldsymbol{Q}, \boldsymbol{K}) \boldsymbol{V} \boldsymbol{W}V \ & =\left{1 / H \sum{h=1}^{m_H} A\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}\right)\right} \boldsymbol{V} \boldsymbol{W}V \ & =1 / H \sum{h=1}^{m_H} \text { Attention }\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}, \boldsymbol{V} \boldsymbol{W}_V\right)\end{aligned}$

网络回响

Interpretable Multi-Head Attention

https://blog.xiang578.com/post/logseq/52122.html

作者

Ryen Xiang

发布于

2026-02-17

更新于

2026-02-17

许可协议


评论