Interpretable Multi-Head Attention
((6428463d-b89b-48fe-b133-40a5b0b754f3))
相对于 [[Multi-Head Attention]] 的修改
- 参数角度 #card
- 针对 V 是多头共享参数 ((64301bc3-76e6-4854-a56f-087b94ca34e4)),
- 对 Q 和 K 是多头独立参数
- 每个头使用不同的值,仅凭注意力权重无法表明特定特征的重要性 ((64301c24-5825-48e6-9107-f12cd7991517))
- Attention score 使用方式 #card
- 计算多头 attention score 加权后的 V(求平均), ((64301c7e-4895-4bc4-803f-58acac207daf)),
- 原始方法中是 concat
InterpretableMultiHead $(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\tilde{\boldsymbol{H}} \boldsymbol{W}_H$ 公式 #card
- $\begin{aligned} \tilde{\boldsymbol{H}} & =\tilde{A}(\boldsymbol{Q}, \boldsymbol{K}) \boldsymbol{V} \boldsymbol{W}V \ & =\left{1 / H \sum{h=1}^{m_H} A\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}\right)\right} \boldsymbol{V} \boldsymbol{W}V \ & =1 / H \sum{h=1}^{m_H} \text { Attention }\left(\boldsymbol{Q} \boldsymbol{W}_Q^{(h)}, \boldsymbol{K} \boldsymbol{W}_K^{(h)}, \boldsymbol{V} \boldsymbol{W}_V\right)\end{aligned}$
网络回响
Interpretable Multi-Head Attention