深度学习进阶(二)多头自注意力机制(Multi-Head Attention) – 哥布林学者 – 博客园 Loading Goblinscholar 博客园 首页 新随笔 联系 订阅 –> 管理 深度学习进阶(二)多头自注意力机制(Multi-Head Attention) 在 第一篇 中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \mathbf{V} \] 再概述一下自注意力的本质: 通过一次全局加权,将序列中的所有信息重新融合到每一个位置上,最终强化信息表示。
但单头的自注意力还是有些局限: 一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) 只能用一种方式去理解序列。
这其实和在卷积层中使用多个卷积核是相似的道理,我们不能只用一个卷积核去提取纹理、色彩、形状等所有特征。
同理,我们不能指望一组参数矩阵就能学习到序列在语义、语法、情感等多个方面的关联。
因此,我们在实际算法设计中,使用的往往是 多头自注意力。
具体来说就是:不再只用一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) , 而是 同时学习 \(h\) 组不同的参数矩阵 ,这样的每一组参数矩阵就是一个“头”,综合所有头的注意力信息,得到最终输出。
来源:博客园











