深度学习进阶（二）多头自注意力机制（Multi-Head Attention） - 哥布林学者

科技

深度学习进阶（二）多头自注意力机制（Multi-Head Attention） – 哥布林学者

深度学习进阶（二）多头自注意力机制（Multi-H..

作者

观澜Media

2026-04-02

无评论

3 分

阅读时间

深度学习进阶（二）多头自注意力机制（Multi-Head Attention） – 哥布林学者 – 博客园 Loading Goblinscholar 博客园首页新随笔联系订阅 –> 管理深度学习进阶（二）多头自注意力机制（Multi-Head Attention）在第一篇中，我们已经得到了自注意力的核心公式： \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \mathbf{V} \] 再概述一下自注意力的本质：通过一次全局加权，将序列中的所有信息重新融合到每一个位置上，最终强化信息表示。

但单头的自注意力还是有些局限：一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) 只能用一种方式去理解序列。

这其实和在卷积层中使用多个卷积核是相似的道理，我们不能只用一个卷积核去提取纹理、色彩、形状等所有特征。

同理，我们不能指望一组参数矩阵就能学习到序列在语义、语法、情感等多个方面的关联。

因此，我们在实际算法设计中，使用的往往是多头自注意力。

具体来说就是：不再只用一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) ，而是同时学习 \(h\) 组不同的参数矩阵，这样的每一组参数矩阵就是一个“头”，综合所有头的注意力信息，得到最终输出。

来源：博客园