观澜Media

AI技术 · 深度资讯 · 前沿观察

深度学习进阶(二)多头自注意力机制(Multi-Head Attention) – 哥布林学者

深度学习进阶(二)多头自注意力机制(Multi-H..

深度学习进阶(二)多头自注意力机制(Multi-Head Attention) – 哥布林学者 – 博客园 Loading Goblinscholar 博客园 首页 新随笔 联系 订阅 –> 管理 深度学习进阶(二)多头自注意力机制(Multi-Head Attention) 在 第一篇 中,我们已经得到了自注意力的核心公式: \[\mathrm{Attention}(\mathbf{Q},\mathbf{K},\mathbf{V})=\mathrm{softmax}\left(\frac{ \mathbf{Q}\mathbf{K}^T}{\sqrt{d_k}}\right) \mathbf{V} \] 再概述一下自注意力的本质: 通过一次全局加权,将序列中的所有信息重新融合到每一个位置上,最终强化信息表示。

但单头的自注意力还是有些局限: 一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) 只能用一种方式去理解序列。

这其实和在卷积层中使用多个卷积核是相似的道理,我们不能只用一个卷积核去提取纹理、色彩、形状等所有特征。

同理,我们不能指望一组参数矩阵就能学习到序列在语义、语法、情感等多个方面的关联。

因此,我们在实际算法设计中,使用的往往是 多头自注意力。

具体来说就是:不再只用一组 \((\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}_V)\) , 而是 同时学习 \(h\) 组不同的参数矩阵 ,这样的每一组参数矩阵就是一个“头”,综合所有头的注意力信息,得到最终输出。

来源:博客园

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports