观澜Media

AI技术 · 深度资讯 · 前沿观察

深度学习进阶(一)从注意力到自注意力 – 哥布林学者

深度学习进阶(一)从注意力到自注意力 &#8211..

深度学习进阶(一)从注意力到自注意力 – 哥布林学者 – 博客园 Loading Goblinscholar 博客园 首页 新随笔 联系 订阅 –> 管理 深度学习进阶(一)从注意力到自注意力 新分类续接之前的 注意力机制 内容开始,展开一些更现代的理论。

在之前的 深度学习 内容中,我们已经介绍了注意力机制的核心流程,其本质可以概括为: 在解码的每一个时间步增加注意力计算得到上下文向量,让模型可以根据当前状态,从输入序列中动态选择相关信息。

实际上,你会发现: 在这个传播过程中,传统的注意力机制只是一个插件。

在这个机器翻译的例子里,模型的主干仍然是 RNN,如果在解码的每一步去除了注意力计算,那么整个模型就是一个常见的不等长循环神经网络。

而注意力计算的实质,其实是对解码器每一步的隐藏状态到该步输出间的一次“再加工”。

于是一个想法产生了: 既然这种“信息增强”在本质上是有益的,为什么我们要把它限制在解码阶段。

来源:博客园

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

搜索归档

Access over the years of investigative journalism and breaking reports