深度学习进阶（一）从注意力到自注意力 - 哥布林学者

科技

深度学习进阶（一）从注意力到自注意力 – 哥布林学者

深度学习进阶（一）从注意力到自注意力 &#8211..

作者

观澜Media

2026-03-31

无评论

2 分

阅读时间

深度学习进阶（一）从注意力到自注意力 – 哥布林学者 – 博客园 Loading Goblinscholar 博客园首页新随笔联系订阅 –> 管理深度学习进阶（一）从注意力到自注意力新分类续接之前的注意力机制内容开始，展开一些更现代的理论。

在之前的深度学习内容中，我们已经介绍了注意力机制的核心流程，其本质可以概括为：在解码的每一个时间步增加注意力计算得到上下文向量，让模型可以根据当前状态，从输入序列中动态选择相关信息。

实际上，你会发现：在这个传播过程中，传统的注意力机制只是一个插件。

在这个机器翻译的例子里，模型的主干仍然是 RNN，如果在解码的每一步去除了注意力计算，那么整个模型就是一个常见的不等长循环神经网络。

而注意力计算的实质，其实是对解码器每一步的隐藏状态到该步输出间的一次“再加工”。

于是一个想法产生了：既然这种“信息增强”在本质上是有益的，为什么我们要把它限制在解码阶段。

来源：博客园

关于作者

观澜Media

See author's post

2026-03-31

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

关注我们

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

查看全部

国内

支联会案：官禁当年留守天安门至最后记者谈见证和展示六四照片

观澜Media

2026-03-31
国际

路透洞察：中国正绘制海床地图好为与美国的潜艇战做准备

观澜Media

2026-03-31
国际

法国总统马克龙携夫人3月31日到访日本

观澜Media

2026-03-31
国际

日本首在熊本和静冈两处基地部署远程导弹威慑中国与朝鲜

观澜Media

2026-03-31
国际

马克龙访日韩：中东危机、G7筹备与亚太战略的新机遇

观澜Media

2026-03-31
互联网

伊朗首都德黑兰和中部军事设施遭袭击发生巨大爆炸

观澜Media

2026-03-31

观澜Media