手撕 Transformer (2):嵌入层和位置编码的实现 – 茴香豆的茴 – 博客园 茴香豆的茴 博客园 首页 新随笔 联系 订阅 –> 管理 手撕 Transformer (2):嵌入层和位置编码的实现 本文详细讲解了Transformer输入部分的实现,包括嵌入层和位置编码。
嵌入层将词汇数字表示转换为向量表示,并通过乘以$\sqrt{d_{model}}$来放大信号。
位置编码为并行处理的Transformer补充顺序信息,与嵌入向量相加后输入模型。
文章通过PyTorch代码演示了嵌入层的实现细节,包括随机初始化、训练更新机制以及填充处理(padding_idx)。
同时解释了位置编码的必要性,指出其用于解决Transformer因并行处理而缺乏顺序感知的问题。
本文进行嵌入层和位置编码的代码实现和原理讲解。
来源:博客园











