.. _sec_transformer: Transformer =========== :numref:`subsec_cnn-rnn-self-attention`\ 中比较了卷积神经网络（CNN）、循环神经网络（RNN）和自注意力（self-attention）。值得注意的是，自注意力同时具有并行计算和最短的最大路径长度这两个优势。因此，使用自注意力来设计深度架构是很有吸引力的。对比之前仍然依赖循环神经网络实现输入表示的自注意力模型 :cite:`Cheng.Dong.Lapata.2016,Lin.Feng.Santos.ea.2017,Paulus.Xiong.Socher.2017`\ ，Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层 :cite:`Vaswani.Shazeer.Parmar.ea.2017`\ 。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。模型 ---- Transformer作为编码器－解码器架构的一个实例，其整体架构图在 :numref:`fig_transformer`\ 中展示。正如所见到的，Transformer是由编码器和解码器组成的。与 :numref:`fig_s2s_attention_details`\ 中基于Bahdanau注意力实现的序列到序列的学习相比，Transformer的编码器和解码器是基于自注意力的模块叠加而成的，源（输入）序列和目标（输出）序列的\ *嵌入*\ （embedding）表示将加上\ *位置编码*\ （positional encoding），再分别输入到编码器和解码器中。 .. _fig_transformer: .. figure:: ../img/transformer.svg :width: 500px transformer架构图 :numref:`fig_transformer`\ 中概述了Transformer的架构。从宏观角度来看，Transformer的编码器是由多个相同的层叠加而成的，每个层都有两个子层（子层表示为\ :math:`\mathrm{sublayer}`\ ）。第一个子层是\ *多头自注意力*\ （multi-head self-attention）汇聚；第二个子层是\ *基于位置的前馈网络*\ （positionwise feed-forward network）。具体来说，在计算编码器的自注意力时，查询、键和值都来自前一个编码器层的输出。受 :numref:`sec_resnet`\ 中残差网络的启发，每个子层都采用了\ *残差连接*\ （residual connection）。在Transformer中，对于序列中任何位置的任何输入\ :math:`\mathbf{x} \in \mathbb{R}^d`\ ，都要求满足\ :math:`\mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d`\ ，以便残差连接满足\ :math:`\mathbf{x} + \mathrm{sublayer}(\mathbf{x}) \in \mathbb{R}^d`\ 。在残差连接的加法计算之后，紧接着应用\ *层规范化*\ （layer normalization） :cite:`Ba.Kiros.Hinton.2016`\ 。因此，输入序列对应的每个位置，Transformer编码器都将输出一个\ :math:`d`\ 维表示向量。 Transformer解码器也是由多个相同的层叠加而成的，并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外，解码器还在这两个子层之间插入了第三个子层，称为\ *编码器－解码器注意力*\ （encoder-decoder attention）层。在编码器－解码器注意力中，查询来自前一个解码器层的输出，而键和值来自整个编码器的输出。在解码器自注意力中，查询、键和值都来自上一个解码器层的输出。但是，解码器中的每个位置只能考虑该位置之前的所有位置。这种\ *掩蔽*\ （masked）注意力保留了\ *自回归*\ （auto-regressive）属性，确保预测仅依赖于已生成的输出词元。在此之前已经描述并实现了基于缩放点积多头注意力 :numref:`sec_multihead-attention`\ 和位置编码 :numref:`subsec_positional-encoding`\ 。接下来将实现Transformer模型的剩余部分。 .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python import math import mindspore import pandas as pd from mindspore import nn from d2l import mindspore as d2l .. raw:: html

.. raw:: html

.. raw:: latex \diilbookstyleinputcell .. code:: python import math import pandas as pd import torch from torch import nn from d2l import torch as d2l .. raw:: html

.. raw:: html

基于位置的前馈网络 ------------------ 基于位置的前馈网络对序列中的所有位置的表示进行变换时使用的是同一个多层感知机（MLP），这就是称前馈网络是\ *基于位置的*\ （positionwise）的原因。在下面的实现中，输入\ ``X``\ 的形状（批量大小，时间步数或序列长度，隐单元数或特征维度）将被一个两层的感知机转换成形状为（批量大小，时间步数，\ ``ffn_num_outputs``\ ）的输出张量。 .. raw:: html