Transformer架构

发表于2025-01-10|更新于2025-01-17|深度学习基础

|浏览量:

Transformer与self-attention间的关系

Transformer 是一种基于 self-attention 机制的深度学习架构，主要用于自然语言处理任务。Transformer 的典型结构包括编码器（Encoder）和解码器（Decoder），其中每个编码器和解码器层都使用了 self-attention 机制。

使用 self-attention 的 Transformer 模型可以比传统的递归神经网络（RNN）并行计算，更加高效，并且能够捕捉到丰富的上下文关系。

什么是Transformer？

Transformer是一种处理seq2seq的模型，并且输出的seq长度未知，由机器自己决定。常用的应用有语音转文字、机器翻译这种

Transformer架构的基本组成：

Encoder

对于编码器而言，其目标是输入一串向量，输出为同样长度的一串向量，能做到这件事的有很多种方式，比如RNN、CNN、self-attention等。在Encoder中，我们使用的是self-attention。

Encoder的基本结构是这样的：

这里的每一个Block里都有多个layer，在transformer中每个Block的具体实现如下：

具体而言是这样的：

每个self-attention层的输出变成了其原先的输出+输入，这种操作称为残差连接（residual connection），随后把这个新输出进行一遍layer norm（与batch norm不同），这样得到的输出导入下面的FC层
在FC层中，同样要进行残差连接和layer norm，最后得到的输出才是该Block的输出

当然上述Encoder的设计是最原版的，并不一定是最优的

Decoder

自回归解码器 Autoregressive-Decoder

首先，对于Decoder的输出而言，首先要确定一个词汇表：

该词汇表是一个长度为V的向量，各元素是我想要输出的东西，右边的数字是每个元素出现的概率。这些数字是经过softmax的，所以其和为1。

当然概率最大的元素就是最终的输出。
例如要输出的是中文，那这个向量可以是全部的中文字
如果输出的是英文，那这个向量可以是字母、单词、subword等

在运行过程中，首先Encoder会通过某种方式将其输出加载进Decoder中。然后Decoder会被输入一个token叫BEGIN，这个BEGIN代表开始功能。随后，有BEGIN导出的第一个输出又会作为输入：

此时的输入是BEGIN和上一次的输出

循环往复做下去，最终达到的结果是这样的：

下面叙述一下Decoder内部在干什么：

实际上Decoder在做的事和Encoder很类似，除了这里的self-attention层用的是masked版本。对于Decoder而言，其某个向量的输出只需要考虑该向量的输入和在该向量之前的所有向量的输入，不需要考虑所有输入向量（其实也没法考虑）

Decoder是如何确定自己的输出长度是多少的？

如果始终保持上面提到的算法，那么在输入“习”字以后，又会产生新的输出；这样就会根本停不下来。为了解决这个问题，我们需要在原来的词汇表中增加一个END字符来表示输出结束。

当输入“习”以后，其输出中END字符的概率应该最大。

非自回归解码 Non-autoregressive Decoder

NAT的Decoder是将一排BEGIN作为输入，一步到位生成输出的句子。

既然AT是通过END字符来控制输出的长度，那NAT是通过什么方式来控制的？

一种方式是再加一个预测器，这个预测器的输入是Encoder的输出，输出是预测的Decoder的输出长度
另一种方式是：首先确定可能是输出最长长度（比如说N），那我就只需要输入N个BEGIN即可。随后观察到哪个BEGIN的输出是END，就把END以后的输出都丢弃即可。

NAT相比AT而言，有如下优势：

AT是后一个的输入依赖前一个的输出，而NAT则不需要，因此可以并行执行
NAT还可以方便地控制输出的长度

交叉注意力Cross Attention

Cross Attention是连接Encoder和Decoder的桥梁，下面介绍Encoder的输出是如何传递到Decoder中去的。

在最原版的transformer中，Decoder的每一层所用到的都是Encoder的最终输出。实际上各种变体还是很多的，比如Decoder每层看Encoder对应层、Decoder第一层看Encoder最后一层，Decoder第二层看Encoder倒数第二层······。

如何训练Transformer

transformer的训练实际上与分类问题一致。每一个输出的汉字都是一个one-hot的向量，我们的目标是让这个one-hot向量和Decoder输出的概率分布向量的cross entropy最小。

当多个向量输入时，我们就要使得所有向量的cross entropy的总和最小。

要注意还有END这个特殊字符

在这里Decoder的输入是“正确答案”，这种训练方式叫Teacher forcing。

文章作者: Linghao Zhang

文章链接: http://zlh123123.github.io/2025/01/10/Transformer%E6%9E%B6%E6%9E%84/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源好急好急的Hexo博客！

相关推荐

CNN卷积神经网络

CNN属于网络架构的一种，其一般被用于影像领域。如何去做图像分类图片在计算机中的存储通常是以3维张量来进行的。例如一张图片是100像素*100像素，每个像素由RGB3个channel组成（这个数值代表这个颜色的强度）；那么要表示这张图片就需要3⋅100⋅1003\cdot100\cdot1003⋅100⋅100个数据。我们将这些数据做成应该向量作为神经网络的输入。那么就会面临一个问题：例如第一层的神经元共1000个，输入向量为3⋅100⋅1003\cdot100\cdot1003⋅100⋅100个，那么光第一层所需要的weight数量就高达3⋅100⋅100⋅1000=3⋅1073\cdot100\cdot100\cdot1000=3\cdot10^73⋅100⋅100⋅1000=3⋅107个，这样会拖慢训练进度，还容易造成过拟合。因此我们需要进行优化：和人眼一样，图片分类时机器也只需要关注这张图片中最关键的部分就可以了。因此每个神经元的输入不需要是完整的图片。我们为每个神经元分配一个Receptive field，该神经元只需要输入该Receptive...

Classification分类

这节的Classification分类，指的是函数的输出是从给定的几个选项中选取的。如何做好机器学习？首先需要判断在训练集上的Loss大小：如果训练集Loss偏大，那就是Model Bias或者优化的问题 Model...

GAN生成式对抗网络

什么是生成式所有的网络功能可以分为两种，一种是判别式的，给定一个输入x，其会输出一个固定的y；另一种是生成式的，此时的输入除了x，还会有一个随机性的z：在这里z的分布应当比较简单（可以用函数式来表示）由于z随机，输出的y也具有随机性，可以看作是一个复杂的分布我们把这样的网络称为Generator生成器。这样的网络是为了解决这种情况：同样的输入应该有不同的输出，而这些不同的输出都是正确的。或者说这个模型是带点创造力在的。 Unconditional...

RNN循环神经网络

Regression回归分析

什么是Regression？所谓的机器学习，其实就是一个找函数的过程。但是这个函数往往很复杂，靠人是找不出来的，要依靠机器采用某种方法才能找出这个函数。例如以下几种情况：音频识别：输入为一段音频信号，输出为这段音频的内容是什么？视频识别：输入为一张图片，输出为图片的内容是什么？这节的Regression（回归分析），作为机器学习算法的一种，其面向于：函数的输出为一个数值（标量，scalar）机器学习怎么玩？进行机器学习一般的三步走：定义带有未知数的函数（Model）例如函数式y=wx+by=wx+by=wx+b，y是待预测的值，x是已知值（feature），w（weight）和b（bias）是未知数定义损失函数L，L是关于w和b的函数（即输入是weight和bias）。L用于衡量当前设定的(weight,bias)这组数值好还是不好。L的计算来源于训练数据（Training Data）。在进行预测时，我们把预测值记为yyy，把真实值记为y^\hat{y}y^（称为Label）。我们可以用∣y−y^∣\lvert...

Self-attention自注意力机制

什么是Self-attention Self-attention用于解决输入是许多向量的情况（向量个数不固定），即sequence。比如在NLP中，我们的输入是一个句子，把句子中的每一个单词看成一个向量，那么这个句子就是诸多向量的集合；并且由于句子长度会变化，这个集合的大小也会变。这种模型输出可能有3种：每个向量都对应一个输出，输入和输出的长度一致。每个输出可以是数值（Regression），可以是类别（Classification）。这种输出模式称为Sequence Labeling。比如说NLP中的词性标注，每一个单词都对应一个词性就适用这种输出。整个向量集合就一个输出。比如去判断某句话是positive还是negative就适用这种输出。输出数由模型自己决定，这种任务即seq2seq的任务。比如翻译任务，输入和输出是不同的语言，就属于seq2seq的任务。 Self-attention怎么架构？下面的介绍都以Sequence...