一文读懂Transformer

时间：2022-07-11 16:47:01 来源：作者：数据派THU

Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。

主流的序列到序列模型是基于编码器-解码器的循环或卷积神经网络，注意力机制的提出，优化了编解码器的性能，从而使得网络性能达到最优。利用注意力机制构建出新的网络架构Transformer, 完胜了循环或卷积神经网络。Transformer 是第一个完全依赖于自注意力机制来计算其输入和输出的表示的转换模型。Transformer可以并行训练，训练时间更短。

1 Transformer的模型架构

序列到序列模型采用的是编码器-解码器结构，编码器将输入序列（,,……,映射成符号表示z=（,,……,,根据给定的Z ，解码器生成输出序列（,,……,,在每一个步长里，模型利用前一个步长中生成的向量和该步长的输入，生成输出符号。

Transformer模型架构如图1-1所示，编码器-解码器结构采用堆叠的多头注意力机制加全连接层，图中左边的是编码器结构，右边的是解码器结构：

图 1-1 堆叠的编码器-解码器结构（来源：网络）

编码器：编码器由6个相同的块结构堆叠而成 N=6，每个块结构进一步分成两个子层：即一个多头的自注意力机制和一个前馈网络全连接层，在块中的每一个子层之后，增加一个归一化层（Add&Norm）,每个子层的输出均为归一化的LayerNorm(x + Sublayer(x))，包括词嵌入层，模块中所有子层的输出的维数均为512，即 = 512。

解码器：同理，解码器也由6个相同的块结构堆叠而成 N=6，每个块结构在编码器两个子层的基础之上，增加了第三个子层，即增加了一个多头自注意力子层。与编码器类似，在块中的每一个子层之后，增加一个归一化层（Add&Norm）。在解码器端，对解码器堆栈中的自注意力子层进行了修改，以防止位置编码和后续位置编码相关，通过这种掩蔽，确保了对位置i的预测只能依赖于小于i的位置的已知输出。

2 Self-attention 自注意力机制

Attention 函数将三元组Q(Query)、K(Key)、V(Value) 映射成输出，其中三元组Q(Query)、K(Key)、V(Value)和输出均为向量，输出是V(Value)的加权和，其中的权重是Q(Query)和K(Key)对应的组合计算出来的数值。

1)带缩放的点积注意力机制Scaled dot-product attention

带缩放的点积注意力机制(Scaled dot-product attention )的公式如下：

在上面公式中Q和K中的向量维度都是，V的向量维度是

，计算所有K向量和Q向量的点积，分别除以

，并应用一个Softmax函数来获得这些值的权重。实际上在self-Attention中，

，为了方便将Attention的计算转化为矩阵运算，论文中采用了点积的形式求相似度。常见的计算方法除了点积还有MLP网络，但是点积能转化为矩阵运算，计算速度更快。

两个最常用的注意力函数是：加注意力函数（Additive Attention）和点积注意力函数（Dot-product Attention）。除了

的缩放因子外，带缩放的点积注意力机制采用的是点积注意力函数，加注意力函数使用具有单个隐含层的前馈网络来计算兼容性函数。虽然这两者在理论复杂度上相似，但点积注意力函数更快，更节省空间，因为它可以使用高度优化的矩阵乘法码来实现。而对于

较小的值，这两种机制的性能相似，但在不加大更大

的值的情况下，加注意力函数优于点积注意力函数。对于较大的

值，点积相应变大，将Softmax函数推到梯度极小的区域。为了抵消这种影响，我们通过

来缩放点积。

Transformer模型在三处采用了多头注意力机制:

在编码器-解码器注意力层，Q值来自上一个解码器层，K值和V值来自编码器的输出,从而使得解码器的每一个位置信息均和输入序列的位置信息相关，这种架构模仿了序列到序列模型编解码器注意力机制。
编码器中包括自注意力层，在自注意力层中，Q 值、K值和V值均来自编码器上一层的输出，编码器中的位置信息参与到前一层的位置编码中去。
同理，解码器中的自注意力机制使得解码器中的位置信息均参与到所有位置信息的解码中去。

2)全连接前馈网络

在Transfomer编码器-解码器架构的每一块中，除了包含多头注意力机制外，还包含一个全连接前馈网络，全连接前馈网络层包含两次ReLU激活函数的线性变换。

不同层之间的全连接前馈网络的参数各不相同，模型输入输出的维度是512 = 512, 层内部的维度是2048 ，即= 2048。

3)嵌入和Softmax

和其它序列到序列的模型相类似，Transformer模型利用词嵌入技术将输入标记和输出标记转化为维度为的向量，采用可训练的线性变换和Softmax函数，将解码器的输出变换成待预测的下一个标记的概率。在Transformer模型中，两个嵌入层和Softmax层之间共享权重矩阵。

3 位置编码Positional Encoding

由于Transformer模型中既没有递归，也没有卷积，需要获得输入序列精准的位置信息的话，必须插入位置编码。位置编码精准地描述了输入序列中各个单词的绝对和相对位置信息，即在编码器-解码器的底部输入嵌入中注入“位置编码”，位置编码和输入嵌入有相同的维度，所以二者可以实现相加运算，位置编码方式可以有多种，在Transformer模型中采用的是频率不同的三角函数：

其中pos 是位置，i是维数，也就是说，位置编码的每个维数都对应于一个正弦曲线。波长从2π到10000·2π的几何变化。之所以选择这个函数是因为假设它使得模型很容易地学习相对位置，对于任何固定偏移量k，

可以表示为

的线性函数。

首先，将自注意力机制和循环卷积网络（RNN ）和卷积神经网络（CNN）进行对比,比较它们在变长序列

从三个因素来考量采用自注意力机制：首先是每一层计算的复杂程度；其次，是可以并行计算的计算量，用对序列操作的最小数目表示；第三，是网络中最长相关路径的长度。在序列学习任务中，对长序列相关性的学习是关键性的难点问题，前向和后向信号路径的长度往往是影响学习效率的关键因素，输入和输出序列之间的位置越短，前向和后向信号路径则越短，更容易学习到长序列的依赖关系，通过对比网络中输入输出序列位置的最长通路路径，来回答为什么采用自注意力机制来搭建Transformer模型。

表 3-1 不同层序列操作的的最大路径长度、每层的复杂性和最小操作数

如表3-1所示：不同层序列操作的的最大路径长度、每层的复杂性和最小操作数。n是序列长度，d是表示维数，k是卷积的核大小，r是受限自注意力中的邻域的大小。在表3-1中，自注意力机制通过

操作将序列的位置信息关联起来，而RNN则需要对序列进行

次操作。从计算的复杂程度来看，当序列长度n小于表示向量的维度d 时，在机器翻译任务中性能能达到最优。为了提高超长输入序列的计算性能，限制自注意力中的邻域r的大小,从而会使得最长相关路径的长度变为

。

卷积核维度为k 的单卷积层无法实现所有输入和输出位置信息的连接，所以要求有

层卷积层堆叠，使得最长相关路径的长度变长。通常，CNN的训练成本比RNN的训练成本要高。

从表3-1中的对比还可以看出，自注意力机制在复杂程度、并行计算的计算量和网络中最长相关路径的长度三方面均占有优势。

4 Transformer 模型的训练

4.1训练数据和批次大小

在标准的WMT2014英语-德语数据集上进行训练，这个数据集包括大约450万个句子数据对。句子采用字节对编码进行编码，源-目标词汇表中共享大约37000个标记。对于英语-法语，使用了更大的WMT2014英语-法语数据集，由3600万个句子组成，并将标记分割为32000词汇。句子对按近似的序列长度排列在一起。每个训练批都包含一组句子对，其中包含大约25000个源标记和25000个目标标记。

4.2 硬件配置

使用8 NVIDIAP100 GPU上训练了Transfomer模型，使用超参数的基本模型，每个训练步长大约需要花费0.4秒的时间，对基本模型总共训练了10万步或12个小时。对于大模型，步长时间为1.0秒，大模型训练了30万步（3.5天）。

4.3 优化器

采用Adam 优化器，参数设置为h β1 = 0.9, β2 = 0.98，并依据下述公式调整学习率：

对应于第一个warmup_steps训练步长，学习率线性增加，在后续步长中，学习率随着步长的平方根成正比例下降，其中，warmup_steps =4000。

4.4 正则化

在训练过程中采用了三种正则化方法：

残差Dropout：在添加子层的输入和归一化之前，将Dropout机制应用于每个子层的输出，同时在编码器-解码器堆叠的嵌入过程和位置编码过程中加入Dropout机制，

= 0.1。

4.5 训练结果

机器翻译

在WMT2014英德翻译任务中，Transformer (big)比之前报告的最佳模型（包括集成）高出2.0多个BLEU，获得BLEU分数为28.4。该模型的配置列于表5-2的底部。在8个P100 GPU 上进行训练需要3.5天。甚至基本模型也超过了所有之前发布的模型和集合，训练成本也大幅度缩减。

在WMT2014年英法翻译任务中Transformer (big)获得了BLEU分值为 41.0分，优于之前发布的所有其它模型，训练成本降低 1/4。

表4.5-1 在英德和英法翻译任务中Transformer模型的BLUE 分值和其它模型BLUE 分值的对比（来源：网络）

表4.5-1同时将翻译质量和训练成本与其他模型架构的翻译质量和训练成本进行了比较。通过比较训练时间、所使用的GPU的数量以及对每个GPU5的持续单精度浮点容量的估计来估计用于训练模型的浮点操作的数量。

为了评估Transformer模型是否可以推广到其他任务，在英语选区解析上进行了实验。这个任务提出了具体的挑战：输出受到强大的结构约束，且长度远远长于输入。此外，RNN序列对序列模型还无法在小数据体系中获得最为先进的结果。

通过在宾夕法尼亚州《华尔街日报》的数据集上训练了大约40K句子，数据模型为

的4层Transformer。此外，还在半监督设置下训练它，使用更大的高置信度和伯克利解析器语料库，大约1700万语句。对《华尔街日报》的设置使用了16K标记词汇，对半监督的设置使用了32K标记词汇。

结论：Transformer是采用自注意力机制的序列到序列模型，在编码器-解码器架构的神经网络中，用多头自注意力机制取代了RNN 层。对于翻译任务，Transformer的训练速度可以比基于循环层或卷积层的体系架构要快得多。关于2014WMT英德语和WMT2014英法翻译任务，实现了不错的性能。在前一项任务中，Transformer模型的性能甚至优于之前报告的所有其它模型。

作者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。

Tags：Transformer 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI独角兽Cohere正冲击50亿美元估值老板是Transformer八子之一

财联社3月22日讯（编辑史正丞）随着本周“小英伟达”Astera Labs在美股市场IPO后交出股价翻倍的亮眼表现，也对一级市场投资AI概念的信心带来极大提振。在这个时间点上，又出现一家...【详细内容】

2024-03-22　　Search: Transformer 点击:(14)　　评论:(0)　　加入收藏

NLP问题实战：基于LSTM（RNN）和Transformer模型

译者 | 朱先忠审校 | 重楼简介GPT等语言模型最近变得非常流行，并被应用于各种文本生成任务，例如在ChatGPT或其他会话人工智能系统中。通常，这些语言模型规模巨大，经常使用超过数...【详细内容】

2023-11-29　　Search: Transformer 点击:(279)　　评论:(0)　　加入收藏

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

为任务选择正确的GenAI模型需要了解每个模型使用的技术及其特定能力，下面请了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。以前，大多数人工智能模型都专注于...【详细内容】

2023-11-21　　Search: Transformer 点击:(189)　　评论:(0)　　加入收藏

科普神文，GPT背后的Transformer模型

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对...【详细内容】

2023-11-07　　Search: Transformer 点击:(257)　　评论:(0)　　加入收藏

利用Transformer建模的优点

Transformer是一种基于注意力机制的深度神经网络结构，近年来在自然语言处理领域广受欢迎。相较于传统的RNN、LSTM等序列模型，Transformer具有卓越的建模能力和可扩展性。本文...【详细内容】

2023-09-22　　Search: Transformer 点击:(237)　　评论:(0)　　加入收藏

Transformer+强化学习,DeepMind让大模型成为机器人感知世界大脑

在开发机器人学习方法时，如果能整合大型多样化数据集，再组合使用强大的富有表现力的模型（如 Transformer），那么就有望开发出具备泛化能力且广泛适用的策略，从而让机器人能学会很好...【详细内容】

2023-09-22　　Search: Transformer 点击:(357)　　评论:(0)　　加入收藏

一文读懂 Transformer 神经网络模型

Hello folks，我是 Luga，今天我们来聊一下人工智能(AI)生态领域相关的技术 - Transformer 神经网络模型。自从最新的大型语言模型(LLaM)的发布，例如 OpenAI 的 GPT 系列、开源...【详细内容】

2023-09-18　　Search: Transformer 点击:(251)　　评论:(0)　　加入收藏

Transformer它就是个支持向量机

编辑：蛋酱、小舟SVM is all you need，支持向量机永不过时。Transformer 是一个支持向量机（SVM）一种新型理论在学界引发了人们的讨论。上周末，一篇来自宾夕法尼亚大学、加州大学河...【详细内容】

2023-09-05　　Search: Transformer 点击:(316)　　评论:(0)　　加入收藏

苹果开源FastViT：快速卷积Transformer的混合视觉架构

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。论文地址：https://arxiv.org/pdf/23...【详细内容】

2023-08-16　　Search: Transformer 点击:(325)　　评论:(0)　　加入收藏

Transformer能解释一切吗？

作者：油醋图片来源：无界 AI 风格模型(宋韵山水)提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了。当初的8位论文作者有6人出自谷歌，但到现在大...【详细内容】

2023-08-01　　Search: Transformer 点击:(305)　　评论:(0)　　加入收藏

▌简易百科推荐

云计算和边缘计算

云计算和边缘计算是两种不同的计算模型，它们各有特点，适用于不同的场景和需求。云计算是一种基于互联网的计算模型，它将计算资源、存储资源和应用服务集中在云端，用户可以通过网...【详细内容】

2024-03-01　　　　简易百科　　Tags:云计算　点击:(36)　　评论:(0)　　加入收藏

云计算与边缘计算：有何不同？

公共云计算平台可以帮助企业充分利用全球服务器来增强其私有数据中心。这使得基础设施能够扩展到任何位置，并有助于计算资源的灵活扩展。混合公共-私有云为企业计算应用程序...【详细内容】

2024-02-28　　通信产品推荐官　　　　Tags:云计算　点击:(26)　　评论:(0)　　加入收藏

量子计算机是什么？跟现在的计算机相比优缺点是什么？

量子计算机是什么？跟现在的计算机相比优缺点是什么？随着科技的不断发展，计算机技术也取得了巨大的进步。然而，随着摩尔定律的趋近于极限，传统的计算机技术面临着许多挑战。这时...【详细内容】

2024-02-23　　　　简易百科　　Tags:量子计算机　点击:(47)　　评论:(0)　　加入收藏

量子计算机：未来电脑的革命性技术

在科技的广袤天空中，量子计算机如一颗璀璨的新星，以其独特的光芒预示着未来电脑的革命性变革。这项令人瞩目的技术不仅代表着计算机科学的最前沿，更承载着人类对于速度和效率的...【详细内容】

2024-02-23　　小浩长得帅　　　　Tags:量子计算机　点击:(52)　　评论:(0)　　加入收藏

为什么计算机需要十六进制？

今天简单聊聊十六进制。实际上计算机本身是不需要十六进制的，计算机只需要二进制，需要十六进制的是人。每个十六进制中的数字代表4个比特，你可以非常直观的从十六进制中知道对...【详细内容】

2024-02-22　　码农的荒岛求生　　微信公众号　　Tags:计算机　点击:(55)　　评论:(0)　　加入收藏

多模态RAG应用：跨越文本与图片的智能交互

近年来，多模态RAG（Retrieval-AugmentedGeneration）应用的兴起引发了人们对人工智能技术发展方向的广泛关注。传统的RAG应用主要基于文本的输入和输出，而随着GPT4-V的发布，多模态R...【详细内容】

2024-01-29　　况成放　　　　Tags:多模态RAG 　点击:(87)　　评论:(0)　　加入收藏

量子计算机真相揭秘，一篇文章颠覆你的认知

你看过《三体》吗？在刘慈欣笔下，三体人用一种叫“智子”的黑科技干扰了人类的实验，从而锁死了人类的技术。而在现实世界，一把无形的“锁”其实也悄然逼近了我们，它就是芯片。随着...【详细内容】

2024-01-23　　天才简史　　今日头条　　Tags:量子计算机　点击:(28)　　评论:(0)　　加入收藏

生成对抗网络（GAN）在计算机视觉领域中的应用

生成对抗网络（GAN）是一种在计算机视觉领域中广泛应用的深度学习模型。它由一个生成器网络和一个判别器网络组成，通过对抗训练的方式实现图像的生成和判别。GAN在计算机视觉中的...【详细内容】

2024-01-15　　数码小风向　　　　Tags:生成对抗网络　点击:(83)　　评论:(0)　　加入收藏

如何免费生成logo？

Logo设计对于一个品牌来说非常重要，它是品牌的身份标识，可以帮助人们迅速识别和记住一个品牌。同时还可以帮助建立品牌认知度，传达出品牌的专业形象。无论是大公司还是刚起步的...【详细内容】

2024-01-05　　阳仔问文　　　　Tags:logo 　点击:(102)　　评论:(0)　　加入收藏

自然语言处理中的句法分析方法研究与实现

自然语言处理（NLP）中的句法分析方法是NLP领域的重要研究内容之一，它旨在通过对句子结构的分析和理解，揭示句子中单词之间的语法关系，为后续的语义理解和信息提取提供基础支撑。本...【详细内容】

2024-01-04　　毛晓峰　　　　Tags:自然语言处理　点击:(64)　　评论:(0)　　加入收藏

推荐资讯

凌晨3点北京鬼市，天亮	老美怂了？美国众议院计
Meta AI 全球市场扩张	重磅！Meta推出开源大模
多地将禁止超标车上路	喝完一瓶啤酒，多久才能
古代富人都喜欢“扬州	夫妻一方可查询配偶财