科普神文，GPT背后的Transformer模型

时间：2023-11-07 13:55:55 来源：微信公众号作者：AI小智

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。

但如果仅仅只是依靠对文本的编码与数据分析，那人工智能时代应该早就到来了，为什么唯独是GPT模型的诞生开启了人工智能大模型的全盛时代？今天我将带您一探究竟，看看GPT背后的Transformer模型。

什么是Transformer？

科普神文，GPT背后的Transformer模型图片

Transformer是一种新颖的神经网络架构，它在2017年由google的研究人员提出，用于解决机器翻译等自然语言处理的任务。Transformer的特点是，它完全摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN），而是采用了一种称为自注意力机制（Self-Attention）的方法，来捕捉文本中的长距离依赖关系，提高了模型的效率和准确性。

今天本文将围绕自注意力机制，介绍Transformer 的三个主要概念，位置编码、注意力机制和自注意力机制。

位置编码(Positional Encodings)

在自然语言处理任务中,词语的顺序尤为重要。以“小明喜欢小红”和“小红喜欢小明”为例,这两句话的词语组成完全一样,仅仅是顺序不同,所表达的意思却南辕北辙。因此,语言模型必须具备把握词语顺序的能力。

然而,Transformer采用的自注意力机制是通过单元之间的相关性来进行文本序列的编码，也就是说模型本身并不能感知词语的顺序信息。为了克服这个困难,Transformer引入了一种称为位置编码(Positional Encoding)的技巧。

位置编码的思路很简单,就是在输入序列中的每个词语后面追加一个位置标记,用不同的数字表示它在句子中的位置。以句子“我爱吃苹果”为例:

我 1 爱 2 吃 3 苹果 4

这样一来,Transformer模型就可以区分词语的顺序了。这种方法极大地增强了模型处理自然语言的能力。事实上,位置编码使得Transformer可以类比人类大脑处理语言的方式——人脑可以轻松地记住词语出现的时间顺序。Transformer通过位置编码实现了类似的效果。

类比来说，当我们看一篇长篇小说时，当我们想搞清楚核心情节的发生顺序时，我们往往不是翻看原文，而是在阅读中就记录下一条时间线，当发生关键剧情时，将其记录在整个时间线的节点之上。之前大火的电影《信条》，相信很多小伙伴也都是通过时间线的方式才真正搞清楚剧情是如何发展的。

科普神文，GPT背后的Transformer模型图片

位置编码也好，时间线也罢，其实这部分信息原本就是隐式的存在原始数据之中。我们的标记是将这部分隐式的结构数据显示的表现出来，使得大模型在编解码数据的过程中，把词语在句子中的相对位置纳入进来，进而将这一部分信息嵌入到维度向量中（或者准确说对某些维度产生影响）。

这与人类大脑以时间顺序来认知事物或者组织语言的本能是类似的，而大模型的优势在于拥有更大的存储，因而不需要如同人类大脑一般需要进行关键节点的抽象，只要平等的对每一个词语单元进行位置编码即可。（我在这里做了一点过度简化——最初的作者使用正弦函数来进行位置编码，而不是简单的整数 1、2、3、4——但要点是相同的。）

注意力机制(Attention)

在Transformer模型中,位置编码为模型提供了词语顺序信息。而注意力机制则让模型能更智能地使用这些信息。

什么是注意力机制呢?简单来说,它就是允许Transformer模型在生成输出时,参考输入序列中的所有词语,并判断哪些词对当前步骤更重要、更相关。以英译法翻译为例,当Transformer要翻译一个英文单词时,它会通过注意力机制快速“扫视”整个英文输入序列,判断应该翻译成什么法文词语。如果输入序列中有多个相关词语,注意力机制会让模型关注最相关的那个,忽略其它不太相关的词语。

科普神文，GPT背后的Transformer模型图片

标注翻译输入与输出关注度的热力图

从人类行为的角度来看,注意力机制就更容易理解了。当我们阅读一段文字时,基于基因本能以及历史经验，筛选重点关注的目标区域，得到注意力焦点的能力，从而利用有限的注意力资源从大量信息中快速筛选出高价值信息。大模型的注意力机制的形成就是类似的方式，类比大脑，大模型的本能与经验则来源于词嵌入形成的词语向量亲密度。通过观察成千上万的法语和英语句子，模型积累了什么类型的单词是相互依赖的。

具体来说,Transformer中的注意力机制可以分为两步:

第一步,计算词语间的相关性。对输入序列中每一对词语,模型计算它们的相关性分数,分数越高表示两者语义上越相关。
第二步,生成注意力分布。根据词语间相关性的计算,得到一个注意力分布,它给每个词语赋予一个权重,权重越大表示对当前步骤越重要。
最后,模型会依据这个注意力分布,对输入序列进行加权,从而聚焦到相关词语上。这就实现了注意力机制的作用。

相比于RNN等早期序列模型逐步处理输入、无法捕捉长距离依赖的方式,注意力机制实现了全局感知,使Transformer可以并行地看到全部输入,这极大地提升了其建模能力。正因如此,Transformer才可以胜任更难的语言理解任务。

自注意力机制(Self-Attention)

在Transformer模型中,除了注意力机制,还有一个更加强大的机制叫做自注意力(Self-Attention)。首先我们说说注意力与自注意力的区别。

可以参考这个例子。比如说一条像蛇的井绳，会快速抓住人的眼球，让人提高警惕，这描述的是注意力。而通过这条井绳出现在水井边，并且一端系在水桶上，我们判断它是一条井绳而不是蛇，则可类比为自注意力。

自注意力机制的核心思想是,允许模型学习词语之间的相关性,也就是词语与词语之间的依赖关系。以句子“我爱吃苹果”为例,通过自注意力,模型会学习到:

“我”与“爱”有关
“爱”与“吃”有关
“吃”与“苹果”有关

然后在处理时,模型会优先关注这些相关词语,而不是简单按照顺序一个字一个字翻译。

人类对一个事物的认知不是仅在于事物本身，往往会结合事物所处的环境，并结合与认知事物相关的其他事物作为一个整体来形成最终的认知。自注意力机制在文本中的应用也一样，主要是通过计算单词间的互相影响，来解决长距离依赖问题。

从认知角度来看,自注意力更贴近人类处理语言的方式。自注意力机制克服了传统序列模型在处理长距离依赖时的局限性。正因如此,自注意力机制成为Transformer模型的“引擎”,可以处理更复杂的语言结构,达到更高的性能。自注意力让Transformer不仅可以并行计算,更可以建模非连续的依赖关系,这对处理语言意义至关重要。

总结

Transformer模型之所以能够在自然语言处理任务上取得巨大突破,关键在于其三大核心机制:

位置编码提供了词语顺序信息
注意力机制让模型可以关注关键词语
自注意力机制帮助模型学习词语间的依赖关系

这三者相辅相成,使得Transformer模型得以模拟人类语言处理的方式,达到了传统RNN模型难以企及的效果。

未来,如何使Transformer模型更易于训练,并能够真正理解语言的深层语义,而不仅是表面形式,仍将是自然语言处理领域的核心挑战。让我们拭目以待Transformer带来的更多惊喜吧!

Tags：Transformer 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI独角兽Cohere正冲击50亿美元估值老板是Transformer八子之一

财联社3月22日讯（编辑史正丞）随着本周“小英伟达”Astera Labs在美股市场IPO后交出股价翻倍的亮眼表现，也对一级市场投资AI概念的信心带来极大提振。在这个时间点上，又出现一家...【详细内容】

2024-03-22　　Search: Transformer 点击:(12)　　评论:(0)　　加入收藏

NLP问题实战：基于LSTM（RNN）和Transformer模型

译者 | 朱先忠审校 | 重楼简介GPT等语言模型最近变得非常流行，并被应用于各种文本生成任务，例如在ChatGPT或其他会话人工智能系统中。通常，这些语言模型规模巨大，经常使用超过数...【详细内容】

2023-11-29　　Search: Transformer 点击:(272)　　评论:(0)　　加入收藏

生成式AI的五大模型：VAEs、GANs、Diffusion、Transformers、NeRFs

为任务选择正确的GenAI模型需要了解每个模型使用的技术及其特定能力，下面请了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。以前，大多数人工智能模型都专注于...【详细内容】

2023-11-21　　Search: Transformer 点击:(182)　　评论:(0)　　加入收藏

科普神文，GPT背后的Transformer模型

上次《解读AI大模型，从了解token开始》一文中，我从最基础的概念“token”着手，跳过了复杂的算法逻辑，相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对...【详细内容】

2023-11-07　　Search: Transformer 点击:(257)　　评论:(0)　　加入收藏

利用Transformer建模的优点

Transformer是一种基于注意力机制的深度神经网络结构，近年来在自然语言处理领域广受欢迎。相较于传统的RNN、LSTM等序列模型，Transformer具有卓越的建模能力和可扩展性。本文...【详细内容】

2023-09-22　　Search: Transformer 点击:(237)　　评论:(0)　　加入收藏

Transformer+强化学习,DeepMind让大模型成为机器人感知世界大脑

在开发机器人学习方法时，如果能整合大型多样化数据集，再组合使用强大的富有表现力的模型（如 Transformer），那么就有望开发出具备泛化能力且广泛适用的策略，从而让机器人能学会很好...【详细内容】

2023-09-22　　Search: Transformer 点击:(355)　　评论:(0)　　加入收藏

一文读懂 Transformer 神经网络模型

Hello folks，我是 Luga，今天我们来聊一下人工智能(AI)生态领域相关的技术 - Transformer 神经网络模型。自从最新的大型语言模型(LLaM)的发布，例如 OpenAI 的 GPT 系列、开源...【详细内容】

2023-09-18　　Search: Transformer 点击:(248)　　评论:(0)　　加入收藏

Transformer它就是个支持向量机

编辑：蛋酱、小舟SVM is all you need，支持向量机永不过时。Transformer 是一个支持向量机（SVM）一种新型理论在学界引发了人们的讨论。上周末，一篇来自宾夕法尼亚大学、加州大学河...【详细内容】

2023-09-05　　Search: Transformer 点击:(312)　　评论:(0)　　加入收藏

苹果开源FastViT：快速卷积Transformer的混合视觉架构

苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。论文地址：https://arxiv.org/pdf/23...【详细内容】

2023-08-16　　Search: Transformer 点击:(318)　　评论:(0)　　加入收藏

Transformer能解释一切吗？

作者：油醋图片来源：无界 AI 风格模型(宋韵山水)提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了。当初的8位论文作者有6人出自谷歌，但到现在大...【详细内容】

2023-08-01　　Search: Transformer 点击:(300)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

你的自拍和聊天记录，正	手机还装不下AI的梦想
中国修订基础设施等特	金店跑路，存金难兑黄
花10万买的数字藏品成	超30城支持！房子“以旧
耶伦记者会：访华取得三	tiktok优质视频判断标