您当前的位置:首页 > 电脑百科 > 软件技术 > 软件技术

Transformer它就是个支持向量机

时间:2023-09-05 11:44:05  来源:  作者:机器之心Pro

编辑:蛋酱、小舟

SVM is all you need,支持向量机永不过时。

Transformer 是一个支持向量机(SVM)一种新型理论在学界引发了人们的讨论。

上周末,一篇来自宾夕法尼亚大学、加州大学河滨分校的论文试图研究大模型基础 Transformer 结构的原理,其在注意力层的优化几何与将最优输入 token 与非最优 token 分开的硬边界 SVM 问题之间建立了形式等价。

在 hackernews 上作者表示,这种理论解决了 SVM 将每个输入序列中的「好」标记与「坏」token 分开的问题。该 SVM 作为一个性能优异的 token 选择器,与传统为输入分配 0-1 标签的 SVM 本质上不同。

这种理论也解释了注意力如何通过 softmax 引起稀疏性:落在 SVM 决策边界错误一侧的「坏」token 被 softmax 函数抑制,而「好」token 是那些最终具有非零 softmax 概率的 token。还值得一提的是,这个 SVM 源于 softmax 的指数性质。

论文上传到 arXiv 上面之后,人们纷纷发表意见,有人表示:AI 研究的方向真是螺旋上升,难道又要绕回去了?

绕了一圈,支持向量机还是没有过时。

自经典论文《Attention is All You Need》问世以来,Transformer 架构已为自然语言处理(NLP)领域带来了革命性进展。Transformer 中的注意力层接受一系列输入 token X,并通过计算

评估 token 之间的相关性,其中 (K, Q) 是可训练的 key-query 参数,最终有效捕获远程依赖关系。

现在,一篇名为《Transformers as Support Vector machines》的新论文在自注意力的优化几何和 hard-margin SVM 问题之间建立了一种形式等价,使用 token 对的外积线性约束将最优输入 token 与非最优 token 分开。

论文链接:https://arxiv.org/pdf/2308.16898.pdf

这种形式等价建立在 Davoud Ataee Tarzanagh 等人的论文《Max-Margin Token Selection in Attention Mechanism》的基础上,它能够描述通过梯度下降进行优化的 1 层 transformer 的隐式偏差(implicit bias):

(1) 优化由 (K, Q) 参数化的注意力层,通过消失正则化(vanishing regularization),收敛到一种 SVM 解决方案,其中最小化组合参数

的核范数(nuclear norm)。相反,直接通过 W 进行参数化可以最小化 Frobenius 范数 SVM 目标。该论文描述了这种收敛,并强调它可以发生在局部最优方向而不是全局最优方向。

(2) 该论文还证明了 W 参数化在适当的几何条件下梯度下降的局部 / 全局方向收敛。重要的是,过度参数化通过确保 SVM 问题的可行性和保证没有驻点(stationary points)的良性优化环境来催化全局收敛。

(3) 虽然该研究的理论主要适用于线性预测头,但研究团队提出了一种更通用的 SVM 等价物,可以预测具有非线性头 / MLP 的 1 层 transformer 的隐式偏差。

总的来说,该研究的结果适用于一般数据集,可以扩展到交叉注意力层,并且研究结论的实际有效性已经通过彻底的数值实验得到了验证。该研究建立一种新的研究视角,将多层 transformer 看作分离和选择最佳 token 的 SVM 层次结构。

具体来说,给定长度为 T,嵌入维度为 d 的输入序列

,该研究分析核心交叉注意力和自注意力模型:

其中,K、Q、V 分别是可训练的键、查询、值矩阵,

;S (・) 表示 softmax 非线性,它逐行应用于

。该研究假设将 Z 的第一个 token(用 z 表示)用于预测。具体来说,给定一个训练数据集

,该研究使用递减损失函数

进行最小化:

这里,h (・) :

是包含值权重 V 的预测头。在这种表述中,模型 f (・) 精确地表示了一个单层 transformer,其中注意力层之后是一个 MLP。作者通过设置

来恢复 (2) 中的自注意力,其中 x_i 表示序列 X_i 的第一个 token。由于 softmax 运算的非线性性质,它给优化带来了巨大挑战。即使预测头是固定和线性的,该问题也是非凸和非线性的。在本研究中,作者将重点放在优化注意力权重(K、Q 或 W)上,并克服这些挑战,从而建立 SVM 的基本等价性。

论文结构如下:第 2 章介绍了自注意力和优化的初步知识;第 3 章分析了自注意力的优化几何,表明注意力参数 RP 收敛到最大边际解;第 4 章和第 5 章分别介绍了全局和局部梯度下降分析,表明 key-query 变量 W 向 (Att-SVM) 的解决方案收敛;第 6 章提供了在非线性预测头和广义 SVM 等价性方面的结果;第 7 章将理论扩展到顺序预测和因果预测;第 8 章讨论了相关文献。最后,第 9 章进行总结,提出开放性问题和未来研究方向。

论文的主要内容如下:

注意力层的内隐偏差(第 2-3 章)

正则化消失的情况下优化注意力参数(K, Q),会在方向上收敛到

的最大边际解,其核范数目标是组合参数

。在直接用组合参数 W 对交叉注意力进行参数化的情况下,正则化路径 (RP) 定向收敛于以 Frobenius 范数为目标的(Att-SVM)解。

这是第一个正式区分 W 与(K,Q)参数化优化动态的结果,揭示了后者的低阶偏差。该研究的理论清楚地描述了所选 token 的最优性,并自然地扩展到了序列到序列或因果分类设置。

梯度下降的收敛(第 4-5 章)

通过适当的初始化和线性头 h (・),组合 key-query 变量 W 的梯度下降(GD)迭代在方向上收敛到(Att-SVM)的局部最优解(第 5 节)。要实现局部最优,所选 token 必须比相邻 token 得分更高。

局部最优方向不一定是唯一的,可以根据问题的几何特征来确定 [TLZO23]。作为一项重要贡献,作者确定了保证向全局最优方向收敛的几何条件(第 4 章)。这些条件包括:

  • 最佳 token 在分数上有明显区别;
  • 初始梯度方向与最佳 token 一致。

除此以外,论文还展示了过度参数化(即维度 d 较大,以及同等条件)通过确保(1)(Att-SVM)的可行性,以及(2)良性优化 landscape(即不存在静止点和虚假的局部最优方向)来催化全局收敛(见第 5.2 节)。

图 1 和图 2 对此进行了说明。

SVM 等价的通用性(第 6 章)

当使用线性 h (・) 进行优化时,注意力层会固有地偏向于从每个序列中选择一个 token(又称硬注意力)。这反映在了 (Att-SVM) 中,表现为输出 token 是输入 token 的凸组合。与此相反,作者表明非线性头必须由多个 token 组成,从而突出了它们在 transformer 动态过程中的重要性(第 6.1 节)。利用从理论中获得的洞察力,作者提出了一种更通用的 SVM 等价方法。

值得注意的是,他们证明了在理论未涵盖的普遍情况下(例如,h (・) 是一个 MLP),本文的方法能准确预测通过梯度下降训练的注意力的隐含偏差。具体来说,本文的通用公式将注意力权重解耦为两个部分:一个是由 SVM 控制的定向部分,它通过应用 0-1 掩码来选择标记;另一个是有限部分,它通过调整 softmax 概率来决定所选 token 的精确组成。

这些发现的一个重要特点是,它们适用于任意数据集(只要 SVM 可行),并且可以用数字验证。作者通过实验广泛验证了 transformer 的最大边际等价性和隐含偏差。作者认为,这些发现有助于理解作为分层最大边际 token 选择机制的 transformer,可为即将开展的有关其优化和泛化动态的研究奠定基础。

参考内容:

https://news.ycombinator.com/item?id=37367951

https://Twitter.com/vboykis/status/1698055632543207862



Tags:Transformer   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI独角兽Cohere正冲击50亿美元估值 老板是Transformer八子之一
财联社3月22日讯(编辑 史正丞)随着本周“小英伟达”Astera Labs在美股市场IPO后交出股价翻倍的亮眼表现,也对一级市场投资AI概念的信心带来极大提振。在这个时间点上,又出现一家...【详细内容】
2024-03-22  Search: Transformer  点击:(12)  评论:(0)  加入收藏
NLP问题实战:基于LSTM(RNN)和Transformer模型
译者 | 朱先忠审校 | 重楼简介GPT等语言模型最近变得非常流行,并被应用于各种文本生成任务,例如在ChatGPT或其他会话人工智能系统中。通常,这些语言模型规模巨大,经常使用超过数...【详细内容】
2023-11-29  Search: Transformer  点击:(272)  评论:(0)  加入收藏
生成式AI的五大模型:VAEs、GANs、Diffusion、Transformers、NeRFs
为任务选择正确的GenAI模型需要了解每个模型使用的技术及其特定能力,下面请了解VAEs、GANs、Diffusion、Transformers和NerFs五大GenAI模型。以前,大多数人工智能模型都专注于...【详细内容】
2023-11-21  Search: Transformer  点击:(182)  评论:(0)  加入收藏
科普神文,GPT背后的Transformer模型
上次《解读AI大模型,从了解token开始》一文中,我从最基础的概念“token”着手,跳过了复杂的算法逻辑,相信已经让大家建立起对AI大模型工作原理的清晰认知。但如果仅仅只是依靠对...【详细内容】
2023-11-07  Search: Transformer  点击:(257)  评论:(0)  加入收藏
利用Transformer建模的优点
Transformer是一种基于注意力机制的深度神经网络结构,近年来在自然语言处理领域广受欢迎。相较于传统的RNN、LSTM等序列模型,Transformer具有卓越的建模能力和可扩展性。本文...【详细内容】
2023-09-22  Search: Transformer  点击:(237)  评论:(0)  加入收藏
Transformer+强化学习,DeepMind让大模型成为机器人感知世界大脑
在开发机器人学习方法时,如果能整合大型多样化数据集,再组合使用强大的富有表现力的模型(如 Transformer),那么就有望开发出具备泛化能力且广泛适用的策略,从而让机器人能学会很好...【详细内容】
2023-09-22  Search: Transformer  点击:(355)  评论:(0)  加入收藏
一文读懂 Transformer 神经网络模型
Hello folks,我是 Luga,今天我们来聊一下人工智能(AI)生态领域相关的技术 - Transformer 神经网络模型 。自从最新的大型语言模型(LLaM)的发布,例如 OpenAI 的 GPT 系列、开源...【详细内容】
2023-09-18  Search: Transformer  点击:(248)  评论:(0)  加入收藏
Transformer它就是个支持向量机
编辑:蛋酱、小舟SVM is all you need,支持向量机永不过时。Transformer 是一个支持向量机(SVM)一种新型理论在学界引发了人们的讨论。上周末,一篇来自宾夕法尼亚大学、加州大学河...【详细内容】
2023-09-05  Search: Transformer  点击:(312)  评论:(0)  加入收藏
苹果开源FastViT:快速卷积Transformer的混合视觉架构
苹果此前在论文《FastViT: A Fast Hybrid Vision Transformer using Structural Reparameterization》中提出的 FastViT 架构已正式开源。论文地址:https://arxiv.org/pdf/23...【详细内容】
2023-08-16  Search: Transformer  点击:(318)  评论:(0)  加入收藏
Transformer能解释一切吗?
作者:油醋图片来源:无界 AI 风格模型(宋韵山水)提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了。当初的8位论文作者有6人出自谷歌,但到现在大...【详细内容】
2023-08-01  Search: Transformer  点击:(300)  评论:(0)  加入收藏
▌简易百科推荐
Win10/Win11和 macOS用户反馈:谷歌云服务“捆绑”系统 DNS 设置
IT之家 4 月 6 日消息,谷歌公司承认旗下的 Google One 订阅服务中存在问题,在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置,变更为 8.8.8.8 地址。Google On...【详细内容】
2024-04-08    IT之家  Tags:Win10   点击:(4)  评论:(0)  加入收藏
微软 Edge 浏览器将迎来“内存限制器”功能,用户可自主控制 Edge 内存占用
IT之家 3 月 28 日消息,微软即将为其 Edge 浏览器带来一项实用新功能,据悉该公司正在测试一项内置的内存限制器,这项功能可以让用户限制 Edge 所占用的内存,防止浏览器超出内存...【详细内容】
2024-03-29    IT之家  Tags:Edge   点击:(14)  评论:(0)  加入收藏
一寸照片的大小如何压缩?四个实测效果很好的方法
一寸照片作为生活中常见的尺寸之一,常用于各类证件照与证明文件的制作。然而,受限于其较为狭小的尺寸,上传及打印过程中很容易出现尺寸超限的情况。所以,这个时候就需要对其体积...【详细内容】
2024-03-18  宠物小阿涛    Tags:压缩   点击:(12)  评论:(0)  加入收藏
手机投屏到电脑/电视的方法
方法一:Win10自带的投影功能1、将手机和电脑连接同一个无线网络。2、选择【开始】>【设置】>【系统】>【投影到此电脑】3、将默认的始终关闭的选项更改为所有位置都可用。4、...【详细内容】
2024-03-18    老吴讲I  Tags:投屏   点击:(15)  评论:(0)  加入收藏
微软商店怎么卸载应用 一分钟快速看懂!
微软商店怎么卸载应用 一分钟快速看懂!微软公司(Microsoft Corporation)是一家全球领先的科技企业,总部位于美国华盛顿州的雷德蒙德。成立于1975年,由比尔·盖茨和保罗&mid...【详细内容】
2024-02-27  婷婷说体育    Tags:微软商店   点击:(35)  评论:(0)  加入收藏
微软Edge浏览器新功能:手机上传 配对设备直接传文件
2月21日,微软最新的稳定版本Edge浏览器在Windows 11/10端加入了“手机上传”功能。这一功能允许用户直接从移动设备上上传文件,适用于所有网站,并且没有文件格式限制。要使用这...【详细内容】
2024-02-21    中关村在线  Tags:Edge   点击:(127)  评论:(0)  加入收藏
什么是虚拟机?你知道吗?
谁都没想到 Sun 公司技术如此的强大,却在之后的岁月里逐渐走向陨落,因为不懂销售和运营,导致公司财务逐渐出现亏损,在 2009 年,Oracle 公司以现金方式收购 Sun 公司,交易价格达 74...【详细内容】
2024-02-19  Java极客技术  微信公众号  Tags:虚拟机   点击:(44)  评论:(0)  加入收藏
怎么查看电脑使用记录
查看电脑使用记录是一项常见的操作,可以帮助用户了解自己或其他人在电脑上进行了哪些操作。下面是一个详细的解释,包括查看浏览历史、文件访问记录、应用程序使用记录以及其他...【详细内容】
2024-02-06  编程资料站    Tags:使用记录   点击:(81)  评论:(0)  加入收藏
电脑虚拟内存怎么设置?1分钟快速增加内存!
“我电脑里的内存好像不太够用,因此,我想在电脑里增加一些虚拟内存。不知道我应该怎么操作呢?有什么比较简单的此操作方法吗?” 虚拟内存是计算机系统内存管理的一种技术,它为程...【详细内容】
2024-02-06  数据蛙恢复专家    Tags:虚拟内存   点击:(61)  评论:(0)  加入收藏
新手制作ai写真都是用哪些工具?
春节即将来临,你的朋友圈是否已经被各种春节主题的个人写真刷屏了?看到那么多美照,你是否也心动了?其实,制作个人写真并不需要专门去拍摄,现在有很多AI写真软件可以轻松制作出自己...【详细内容】
2024-01-31  雨后海棠    Tags:ai写真   点击:(60)  评论:(0)  加入收藏
站内最新
站内热门
站内头条