想让大模型在prompt中学习更多示例，这种方法能让你输入更多字符

时间：2023-09-13 13:01:14 来源：作者：巴比特资讯

我们知道在使用 GPT 和 LLaMA 等大型语言模型时，输入的 prompt 存在字符数限制，比如 ChatGPT 目前的输入字符限制是 4096 个字符。这会限制上下文学习和思维链等技术的发挥空间，毕竟用户只能提供有限的示例数量。近日，Nous Research、EleutherAI 和日内瓦大学的一个研究团队提出了一种扩展上下文窗口的方案 YaRN ，并在实验中取得了优于其它所有方法的效果，而且他们还发布了使用 YaRN 微调过的 LLaMA 2 7B/13B 模型，其上下文窗口为 64k 和 128k。

图片来源：由无界 AI 生成

基于 Transformer 的大型语言模型（LLM）已经展现出执行上下文学习（ICL）的强大能力，并且几乎已经成为许多自然语言处理（NLP）任务的不二选择。Transformer 的自注意力机制可让训练高度并行化，从而能以分布式的方式处理长序列。LLM 训练所用的序列的长度被称为其上下文窗口。

Transformer 的上下文窗口直接决定了可以提供示例的空间量，从而限制了其 ICL 能力。

如果模型的上下文窗口有限，那么为模型提供稳健示例的空间就更少，而这些稳健示例正是执行 ICL 所用的。此外，当模型的上下文窗口特别短时，摘要等其它任务也会受到严重妨碍。

就语言本身的性质来说，token 的位置对有效建模来说至关重要，而自注意力由于其并行性，并不会直接编码位置信息。Transformer 架构引入了位置编码来解决这个问题。

原始的 Transformer 架构使用了一种绝对正弦位置编码，之后其被改进成了一种可学习的绝对位置编码。自那以后，相对位置编码方案又进一步提升了 Transformer 的性能。目前，最流行的相对位置编码是 T5 Relative Bias、RoPE、XPos 和 ALiBi。

位置编码有一个反复出现的限制：无法泛化在训练期间看到的上下文窗口。尽管 ALiBi 等一些方法有能力做一些有限的泛化，但还没有方法能泛化用于显著长于其预训练长度的序列。

已经出现了一些试图克服这些限制的研究成果。比如，有研究提出通过位置插值（PI）来稍微修改 RoPE 并在少量数据上微调来扩展上下文长度。

两个月前，Nous Research 的 Bowen Peng 在 Reddit 分享了一种解决思路，即通过纳入高频损失来实现「NTK 感知型插值」。这里的 NTK 是指 Neural Tangent Kernel（神经正切核）。

其声称经过 NTK 感知型扩展的 RoPE 能让 LLaMA 模型的上下文窗口大幅扩展（超过 8k），同时还无需任何微调，对困惑度造成的影响也极小。

近日，他与另外三位合作者的相关论文出炉了！

论文：https://arxiv.org/abs/2309.00071
模型：https://Github.com/jquesnelle/yarn

在这篇论文中，他们对 NTK 感知型插值做出了两点改进，它们分别侧重于不同的方面：

动态 NTK 插值法，无需微调就能用于预训练模型。
部分 NTK 插值法，当使用少量更长上下文的数据微调后，模型能取得最佳表现。

研究者表示，在这篇论文诞生前，就已经有研究者将 NTK 感知型插值和动态 NTK 插值用于一些开源模型。比如 Code Llama（使用 NTK 感知型插值）和 Qwen 7B（使用动态 NTK 插值）。

在这篇论文中，基于之前有关 NTK 感知型插值、动态 NTK 插值和部分 NTK 插值的研究成果，研究者提出了 YaRN（Yet another RoPE extensioN method），一种可以高效扩展使用旋转位置嵌入（Rotary Position Embeddings / RoPE）的模型的上下文窗口的方法，可用于 LLaMA、GPT-NeoX 和 PaLM 系列模型。研究发现，只需使用原模型预训练数据规模大约 0.1% 量的代表性样本进行微调，YaRN 就能实现当前最佳的上下文窗口扩展性能。

方法

旋转位置嵌入（Rotary Position Embeddings / RoPE）最早由论文《RoFormer: Enhanced transformer with rotary position embedding》引入，也是 YaRN 的基础。

简单来说，RoPE 可以写成如下形式：

对于使用固定上下文长度预训练的 LLM，如果使用位置插值（PI）来扩展上下文长度，则可以表示为：

可以看出 PI 对所有 RoPE 维度都会做同等延展。研究者发现 PI 论文中描述的理论插值界限不足以预测 RoPE 和 LLM 内部嵌入之间的复杂动态。下面将描述研究者发现并解决的 PI 的主要问题，以便读者了解 YaRN 中各种新方法的背景、起因和解决理由。

高频信息丢失 ——NTK 感知型插值

如果只从信息编码的角度看 RoPE，根据神经正切核（NTK）理论，如果输入维度较低且对应的嵌入缺乏高频分量，那么深度神经网络难以学习高频信息。

为了解决在对 RoPE 嵌入插值时丢失高频信息的问题，Bowen Peng 在上述 Reddit 帖子中提出了 NTK 感知型插值。这种方法不会对 RoPE 的每个维度进行同等扩展，而是通过更少地扩展高频和更多地扩展低频来将插值压力分散到多个维度。

在测试中，研究者发现在扩展未经微调的模型的上下文大小方面，这种方法优于 PI。但是，这种方法有一个重大缺点：由于它不只是一种插值方案，某些维度会被外推入一些「界外」值，因此使用 NTK 感知型插值进行微调的效果不及 PI。

更进一步说，由于存在「界外」值，理论上的扩展因子就无法准确地描述真实的上下文扩展程度。在实践中，对于给定的上下文长度扩展，必须将扩展值 s 设置得比期望的扩展值高一点。

相对局部距离的损失 —— 部分 NTK 插值

对于 RoPE 嵌入，有一个有趣的观察：给定一个上下文大小 L，存在某些维度 d，其中的波长 λ 长于预训练阶段见过的最大上下文长度（λ > L），这说明某些维度的嵌入可能在旋转域中的分布不均匀。

PI 和 NTK 感知型插值会平等地对待所有 RoPE 隐藏维度（就好像它们对网络有同样的效果）。但研究者通过实验发现，网络会给某些维度不同于其它维度的待遇。如前所述，给定上下文长度 L，某些维度的波长 λ 大于或等于 L。由于当一个隐藏维度的波长大于或等于 L 时，所有的位置配对会编码一个特定的距离，因此研究者猜想其中的绝对位置信息得到了保留；而当波长较短时，网络仅可获得相对位置信息。

当使用扩展比例 s 或基础变化值 b' 来拉伸所有 RoPE 维度时，所有 token 都会变得与彼此更接近，因为被一个较小量旋转过的两个向量的点积会更大。这种扩展会严重损害 LLM 理解其内部嵌入之间小的局部关系的能力。研究者猜测这种压缩会导致模型对附近 token 的位置顺序感到困惑，从而损害模型的能力。

为了解决这个问题，基于研究者观察到的现象，他们选择完全不对更高频率的维度进行插值。

他们还提出，对于所有维度 d，r < α 的维度按扩展度 s 线性插值（与 PI 一样，避免出现外推）；r > β 的维度就完全不插值（总是外推）。

使用这一小节描述的技术，一种名为部分 NTK 插值的方法诞生了。这种改进版方法优于之前的 PI 和 NTK 感知型插值方法，其适用于无微调和已微调模型。因为该方法避免了对旋转域分布不均匀的维度进行外推，因此就避免了之前方法的所有微调问题。

动态缩放 —— 动态 NTK 插值

当使用 RoPE 插值方法无微调地扩展上下文大小时，我们希望模型在更长的上下文大小上慢慢地劣化，而不是在扩展度 s 超过所需值时在整个上下文大小上完全劣化。

在动态 NTK 方法中，扩展度 s 是动态计算的。

在推理过程中，当上下文大小被超过时，就动态地更改扩展度 s，这样可让所有模型在达到训练的上下文限制 L 时缓慢地劣化而不是突然崩溃式劣化。

增加用于长距离的平均最小余弦相似度 ——YaRN

即便解决了前面描述的局部距离问题，为了避免外推，也必须在阈值 α 处插值更大的距离。直觉来看，这似乎不应该是个问题，因为全局距离无需高精度也能区分 token 位置（即网络只需大概知道 token 是在序列的开头、中间或末尾即可）。

但是，研究者发现：由于平均最小距离随着 token 数量的增加而变得更近，因此它会使注意力 softmax 分布变得更尖（即减少了注意力 softmax 的平均熵）。换句话说，随着长距离衰减的影响因插值而减弱，网络会「更加关注」更多 token。这种分布的转变会导致 LLM 输出质量下降，这是与之前问题无关的另一个问题。

由于当将 RoPE 嵌入插值到更长的上下文大小时，注意力 Softmax 分布中的熵会减少，因此研究者的目标是逆转这种熵减（即增加注意力 logit 的「温度」）。这可以通过在应用 softmax 之前将中间注意力矩阵乘以温度 t > 1 来完成，但由于 RoPE 嵌入被编码为一个旋转矩阵，就可以简单地按常数因子 √t 来扩展 RoPE 嵌入的长度。这种「长度扩展」技巧让研究可以不必修改注意力代码，这能大幅简化与现有训练和推理流程的集成，并且时间复杂度仅有 O (1)。

由于这种 RoPE 插值方案对 RoPE 维度的插值不均匀，因此很难计算相对于扩展度 s 所需的温度比例 t 的解析解。幸运的是，研究者通过实验发现：通过最小化困惑度，所有 LLaMA 模型都遵循大致相同的拟合曲线：

研究者是在 LLaMA 7B、13B、33B 和 65B 上发现这个公式的。他们发现这个公式也能很好地适用于 LLaMA 2 模型（7B、13B 和 70B），差别很细微。这表明这种熵增特性很常见，可以泛化到不同的模型和训练数据。

这种最终修改方案产出了 YaRN 方法。新方法在已微调和未微调场景中都胜过之前所有方法，而且完全不需要修改推理代码。只需要修改一开始用于生成 RoPE 嵌入的算法。YaRN 如此简单，使其可以在所有推理和训练库中轻松实现，包括与 Flash Attention 2 的兼容性。

实验

实验表明 YaRN 能成功扩展 LLM 的上下文窗口。此外，他们仅训练了 400 步就得到了这一结果，这差不多只有模型的原始预训练语料库的 0.1%，与之前的研究成果相比有大幅下降。这说明新方法具有很高的计算效率，没有额外的推理成本。

为了评估所得到的模型，研究者计算了长文档的困惑度，并在已有基准上进行了评分，结果发现新方法胜过所有其它上下文窗口扩展方法。

首先，研究者评估了上下文窗口增大时模型的性能表现。表 1 总结了实验结果。

表 2 展示了在 50 个未截断的 GovReport 文档（长度至少为 16k token）上的最终困惑度。

为了测试使用上下文扩展时模型性能的劣化情况，研究者使用 Hugging Face Open LLM Leaderboard 套件评估了模型，并将其与 LLaMA 2 基准模型以及公开可用的 PI 和 NTK 感知型模型的已有分数进行了比较。表 3 总结了实验结果。

Tags：prompt 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

当prompt策略遇上分治算法，南加大、微软让大模型炼成「火眼金睛」

近年来，大语言模型（LLMs）由于其通用的问题处理能力而引起了大量的关注。现有研究表明，适当的提示设计（prompt enginerring），例如思维链（Chain-of-Thoughts），可以解锁 LLM 在不同领域的...【详细内容】

2024-03-12　　Search: prompt 点击:(12)　　评论:(0)　　加入收藏

OpenAI官方的Prompt工程指南：你可以这么玩ChatGPT

随着 ChatGPT、GPT-4 等大型语言模型（LLM）的出现，提示工程（Prompt Engineering）变得越来越重要。很多人将 prompt 视为 LLM 的咒语，其好坏直接影响模型输出的结果。如何写好 promp...【详细内容】

2023-12-18　　Search: prompt 点击:(91)　　评论:(0)　　加入收藏

马斯克第二款AI产品PromptIDE公布，Grok的开发离不开它

距离马斯克的 xAI 公布 Grok 才过去一天，刚刚，xAI 又公布了另一款 AI 产品，一个可用于 prompt 工程和可解释性研究的集成开发环境：PromptIDE。接连不断的新品发布，也让网友纷纷感...【详细内容】

2023-11-07　　Search: prompt 点击:(102)　　评论:(0)　　加入收藏

让你起飞的五个Prompt框架模型

在当今日益数字化的世界中，人工智能已经成为我们日常生活的重要组成部分。特别是，Prompt 工程正越来越受到重视。这种技术可以被视为一种超能力，因为它使我们能够更有效地与AI...【详细内容】

2023-10-20　　Search: prompt 点击:(191)　　评论:(0)　　加入收藏

大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列

2018 年谷歌发布了 BERT，一经面世便一举击败 11 个 NLP 任务的 State-of-the-art (Sota) 结果，成为了 NLP 界新的里程碑； BERT 的结构如下图所示，左边是 BERT 模型预训练过程，...【详细内容】

2023-10-06　　Search: prompt 点击:(304)　　评论:(0)　　加入收藏

1条Prompt搞定AI摔倒检测

之前给大家分享过用骨骼点动作序列+STGCN（时空图卷积神经网络）来识别摔倒。图片还分享过用ChatGPT一步一步地用CNN + RNN训练视频动作分类器来识别摔倒。这次我们继续分享摔倒...【详细内容】

2023-09-28　　Search: prompt 点击:(342)　　评论:(0)　　加入收藏

自动驾驶和自然语言如何结合？NuPrompt来了！

原标题：Language Prompt for Autonomous Driving论文链接：https://arxiv.org/pdf/2309.04379.pdf作者单位：北京理工大学澳门大学 MEGVII Technology 北京人工智能研究院代码链...【详细内容】

2023-09-20　　Search: prompt 点击:(186)　　评论:(0)　　加入收藏

想让大模型在prompt中学习更多示例，这种方法能让你输入更多字符

我们知道在使用 GPT 和 LLaMA 等大型语言模型时，输入的 prompt 存在字符数限制，比如 ChatGPT 目前的输入字符限制是 4096 个字符。这会限制上下文学习和思维链等技术的发挥空...【详细内容】

2023-09-13　　Search: prompt 点击:(96)　　评论:(0)　　加入收藏

百度千帆大模型平台宣布接入LLaMA2等33个模型，上线103个Prompt模板

新浪科技讯 8月2日下午消息，百度智能云方面表示，千帆大模型平台已完成新一轮升级，重点升级了三大功能。百度智能云AI与大数据平台总经理忻舟表示，目前，千帆大模型平台已经全面接...【详细内容】

2023-08-02　　Search: prompt 点击:(71)　　评论:(0)　　加入收藏

Adobe 扩充生成式 AI Firefly：支持 100 多种语言 prompts 输入

IT之家 7 月 13 日消息，Adobe 于今年 5 月在 Photoshop 中推出了生成式 AI--Firefly，官方今天宣布扩大测试规模，支持 100 多种语言的 prompts 输入。IT之家援引 Adobe 官方新闻...【详细内容】

2023-07-13　　Search: prompt 点击:(72)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

在饭局上喝酒，要学会3	汽车不停能开多少公里
三证齐全，中国“飞的”	小米SU7被大卸八块，雷
视频号，从抖音挖来一个	0首付、0利息！多家车企
真正0首付、0利息来了	微信共享位置怎么换地