将26个token压缩成1个，新方法极致节省ChatGPT输入框空间

时间：2023-05-08 14:09:15 来源：机器之心作者：

进入正文之前，先考虑一下像 ChatGPT 这样的 Transformer 语言模型（LM）的 prompt：

随着每天产生数百万用户和查询，ChatGPT 使用自注意力机制对 prompt 进行反复编码，其时间和内存复杂度随输入长度呈二次方增长。缓存 prompt 的 transformer 激活可以防止部分重新计算，但随着缓存 prompt 数量的增加，这种策略仍然会产生很大的内存和存储成本。在大规模情况下，即使 prompt 长度稍微减少一点，也可能会带来计算、内存和存储空间的节省，同时还可以让用户将更多内容放入 LM 有限的上下文窗口中。

那么。应该如何降低 prompt 的成本呢？典型的方法是微调或蒸馏模型，使其在没有 prompt 的情况下表现得与原始模型相似，或许还可以使用参数高效的自适应方法。然而，这种方法的一个基本缺点是每次需要为新的 prompt 重新训练模型（下图 1 中间所示）。

本文中，斯坦福大学的研究者提出了 gisting 模型（上图 1 底部），它将任意 prompt 压缩成一组更小的虚拟「Gist」 token，类似于前缀微调。然而，前缀微调需要通过梯度下降为每个任务学习 prefix，而 Gisting 采用元学习方法，仅仅通过 prompt 预测 Gist prefix，而不需要为每个任务进行 prefix 学习。这样可以摊销每个任务 prefix 学习的成本，使得在没有额外训练的情况下泛化到未知的指令。

此外，由于「Gist」token 比完整 prompt 要短得多，因此 Gisting 允许 prompt 被压缩、缓存和重复使用，以提高计算效率。

论文地址：https://arxiv.org/pdf/2304.08467v1.pdf

研究者提出了一种非常简单的方法来学习指令遵循的 gist 模型：简单地进行指令微调，在 prompt 后插入 gish token，修改后的注意力掩膜阻止 gist token 后的 token 参考 gist token 前的 token。这使得模型同时学习 prompt 压缩和指令遵循，而无需额外的训练成本。

在 decodr-only（LLaMA-7B）和 encoder-decoder（FLAN-T5-XXL）LM 上，gisting 可实现高达 26 倍的即时压缩率，同时保持与原始模型相似的输出质量。这使得推理过程中 FLOPs 减少了 40%，延迟加速了 4.2%，与传统的 prompt 缓存方法相比，存储成本大大降低。

Gisting

研究者首先在指令微调的背景下描述 gisting。对于指令遵循数据集

，t 表示用自然语言 prompt 编码的任务 (例如将此翻译成法语)，x 表示任务的（可选）输入 (例如 The cat)，y 表示期望的输出（例如 Le chat）。指令微调的目的是通过连接 t 和 x，然后让通常预先训练的语言模型自回归地预测 y，从而学习分布 pLM（y | t,x）。推理时可以使用新的任务 t 和输入 x 进行 prompt，从模型中解码以获得预测结果。

然而，连接 t 和 x 的这种模式具有缺点：基于 Transformer 的 LM 具有有限的上下文窗口，其受架构或计算能力所限。后者特别难解决，因为自注意力随输入长度呈二次方扩展。因此很长的 prompt，尤其那些被反复重用的 prompt，计算效率低下。有哪些选项可以用来降低 prompt 的成本呢？

一种简单的方法是针对特定任务 t 进行 LM 微调，即给定包含仅在任务 t 下的输入 / 输出示例的数据集

，可以学习一个专门的

，它更快，因为不需要考虑 t。

更好的是，prefix/prompt 微调或 adapter 等参数高效微调方法能够以比全面微调低得多的成本实现相同的目的。然而仍然存在问题：必须至少存储每个任务的一部分模型权重，并且更重要的是，对于每个任务 t，必须收集相应的输入 / 输出对数据集 D^t 并重新训练模型。

Gisting 是一种不同的方法，它摊销了两部分成本：（1）在 t 上条件化 p_LM 的推理时间成本，（2）学习每个 t 的新 p^t_LM 的训练时间成本。其思想是在微调期间学习 t 的压缩版本 G (t)，使得从 p_G (y | G (t),x) 进行推理比从 p_LM (y|t,x) 更快。

在 LM 术语中，G (t) 将是一组「虚拟」的 Gist token，其数量比 t 中的 token 少，但仍会在 LM 中引起类似的行为。接着可以缓存并重复使用 G (t) 上的 transformer 激活（例如键和值矩阵）以提高计算效率。重要的是，研究者希望 G 可以泛化到未见过的任务：给定一个新任务 t，则可以预测并使用相应的 Gist 激活 G (t) 而无需进行任何额外训练。

通过掩膜学习 Gisting

上文描述了 Gisting 的一般框架，接下来将探讨一种学习此类模型的极简单方法：使用 LM 本身用作 Gist 预测器 G。这不仅利用了 LM 中的预存在知识，而且允许通过简单地执行标准指令微调来学习 gisting 并修改 Transformer 注意力掩膜来增强 prompt 压缩。这意味着 Gisting 不会产生额外训练成本，只需要基于标准指令微调即可！

具体来说，向模型词汇表和嵌入矩阵中添加一个特殊的 gist token，类似于此类模型中常见的句子开头 / 结尾 token。然后对于给定的（任务，输入）元组（t，x），使用 (t, g_1, . . . , g_k, x) 中一组 k 个连续的 gist token 将 t 和 x 连接在一起，例如

。这个序列被输入到模型中，有一个限制，即在 gist token 之后的输入 token 不能参考之前的 prompt token（但它们可以参考 gist token）。这会强制模型将 prompt 中的信息压缩成 gist token，因为输入 x (输出 y) 无法处理 prompt t。

下图 2 展示了所需要的更改。对于 GPT-3 或 LLaMA 等通常采用自回归因果注意力掩膜的 decoder-only LM，只需 mask out 图 2a 所示的三角形左下角。对于具有双向编码器和自回归解码器的 encoder-decoder LM，则需要进行两项修改（图 2b 所示）。

首先，在通常没有掩膜的编码器中，阻止输入 token x 参考 prompt token t。但还必须防止 prompt t 和 gist token g_i 参考输入 token x，否则编码器将根据输入学习不同的 gist 表示。最后解码器正常运行，除了在交叉注意力期间，这时需要阻止解码器参考 prompt token t。

实验结果

对于不同数量的 gist token， LLaMA-7B 和 FLAN-T5-XXL 的 ROUGE-L 和 ChatGPT 评估结果如下图 3 所示。

模型通常对 gist token 的数量 k 不敏感：将 prompt 压缩到单个 token 并不会导致显著性能下降。事实上，在某些情况下，过多的 gist token 会损害性能 (例如 LLaMA-7B, 10 gist tokens)，这可能是因为增加的容量使训练分布过拟合。因此，研究者在下表 1 中给出了单 token 模型的具体数值，并在剩余实验中使用单个 gist 模型。

在见过的指令上，gist 模型获得了与其对应阳性对照模型几乎相同的 ROUGE 和 ChatGPT 性能，在 LLaMA-7B FLANT5-XXL 上的胜率分别为 48.6% 和 50.8%。这里研究者最感兴趣的是它们在未见过任务上的泛化能力，这需要通过另外两个数据集来衡量的。

在 Alpaca+ 训练数据集中未见过的 prompt 中，可以看到 gist 模型在未见过 prompt 上有着强大的泛化能力：与对照组相比，分别有 49.7%（LLaMA）和 46.2%（FLAN-T5）的胜率。在最具挑战性的 OOD Human split 上，gist 模型的胜率略微下降，分别为 45.8%（LLaMA）和 42.5%（FLANT5）。

本文的目的是让 gist 模型紧密地模仿原始模型的功能，因此有人可能会问究竟什么时候 gist 模型与对照组无差别。下图 4 说明了这种情况发生的频率：对于已见过任务（但是未见过的输入），gist 模型几乎有一半的时间与对照组不相上下。对于未见过的任务，这一数字下降到了 20-25%。对于 OOD Human 任务，这一数字又下降到 10%。无论如何，gist 模型输出的质量是很高的。

总的来说，这些结果表明，gist 模型可以可靠地压缩 prompt，甚至在训练分布之外的某些 prompt 上也可以做到这一点，特别是像 LLaMA 这样的 decoder-only 因果 LM。FLAN-T5 等 encoder-decoder 模型表现略差，一个可能的原因是 gist 掩膜抑制了编码器中的双向注意力流，这比仅 mask 自回归解码器的一部分 history 更具挑战性。未来需要进一步的工作来研究这个假设。

计算、内存和存储效率

最后，回到这项工作的核心动机之一：gisting 可以带来什么样的效率提升？

下表 2 展示了使用 PyTorch 2.0 分析器对模型进行单次前向传递的结果（即使用单个输入 token 的自回归解码的一步），并对 Human eval split 中的 252 个指令取平均值。与未经优化的模型相比，gist 缓存显著提高了效率。两种模型的 FLOPs 节约率达到了 40％，时钟时间降低了 4-7％。

然而更重要的是，与指令缓存相比，gist 缓存有着除延迟之外的关键优势：将 26 个 token 压缩为 1 个可以在输入上下文窗口中腾出更多空间，这受到绝对位置嵌入或者 GPU VRAM 的限制。特别是对于 LLaMA-7B，KV 缓存中的每个 token 需要 1.05MB 的存储空间。尽管在测试的 prompt 长度下，KV 缓存相对于 LLaMA-7B 推断所需的内存总贡献微不足道，但一个越来越常见的场景是开发人员在大量用户之间缓存许多 prompt，存储成本很快就会增加。在存储空间相同的情况下，gist 缓存能比完整指令缓存多 26 倍的 prompt。

Tags：ChatGPT 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(9)　　评论:(0)　　加入收藏

无需注册！OpenAI宣布放开ChatGPT使用限制

工智能初创公司OpenAI宣布，即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道：“让ChatGPT等工具广泛可用，让人们能够体验到人工智能的好处，这是我们使命的...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(7)　　评论:(0)　　加入收藏

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 C...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(3)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(8)　　评论:(0)　　加入收藏

ChatGPT之父Altman两小时对谈，首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么

Altman做客油管博主Lex Fridman科技博客，被追问了一个又一个辛辣的问题。长达两个小时的对谈，奥特曼从OpenAI宫斗、马斯克诉讼、Sora，一直聊到AGI与外星文明！本文重点梳理了长...【详细内容】

2024-03-20　　Search: ChatGPT 点击:(8)　　评论:(0)　　加入收藏

ChatGPT主管最新访谈：未来AI和人类如何共处？

Peter Deng在最新访谈中表示：AI不会取代生产力，人类和AI只有合作才能释放真正潜力，ChatGPT比已知的更强大、最大的挑战在于理解用户需求。当地时间3月13日，OpenAI 消费产品副总...【详细内容】

2024-03-19　　Search: ChatGPT 点击:(11)　　评论:(0)　　加入收藏

ChatGPT日耗电超50万度，大模型或带来“电荒”

未来两年内将由“缺硅”变为“缺电”，马斯克的预言可能正在变成现实。据《纽约客》杂志报道，OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力，以响应用户的...【详细内容】

2024-03-11　　Search: ChatGPT 点击:(32)　　评论:(0)　　加入收藏

OpenAI新功能：ChatGPT可调用自定义机器人，对话更高效！

近日，知名科技公司OpenAI推出了一项新的功能——“对话中调用（@）自定义聊天机器人”，让用户在对话中无缝切换不同领域的机器人。这一功能的出现，为用户带来了极大的便...【详细内容】

2024-02-02　　Search: ChatGPT 点击:(53)　　评论:(0)　　加入收藏

ChatGPT元年之后，AI重塑世界，人类如何与其“智慧共生”？

过去一年，人工智能（AI）凭借大语言模型的爆火迅速进入大众视野。它比以往任何时候都更强大，也更具亲和力。这不仅给未来生活带来了新希望，也在人们心中蒙上了一层担忧—&mdas...【详细内容】

2024-01-26　　Search: ChatGPT 点击:(77)　　评论:(0)　　加入收藏

年度最热AI应用TOP 50，除了ChatGPT还有这么多宝藏

量子位 | 公众号 QbitAI百模齐发、AI工具乱杀的一年里，谁是真正赢家？ChatGPT访问量遥遥领先位居第一，但单次使用时长没超过平均线。Midjourney访问量年度第四，但下滑量位居第二...【详细内容】

2024-01-02　　Search: ChatGPT 点击:(54)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金