您当前的位置：首页 > 新闻资讯 > 科技

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

时间：2023-10-07 14:03:57 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：LRS

【新智元导读】LLM不实用，小模型蒸馏才是「现实」的大模型应用路线，全面领先微调技术！土豪请无视。。。

大型语言模型虽然性能优异，可以用零样本或少样本提示解决新任务，但LLM在实际应用部署时却很不实用，内存利用效率低，并且需要大量计算资源。

比如运行一个1750亿参数的语言模型服务至少需要350GB的显存，而目前最先进的语言模型大多已超过5000亿参数量，很多研究团队都没有足够的资源来运行，在现实应用中也无法满足低延迟性能。

也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型，不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。

为了解决大模型的资源需求问题，华盛顿大学联合谷歌提出了一种新的蒸馏机制「分步蒸馏」（Distilling Step-by-Step），蒸馏后的模型尺寸相比原模型来说非常小，但性能却更好，并且微调和蒸馏过程中所需的训练数据也更少。

论文链接：https://arxiv.org/abs/2305.02301

分布蒸馏机制把LLM中抽取出的预测理由（rationale）作为在多任务框架内训练小模型的额外监督信息。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

在4个NLP基准上进行实验后，可以发现：

1. 与微调和蒸馏相比，该机制用更少的训练样本实现了更好的性能；

2. 相比少样本提示LLM，该机制使用更小尺寸的模型实现了更好的性能；

3. 同时降低模型尺寸和数据量也可以实现优于LLM的性能。

实验中，微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型，而标准微调相同的T5模型即使使用100%的数据集也难以匹配。

蒸馏方法

分布蒸馏（distilling step by step）的关键思想是抽取出信息丰富且用自然语言描述的预测理由，即中间推理步骤，可以解释输入问题与模型输出之间的联系，然后再反过来用该数据以更高效的方式训练小模型。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

分布蒸馏主要由两个阶段组成：

1. 从LLM中抽取原理（rationale）

研究人员利用少样本思维链（CoT）提示从LLM中提取预测中间步骤。

给定目标任务后，先在LLM输入提示中准备几个样例，其中每个样例由一个三元组组成，包含（输入，原理，输出）。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

输入提示后，LLM能够模仿三元组演示以生成其他新问题的预测原理，例如，在常识问答案任务中，给定输入问题：

「Sammy想要去人群所在的地方。他会去哪里？答案选项：（a）人口稠密地区，（B）赛道，（c）沙漠，（d）公寓，（e）路障」

（Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock）

通过逐步提炼后，LLM可以给出问题的正确答案「（a）人口稠密地区」，并且提供回答问题的理由「答案必须是一个有很多人的地方，在上述选择中，只有人口稠密的地区有很多人。」

通过在提示中提供与基本原理配对的CoT示例，上下文学习能力可以让LLM为没见过的问题类型生成相应的回答理由。

2. 训练小模型

通过将训练过程构建为多任务问题，将预测理由抽取出来，并将其纳入训练小模型中。

除了标准标签预测任务之外，研究人员还使用新的理由生成任务来训练小模型，使得模型能够学习生成用于预测的中间推理步骤，并且引导模型更好地预测结果标签。

通过在输入提示中加入任务前缀「label」和「rationale」来区分标签预测和理由生成任务。

实验结果

在实验中，研究人员选择5400亿参数量的PaLM模型作为LLM基线，使用T5模型作为任务相关的下游小模型。

然后在三个不同的NLP任务中对四个基准数据集进行了实验：用于自然语言推理的e-SNLI和ANLI、常识问答的CQA，以及用于算术数学应用题的SVAMP.

更少的训练数据

与标准微调相比，分步蒸馏方法使用更少的训练数据即实现了更好的性能。

在e-SNLI数据集上，当使用完整数据集的12.5%时就实现了比标准微调更好的性能，在ANLI、CQA和SVAMP上分别只需要75%、25%和20%的训练数据。

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

与使用220M T5模型对不同大小的人工标记数据集进行标准微调相比，在所有数据集上，分布蒸馏使用更少的训练示例优于在完整数据集上训练的标准微调。

更小的部署模型尺寸

与少样本CoT提示的LLM相比，分布蒸馏得到的模型尺寸要小得多，但性能却更好。

在e-SNLI数据集上，使用220M的T5模型实现了比540B的PaLM更好的性能；在ANLI上，使用770M的T5模型实现了比540B的PaLM更好的性能，模型尺寸仅为1/700

更小的模型、更少的数据

在模型尺寸和训练数据同时降低的情况下，也实现了超越少样本PaLM的性能。

在ANLI上，使用770M T5模型超越了540B PaLM的性能，只使用了完整数据集的80%

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

并且可以观察到，即使使用100%的完整数据集，标准微调也无法赶上PaLM的性能，表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。

参考资料：

https://blog.research.google/2023/09/distilling-step-by-step-outperforming.html

Tags：UW谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据

新智元报道编辑：LRS【新智元导读】LLM不实用，小模型蒸馏才是「现实」的大模型应用路线，全面领先微调技术！土豪请无视。。。大型语言模型虽然性能优异，可以用零样本或少样本提示解...【详细内容】

2023-10-07　　Search: UW谷歌点击:(138)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(7)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(1)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(3)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(5)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(8)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

0首付、0利息！多家车企	真正0首付、0利息来了
微信共享位置怎么换地	微信搜索seo优化策略：
微信恢复聊天记录全攻	如何实现微信聊天记录
收入越高，生育率越低！真	北京、广州相继上调公