轻松打造家用版GPT-4！微软开源微调指令集：效果不输原版，中英双语都能用

时间：2023-04-14 12:14:48 来源：作者：新智元

「指令」（Instruction）是ChatGPT模型取得突破性进展的关键因素，可以让语言模型的输出更符合「人类的偏好」。

但指令的标注工作需要耗费大量的人力，即便有了开源的语言模型，资金不足的学术机构、小公司也很难训练出自己ChatGPT.

最近微软的研究人员利用之前提出的Self-Instruct技术，首次尝试使用GPT-4模型来自动生成语言模型所需的微调指令数据。

论文链接：https://arxiv.org/pdf/2304.03277.pdf

代码链接：https://Github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

在基于Meta开源的LLaMA模型上的实验结果表明，由 GPT-4生成的5.2万条英语和汉语instruction-following数据在新任务中的表现优于以前最先进的模型生成的指令数据，研究人员还从GPT-4中收集反馈和比较数据，以便进行全面的评估和奖励模式训练。

训练数据

数据收集

研究人员重用了斯坦福大学发布的Alpaca模型用到的5.2万条指令，其中每条指令都描述了模型应该执行的任务，并遵循与Alpaca相同的prompting策略，同时考虑有输入和无输入的情况，作为任务的可选上下文或输入；使用大型语言模型对指令输出答案。

在Alpaca 数据集中，输出是使用GPT-3.5（text-davinci-003）生成的，但在这篇论文中，研究人员选择使用GPT-4来生成数据，具体包括以下四个数据集：

1. 英文Instruction-Following Data：对于在Alpaca中收集的5.2万条指令，为每一条指令都提供一个英文GPT-4答案。

未来的工作为遵循迭代的过程，使用GPT-4和self-instruct构建一个全新的数据集。

2. 中文Instruction-Following Data：使用ChatGPT将5.2万条指令翻译成中文，并要求GPT-4用中文回答这些指令，并以此建立一个基于LLaMA的中文instruction-following模型，并研究指令调优的跨语言泛化能力。

3. 对比数据（Comparison Data）：要求GPT-4对自己的回复提供从1到10的评分，并对GPT-4, GPT-3.5和OPT-IML这三个模型的回复进行评分，以训练奖励模型。

4. 非自然指令的答案：GPT-4的答案是在6.8万条（指令，输入，输出）三元组的数据集上解码的，使用该子集来量化GPT-4和指令调优后的模型在规模上的差距。

数据统计

研究人员对比了GPT-4和GPT-3.5的英语输出回复集合：对于每个输出，都提取了根动词（root verb）和直接宾语名词（direct-object noun），在每个输出集上计算了独特的动词-名词对的频率。

频率高于10的动词-名词对

频率最高的25对动词-名词

输出序列长度的频率分布对比

可以看到，GPT-4倾向于生成比GPT-3.5更长的序列，Alpaca中GPT-3.5数据的长尾现象比GPT-4的输出分布更明显，可能是因为Alpaca数据集涉及到一个迭代的数据收集过程，在每次迭代中去除相似的指令实例，在目前的一次性数据生成中是没有的。

尽管这个过程很简单，但GPT-4生成的instruction-following数据表现出更强大的对齐性能。

指令调优语言模型

Self-Instruct 调优

研究人员基于LLaMA 7B checkpoint有监督微调后训练得到了两个模型：LLaMA-GPT4是在GPT-4生成的5.2万条英文instruction-following数据上训练的；LLaMA-GPT4-CN是在GPT-4的5.2万条中文instruction-following数据上训练的。

两个模型被用来研究GPT-4的数据质量以及在一种语言中进行指令调优的LLMs时的跨语言泛化特性。

奖励模型

从人类反馈中进行强化学习（Reinforcement Learning from Human Feedback，RLHF）旨在使LLM行为与人类的偏好相一致，以使语言模型的输出对人类更加有用。

RLHF的一个关键组成部分是奖励建模，其问题可以被表述为一个回归任务，以预测给定提示和回复的奖励评分，该方法通常需要大规模的比较数据，即对同一提示的两个模型反应进行比较。

现有的开源模型，如Alpaca、Vicuna和Dolly，由于标注对比数据的成本很高，所以没有用到RLHF，并且最近的研究表明，GPT-4能够识别和修复自己的错误，并准确判断回复的质量。

为了促进对RLHF的研究，研究人员使用GPT-4创建了对比数据；为了评估数据质量，研究人员训练一个基于OPT 1.3B的奖励模型，以对不同的回复进行评分：对一个提示和K个回复，GPT-4为每个回复提供一个1到10之间的评分。

实验结果

在 GPT-4数据上评估以前从未见过的任务的self-instruct调优模型的性能仍然是一项困难的任务。

由于主要目标是评估模型理解和遵守各种任务指示的能力，为了实现这一点，研究人员利用三种类型的评估，并通过研究结果证实，「利用 GPT-4生成数据」相比其他机器自动生成的数据来说是一种有效的大型语言模型指令调优方法。

人类评估

为了评估该指令调优后的大型语言模型对齐质量，研究人员遵循之前提出的对齐标准：如果一个助手是有帮助的、诚实的和无害的（HHH），那它就是与人类评估标准对齐的，这些标准也被广泛用于评估人工智能系统与人类价值观的一致性程度。

帮助性（helpfulness）：是否能帮助人类实现他们的目标，一个能够准确回答问题的模型是有帮助的。

诚实性（honesty）：是否提供真实信息，并在必要时表达其不确定性以避免误导人类用户，一个提供虚假信息的模型是不诚实的。

无害性（harmlessness）：是否不会对人类造成伤害，一个产生仇恨言论或提倡暴力的模型不是无害的。

基于HHH对齐标准，研究人员使用众包平台Amazon Mechanical Turk对模型生成结果进行人工评估。

文中提出的两个模型分别在GPT-4和GPT-3生成的数据上进行了微调，可以看到LLaMA-GPT4以51.2%的占比在帮助性上要大大优于在GPT-3上微调的Alpaca（19.74%），而在诚实性和无害性标准下，则基本处于平局状态，GPT-3要略胜一筹。

在和原版GPT-4对比时，可以发现二者在三个标准上也是相当一致的，即GPT-4指令调优后的LLaMA表现与原始的GPT-4类似。

GPT-4自动评估

受 Vicuna 的启发，研究人员也选择用GPT-4来评估不同聊天机器人模型对80个未见过的问题所生成回答的质量，从 LLaMA-GPT-4(7B)和 GPT-4模型中收集回复，并从以前的研究中获得其他模型的答案，然后要求GPT-4对两个模型之间的回复质量进行评分，评分范围从1到10，并将结果与其他强竞争模型(ChatGPT 和 GPT-4)进行比较。

评估结果显示，反馈数据和奖励模型对提高 LLaMA 的性能是有效的；用GPT-4对LLaMA进行指令调优，往往比用text-davinci-003调优（即Alpaca）和不调优（即LLaMA）的性能更高；7B LLaMA GPT4的性能超过了13B Alpaca和LLaMA，但和GPT-4等大型商业聊天机器人相比，仍有差距。

进一步研究中文聊天机器人的性能时，首先使用GPT-4将聊天机器人的问题也从英文翻译成中文，用GPT-4获得答案，可以得到两个有趣的观察结果：

1. 可以发现GPT-4评价的相对分数指标是相当一致的，无论是在不同的对手模型（即ChatGPT或GPT-4）和语言（即英语或中文）方面。

2. 仅就GPT-4的结果而言，翻译后的回复比中文生成的回复表现得更好，可能是因为GPT-4是在比中文更丰富的英文语料库中训练的，所以具有更强的英文instruction-following能力。

非自然指令评估（Unnatural Instruction Evaluation）

从平均ROUGE-L得分来看，Alpaca优于LLaMA-GPT 4和GPT-4，可以注意到，LLaMA-GPT4和GPT4在ground truth回复长度增加时逐渐表现得更好，最终在长度超过4时表现出更高的性能，意味着当场景更具创造性时，可以更好地遵循指令。

在不同的子集中，LLaMA-GPT4跟GPT-4的行为相差无几；当序列长度较短时，LLaMA-GPT4和GPT-4都能生成包含简单的基本事实答案的回复，但会增加额外的词语，使回复更像聊天，可能会导致ROUGE-L得分降低。

Tags：GPT-4 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: GPT-4 点击:(7)　　评论:(0)　　加入收藏

微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%

新智元报道编辑：桃子润【新智元导读】全球首个AI程序员Devin诞生之后，让码农纷纷恐慌。没想到，微软同时也整出了一个AI程序员——AutoDev，能够自主生成、执行代码等...【详细内容】

2024-03-18　　Search: GPT-4 点击:(17)　　评论:(0)　　加入收藏

前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

3 月 9 日央视的一档节目上，百度创始人、董事长兼 CEO 李彦宏指出，以后不会存在「程序员」这种职业了，因为只要会说话，人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】

2024-03-11　　Search: GPT-4 点击:(9)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: GPT-4 点击:(76)　　评论:(0)　　加入收藏

微软Copilot Pro来了：个人用户也能在Word里用GPT-4，20美元/月

面向个人用户的微软Copilot会员版来了。一个月多交20刀（约合人民币142元），Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样，不用在C...【详细内容】

2024-01-16　　Search: GPT-4 点击:(90)　　评论:(0)　　加入收藏

“GPT-4变傻”不只是OpenAI的苦恼，所有大模型与人类交往越久就会越蠢？

　许多大模型在处理早期数据时展现出的优异表现，实际上是受到了‘任务污染’的影响，回答问题全靠记，而非纯粹基于学习理解能力。　　ChatGPT发布一年多，已经在全世界...【详细内容】

2024-01-05　　Search: GPT-4 点击:(48)　　评论:(0)　　加入收藏

GPT-4V开源平替！清华浙大领衔，LLaVA等开源视觉模型大爆发

新智元报道编辑：Aeneas【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言...【详细内容】

2024-01-03　　Search: GPT-4 点击:(53)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: GPT-4 点击:(120)　　评论:(0)　　加入收藏

GPT-4V 都搞不明白的未来推理有解法了！来自华科大 & 上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V（如下图所示），也无法很好地解决...【详细内容】

2023-12-18　　Search: GPT-4 点击:(58)　　评论:(0)　　加入收藏

OpenAI 宣布修复GPT-4变懒问题，将在离线评估及AB测试后更新模型

IT之家 12 月 11 日消息，OpenAI 在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4 API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenA...【详细内容】

2023-12-12　　Search: GPT-4 点击:(50)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

16个Redis常见使用场	一篇文章教会你使用Py
聊聊Rust里面的数据类	C++中的外部模板及其
一篇文章带你了解Pyth	网络安全行业的春天何
Linux获取Redis 性能	Redis与缓存一致性问