您当前的位置：首页 > 电脑百科 > 人工智能

RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级

时间：2023-09-18 13:33:16 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：LRS

【新智元导读】AI领域日新月异，RLHF也逐渐成为过时的技术，但新路线尚不明朗：应该采用无需人工的反馈，还是继续改进RLHF机制？

在ChatGPT引领的大型语言模型时代，一个绕不过去的话题就是「基于人类反馈的强化学习」（RLHF），不仅提升了语言模型的性能，也将人类社会的价值观注入到模型中，使得语言模型能够帮助用户解决问题，提高模型的安全性。

不过在ChatGPT之后，大量模型和相关技术不断发布，RLHF也早已更新换代，并衍生出来一些无需人工的微调方法，效果提升也很明显。

最近，Lightning AI创始人、AI研究大牛Sebastian Raschka发表了一篇博客，描述了Llama 2中的RLHF机制和原版相比做出了哪些改变和提升，还介绍了几个RLHF算法的替代方案。

经典LLM的训练流程

目前最先进的、基于Transformer的大型语言模型，例如ChatGPT或Llama 2，大体都包括三个训练步骤：预训练，有监督微调和对齐。

在预训练阶段，模型会吸收来自海量、无标注文本数据集的知识，然后使用有监督微调细化模型以更好地遵守特定指令；最后使用对齐技术使LLM可以更有用且更安全地响应用户提示。

1. 预训练（Pretraining）

预训练阶段通常需要包含数十亿到数万亿个token的庞大文本语料库，但训练目标只是一个简单的「下一个单词预测」（next word prediction）任务，模型需要根据提供的文本来预测后续单词或token。

自监督预训练可以让模型从大规模的数据中学习，只要能够在不侵犯版权，或是无视创造者偏好的情况下收集到数据，就可以不依赖人工标注完成训练，因为训练标签实际上就是文本的后续单词，已经暗含在数据集中了。

2. 有监督微调（Supervised f.NETuning）

第二阶段大体上来看也是「next token prediction」任务，不过需要人工标注的指令数据集，其中模型的输入是一个指令（根据任务的不同，也可能包含一段文本），输出为模型的预期回复内容。

数据形式类似于：

Instruction: "Write a about a pelican."

使用说明：“写一首关于鹈鹕的打油诗。“

Output: "There once was a pelican so fine..."

输出：“从前有一只鹈鹕很好...“

模型会将指令文本作为输入，并逐个token输出，训练目标是与预期输出相同。

虽然两个阶段都采用相似的训练目标，但有监督微调数据集通常比预训练数据小得多，指令数据集需要人类（或其他高质量的LLM）提供标注结果，所以无法大规模应用。

3. 对齐（Alignment）

第三阶段依然是微调，不过其主要目标在于将语言模型与人类的偏好、价值观进行对齐，也是RLHF机制发挥作用的地方。

RLHF主要包括三步：

Step 1. 预训练模型的有监督微调

先收集一个提示词集合，并要求标注人员写出高质量的回复，然后使用该数据集以监督的方式微调预训练的基础模型。

Step 2. 创建奖励模型

对于每个提示，要求微调后的LLM生成四到九个回复，再由标注人员根据个人偏好对所有回复进行排序。

虽然排序过程很耗时，但工作量还是比第一步的数据集构建少一些。

在处理排序结果时，可以设计一个奖励模型RM，将微调语言模型SFT的输出通过一个回归层（单个输出节点）转换为奖励分数，用于后续优化。

Step 3.PPO微调

使用邻近策略优化（PPO，proximal policy optimization ），根据奖励模型提供的奖励分数对SFT模型进一步优化。

PPO的具体技术细节可以参考InstructGPT或下面的论文列表。

Asynchronous Methods for Deep Reinforcement Learning (2016) ，https://arxiv.org/abs/1602.01783
Proximal Policy Optimization Algorithms (2017)，https://arxiv.org/abs/1707.06347
Fine-Tuning Language Models from Human Preferences (2020)，https://arxiv.org/abs/1909.08593
Learning to Summarize from Human Feedback (2022) ，https://arxiv.org/abs/2009.01325

Llama 2中的RLHF

Meta AI在创建Llama-2-chat模型时也使用了RLHF技术，不过与ChatGPT相比还是有些细微区别。

简单来说，Llama-2-chat在第一步RLHF微调上使用相同的指令数据，但在第二步使用了两个奖励模型；通过多个阶段的不断进化，奖励模型也会根据Llama-2-chat模型出现的错误进行更新；并且增加了拒绝采样（rejection sampling）步骤。

Margin Loss

在标准InstructGPT中使用的RLHF PPO方法，研究人员需要收集同一个提示下的4-9个模型输出并进行排序，比如四个回复的排序结果为A<C< D<B，那么就可以得到六个对比结果：A < C，A < D ，A < B，C < D，C < B，D < B

Llama 2的数据集也采用类似的方式，不过标注人员每次只能看到两个（而非4-9个）回复并进行对比，但新增了一个边际（margin）标签，对比结果可以为「显著更好」（significantly better）和「好的不明显」（negligibly better）。

在排序训练时中，Llama 2相比InstructGPT增加了边际损失：

其中，rθ（x，y）是提示x和生成的回复y的标量分数输出; θ为模型权重; σ是将层输出转换为范围从0到1的分数的逻辑S形函数; yc是由标注人员选择的更优回复; yr是较差的回复。

m(r)可以调节两个回复之间的差值，如果对比结果为「显著更好」，则会增加梯度值，加快更新速度。

两种奖励模式

Llama 2中的两个奖励模型分别侧重「有用性」（helpfulness）和「安全性」（safety），用于模型优化的最终奖励函数会将两个分数进行线性组合。

拒绝采样（Rejection sampling）

Llama 2的作者使用了一个训练流水线，同时使用PPO和拒绝采样算法，迭代地产生多个RLHF模型（从RLHF-V1到RLHF-V5），模型在拒绝采样时会得到K个输出，在每次优化迭代时选择具有最高奖励的输出用于梯度更新，而PPO每次只基于单样本进行更新。

从实验结果来看，RLHF微调模型在无害性和有用性上都得到了改善，并且在最后阶段RLHF-v5使用PPO算法的性能最好。

RLHF的替代方案

可以看到，RLHF是一个相当复杂的过程，如此精心的设计是否值得？

虽然InstructGPT和Llama 2论文实验结果中证实了RLHF带来的性能提升，但也有相关工作在关注开发更有效的替代品：

1. 宪政AI：人工智能反馈的无害性

研究人员提出了一种基于人类提供的规则列表的自我训练机制，也使用了强化学习的方法。

论文标题：Constitutional AI: Harmlessness from AI Feedback

论文链接：https://arxiv.org/abs/2212.08073

发表日期：2022年12月

上图中的「红队」（Red Team）指的是测试目标系统的防御能力，即外部或内部专家模拟潜在对手的过程，通过模仿现实世界攻击者的战术、技术和程序来挑战、测试并最终改进系统。

2. 后见之明的智慧

研究人员提出了一种基于重新标注的有监督方法HIR用于微调，在12个BigBench任务上都优于RLHF算法。

论文标题：The Wisdom of Hindsight Makes Language Models Better Instruction Followers

论文链接：https://arxiv.org/abs/2302.05206

发表时间：2023年2月

HIR方法包括两个步骤，采样和训练：在采样时，提示和指令被馈送到LLM以收集回复，并基于对齐分数，在训练阶段适当的地方重新标注指令；然后使用新指令和原始提示用于微调LLM。

重新标注可以有效地将失败案例（LLM创建的输出与原始指令不匹配的情况）转化为有用的训练数据以用于监督学习。

3. 直接偏好优化

直接偏好优化（DPO）是使用PPO的RLHF的替代方案，实验结果显示，用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM，并且DPO更有效，在回复生成质量方面通常也优于RLHF/PPO

论文标题：Direct Preference Optimization: Your Language Model is Secretly a Reward Model

论文链接：https://arxiv.org/abs/2305.18290

发表日期：2023年5月

4. 强化自训练（ReST）

ReST是RLHF的替代方案，可以将LLM与人类偏好对齐，其使用采样方法来创建一个改进的数据集，在质量越来越高的子集上迭代训练，以完善其奖励函数。

论文标题：Reinforced Self-Training (ReST) for Language Modeling

论文链接：https://arxiv.org/abs/2308.08998

发表日期：2023年8月

根据作者的说法，ReST通过离线生成其训练数据集，与标准在线RLHF方法（PPO）相比，实现了更高的效率，但缺少与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较。

5. 基于人工智能反馈的强化学习

基于人工智能反馈的强化学习（RLAIF）的研究表明，RLHF中奖励模型训练的评级不一定必须由人类提供，也可以由LLM生成（如PaLM 2）。

论文标题：RLAIF：Scaling Reinforcement Learning from Human Feedback with AI Feedback

论文链接：https://arxiv.org/abs/2309.00267

发表日期：2023年9月

标注人员在一半的案例中更喜欢RLAIF模型，也就意味着两个模型的差距并不大，并且RLHF和RLAIF都大大优于纯粹通过监督指令微调训练的模型。

这项研究的结果是非常有用的，基本上意味着我们可以更容易获得RLHF的训练数据，不过RLAIF模型如何在定性研究中表现还有待观察，这项研究侧重于信息内容的安全性和真实性，只是对人类偏好研究的部分捕获。

但这些替代方案在实践中是否有价值还有待观察，因为目前还没有哪个模型可以不用RLHF的情况下，取得与Llama 2和Code Llama相近的性能。

参考资料：

https://magazine.sebastianraschka.com/p/llm-training-rlhf-and-its-alternatives

Tags：RLHF 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

RLHF何以成LLM训练关键？AI大牛盘点五款平替方案，详解Llama 2反馈机制升级

新智元报道编辑：LRS【新智元导读】AI领域日新月异，RLHF也逐渐成为过时的技术，但新路线尚不明朗：应该采用无需人工的反馈，还是继续改进RLHF机制？在ChatGPT引领的大型语言模型时代，一...【详细内容】

2023-09-18　　Search: RLHF 点击:(296)　　评论:(0)　　加入收藏

RLHF再也不需要人类了！谷歌团队研究证明，AI标注已达人类水平

新智元报道编辑：编辑部【新智元导读】ChatGPT横空出世后，RLHF成为研究人员关注的焦点。谷歌最新研究提出，不用人类标注，AI标注偏好后，也能取得与RLHF一样的效果。如果说，RLHF中的...【详细内容】

2023-09-05　　Search: RLHF 点击:(80)　　评论:(0)　　加入收藏

ChatGPT背后RLHF算法能成功的5个原因

前面的几篇文章，作者深入探讨过RLHF 的算法原理，今天站在一定高度讨论，为什么需要RLHF 这么复杂的强化学习算法，为什么SL(监督学习) 不能达到这样一个效果？这篇文章就从Sebastian...【详细内容】

2023-08-31　　Search: RLHF 点击:(277)　　评论:(0)　　加入收藏

详解大模型RLHF过程

一直都特别好奇大模型的强化学习微调是怎么做的，网上虽然相关文章不少，但找到的文章都是浅尝辄止说到用PPO训练，再细致深入的就没有讲了。。。只能自己看一看代码，以前搞过一点...【详细内容】

2023-08-23　　Search: RLHF 点击:(287)　　评论:(0)　　加入收藏

解读ChatGPT中的RLHF

无论是 ChatGPT 还是 GPT-4，它们的核心技术机制之一都是基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）。这是大型语言模型生成领域的新训练范式，即...【详细内容】

2023-05-07　　Search: RLHF 点击:(301)　　评论:(0)　　加入收藏

谷歌复用30年前经典算法，CV引入强化学习，网友：视觉RLHF要来了？

ChatGPT 的火爆有目共睹，而对于支撑其成功背后的技术，监督式的指令微调以及基于人类反馈的强化学习至关重要。这些技术也在逐渐扩展到其他 AI 领域，包括计算机视觉（CV）。我们知...【详细内容】

2023-02-27　　Search: RLHF 点击:(143)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个