您当前的位置：首页 > 电脑百科 > 人工智能

一文解决所有「语言模型」疑问：能不能训多个epoch？怎么微调效率高？需要多少条数据？

时间：2023-06-08 13:29:57 来源：新智元作者：

+ 加入收藏

新智元报道

编辑：LRS

【新智元导读】关于语言模型，你的问题可能已经有了答案。

过去几个月里，Meta的LLaMA引领了一场语言模型的开源狂潮，并且随着大众对语言模型训练研究的深入，很多问题也都有了答案。

比如需要人类反馈和强化学习来对齐语言模型吗？语言模型在ChatGPT模拟数据上的效果怎么样？是否可以用多个epoch训练语言模型？

最近，lighting.AI的首席教研员、前威斯康星大学麦迪逊分校统计学助理教授Sebastian发布了一篇博客，介绍了一些解决上述疑问的研究成果。

在特定任务上微调语言模型

Goat模型是一个基于7B LLaMA微调的模型，在算术任务上的性能优于GPT-4，在零样本设置中还超越了75倍参数量的540B PaLM

论文链接： https://arxiv.org/pdf/2305.14201.pdf

Goat相当于是一个专有用途的微调LLM，从直觉来看也肯定会优于GPT-4等通用聊天机器人。

不过对业务来说，这篇论文也打开了专用模型的大门，毕竟大部分公司追求的都是在某一领域超越GPT-4即可。

虽然Goat并不是第一个针对特定任务进行微调的语言模型，还有大量的基于FLAN微调的工作，但Goat取得成功的两个要素在于：

1. 在一个更好的基础语言模型上，在目标任务（相对于通用预训练或指令微调）上进行有监督微调；

2. LLaMA对数字的分词技术（将每个数字单独分配一个token）

从实验结果可知二者的结合是很重要的，第一点是因为原始7 B LLaMA基础型号不如GPT-4；第二点是因为对OPT，GPT-J等模型的微调结果不如Goat好，因为其他模型的数字分词技术不统一。

也有人有疑问，为什么不用Wolfram Alpha或常规计算器等工具进行算数计算，而非要用语言模型算数？

对这篇论文来说，算术任务可以很容易地合成数据集，评估也更方便，方便测试微调性能。

从Goat到Gorilla

另一个微调LLM以提高某一特定功能的例子是Gorilla，一个专门用于生成API调用的LLM。

论文链接： https://arxiv.org/abs/2305.15334

研究人员使用LLaMA-7 B基础模型，并对来自Torch Hub、TensorFlow Hub和HuggingFace的1645个API调用进行了微调，发现经过微调的Gorilla在API调用上优于其他未进行微调的LLM。

让微调更高效

之前提到的Goat模型使用低秩自适应（LoRA）技术以提高微调的效率，可以在单个24GB显存GPU上对70亿参数LLaMA模型进行微调。

论文链接： https://arxiv.org/abs/2305.14314

而最近发布的一个新技术QLoRA（量化LoRA）可以在单个 48GB显存的GPU上训练650亿参数的LLaMA模型，量化的4位参数设置下，训练后得到的65B Guanaco模型保持了完整的16位微调任务性能，并且仅在微调24小时后就达到了ChatGPT性能的99.3%。

微调语言模型需要多少数据？

对于想要定制语言模型的从业者和研究人员来说，起步难题就是获得足够的数据进行微调。

最近发布的LIMA论文可能是一次微调上的突破，研究结果表明，仅在1000个示例上进行微调的65 B LLaMA模型（以有监督的方式）并不落后于ChatGPT / GPT3.5等更大的模型。

论文链接： https://arxiv.org/abs/2305.11206

研究人员发现，在57%的情况下，GPT-4仍然更好，但他们观察到，在43%的情况下，LIMA优于或相当于GPT-4，已经非常强了；或者从另一个角度来看，大约有一半的情况，LIMA可以优于GPT-4的前身ChatGPT/GPT3.5（也叫DaVinci 003）。

不过还有一个问题是，同样是有监督微调后的LLaMA模型，为什么LIMA的表现比Alpaca好这么多？

首先，LIMA基于65B LLaMA模型，而原始Alpaca模型基于7B LLaMA基础模型。

为了公平对比，作者使用65B基础模型复刻了Alpaca的训练过程，即使用原始Alpaca项目中描述的52000个样本进行训练。

所以可以得出结论，差异实际上来源于作者为LIMA精心策划的训练集的质量，使得LIMA可以击败在52倍数据上训练的相同的65B LLaMA基础模型。

不过还缺少的一个基线对比和消融研究是LIMA与使用RLHF而非有监督学习进行微调的65B LLaMA基础模型。

虽然LIMA的实验结果非常有前景，不过有一篇论文的研究结果也需要注意，模仿学习得到的语言模型可能并没有想象中的那么强。

论文链接： https://arxiv.org/abs/2305.15717

最近几个月，根据来自其他语言模型（如ChatGPT）的数据对LLM进行微调已成为常见做法，不过研究人员发现，众包工作者对这些所谓的模仿模型评价很高。但事实证明，这些模仿模型只倾向于模仿上游语言模型的风格，而非真实性。

LIMA论文虽然没有使用模仿数据，而是使用精心设计的数据集，但仍然值得强调的是，评估结果有时似乎好得令人难以置信，我们需要更好的基准测试。

人类反馈强化学习的替代方案

最近几个月，有监督微调成了微调语言模型的新范式，比如LIMA论文也是使用有监督微调，但也存在其他方法来替代基于人类反馈的强化学习。

直接偏好优化（DPO，Direct Preference Optimization）也是一种全新的、可替代强化学习的方法，使用接近策略优化（PPO）的人类反馈，用于ChatGPT等指令微调模型。

研究人员表明，在RLHF中拟合奖励模型的交叉熵损失可以直接用于微调语言模型，而且根据基准测试，使用DPO更有效，并且在回复质量方面通常也优于RLHF/PPO

多个epoch训练会怎么样？

微调模型需要一个预训练的基础模型，所以一个很自然的需求就是获得更好的基础模型。

对经典的机器学习模型、深度神经网络以及最新的视觉Transformer模型训练数百个epoch是很常见的操作，不过大型语言模型通常指训练1个epoch，如果训练超过一个epoch会发生什么？

论文链接： https://arxiv.org/pdf/2305.13230.pdf

事实证明，互联网上的高质量文本数据比想象中的更少，此外，如果受版权保护的材料在未来被要求删除，可能会进一步缩小数据集的规模。

论文实验结果表明，要是因为数据量少就训练多个epoch，可能会导致模型过拟合。

另一个有趣的结论是：dropout可以帮助减少过度拟合，但其他技术如权重衰减却并不能。

不过现在常用的大型语言模型模型，如LLaMA，Gopher，C hinchilla，GPT-3和PaLM都没有使用dropout，因为会减慢学习速度。

三个开放问题

1. 只重复训练像LIMA这样的高质量数据怎么样？

从直觉上来看，这是有意义的，可能会对模型质量提升有所帮助，不过坏消息是，从实际来看没有多大帮助。

研究人员对维基百科的数据进行了一项相关实验，相比C4来说他们认为维基百科是高质量的，不过事实证明，当维基百科数据在训练期间重复多个epoch后也发生了类似的退化现象。

2. 数据增强有用吗？

目前有几种数据增强技术，包括回译、同义词替换、句子重排以及使用模型合成数据（例如GPT-4），但还没有数据增强对模型训练效果的全面分析。

3. 微调是什么样的？同样的规则适用吗？

根据作者的经验，训练3-5个小epoch是值得的，但目前也没有相关研究全面分析。

更高效的视觉Transformer

EfficientViT是一种全新的视觉Transformer，在速度和准确性之间提供了良好的平衡，其性能优于其他高效架构，如Mobil.NETV3和MobileViT，同时速度更快。

论文链接： https://arxiv.org/abs/2305.07027

研究人员使用级联组注意力，并为每个注意力头提供完整特征的不同分割（类似于组卷积）来减少多头自注意力层中的冗余。

之前的研究主要关注最佳的数据集大小和模型参数量，最近研究人员提出了推断计算最佳模型形状的方法，例如宽度和深度，实验中的视觉Transformer性能优于大两倍的模型。

论文链接： https://arxiv.org/abs/2305.13035

此外，如果使用相同的计算资源预算来训练较小的计算优化模型，其推理成本不到较大模型的一半。

参考资料：

https://magazine.sebastianraschka.com/p/ahead-of-ai-9-llm-tuning-and-dataset

Tags：语言模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

为何大语言模型不会取代码农？

译者 | 布加迪审校 | 重楼生成式人工智能（GenAI）会取代人类程序员吗？恐怕不会。不过，使用GenAI的人类可能会取代程序员。但是如今有这么多的大语言模型（LLM），实际效果不一而足。如...【详细内容】

2024-03-21　　Search: 语言模型点击:(23)　　评论:(0)　　加入收藏

简易百科之什么是大型语言模型？

简易百科之什么是大型语言模型？随着人工智能技术的不断发展，语言模型在自然语言处理领域的应用越来越广泛。大型语言模型作为其中的一种重要类型，受到了广泛的关注和研究。那么...【详细内容】

2024-01-26　　Search: 语言模型点击:(161)　　评论:(0)　　加入收藏

大语言模型插件功能在携程的Python实践

作者简介成学，携程高级安全研发工程师，关注Python/Golang后端开发、大语言模型等领域。一、背景2023年初，科技圈最火爆的话题莫过于大语言模型了，它是一种全新的聊天机器人模型，...【详细内容】

2024-01-26　　Search: 语言模型点击:(74)　　评论:(0)　　加入收藏

大型语言模型中最大的瓶颈：速率限制

作者 | Matt Asay策划 | 言征出品 | 51CTO技术栈（微信号：blog51cto）速率限制意味着每个人都在等待更好的计算资源或不同的生成人工智能模型。大型语言模型（LLM），如OpenAI的GPT-4...【详细内容】

2024-01-19　　Search: 语言模型点击:(51)　　评论:(0)　　加入收藏

基于自注意力机制的语言模型技术研究与应用

随着人工智能的快速发展和自然语言处理的广泛应用，语言模型成为了一个重要的研究领域。传统的语言模型主要基于n-gram模型或者递归神经网络（RNN），但这些模型在处理长文本时存在...【详细内容】

2024-01-04　　Search: 语言模型点击:(62)　　评论:(0)　　加入收藏

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

ChatGPT 的诞生，让基于 Transformer 的大型语言模型 (LLM) 为通用人工智能（AGI）铺开了一条革命性的道路，并在知识库、人机交互、机器人等多个领域得到应用。然而，目前存在一个普...【详细内容】

2024-01-03　　Search: 语言模型点击:(114)　　评论:(0)　　加入收藏

一文读懂大型语言模型LLM

在当今的技术世界中，人工智能正以前所未有的速度发展和演变。这一领域的快速发展得益于先进的机器学习算法、海量数据的可用性以及计算能力的显著提升。特别是，在自然语言处理...【详细内容】

2024-01-02　　Search: 语言模型点击:(81)　　评论:(0)　　加入收藏

大语言模型真的需要这么多层吗？

研究表明，移除70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。本文经授权转载宝玉老师的个人博客(微博@宝玉xp )，链接https://ba...【详细内容】

2023-12-19　　Search: 语言模型点击:(67)　　评论:(0)　　加入收藏

大语言模型量化方法对比：GPTQ、GGUF、AWQ

在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以防...【详细内容】

2023-11-17　　Search: 语言模型点击:(262)　　评论:(0)　　加入收藏

SEO中的大语言模型量化方法

随着互联网的快速发展，搜索引擎优化（SEO）已经成为了企业提升网站流量和排名的重要手段。在SEO的过程中，大语言模型量化方法被广泛应用，以帮助企业更好地理解搜索引擎的工作原理，并...【详细内容】

2023-11-16　　Search: 语言模型点击:(188)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

网易再牵暴雪的手，实际	注意！密码、验证码都没
将他人商标设为搜索关	打破刚兑：投资者还能相
拜登坐不住了？罕见对美	黄金狂飙如何影响人民
重新审视2008年全球金	京东掷10亿现金扶持达

站内最新

栏目相关

· 行业大模型快速落地的一年，如何做？

· 互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

站内热门