引言
又几个月过去了,大模型(LLM)行业有什么新进展、新趋势?
(0)总结——太长不看
关键结论:
开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down
GPT-4模型信息:采用MoE架构,16个experts,800b参数
如何减少幻觉 hallucination?scaling/retrieval/reward model
指令遵循的开源小模型被过度炒作,已经到达瓶颈,突破方向是更强的 Base Model 和更进一步的反馈数据
用不了多久,大家会把80%算力从 TrAIning 转向 Serving
预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本,中间有无数次小版本迭代;
中期来看,RLHF 不应该是 Alignment 的唯一手段, Direct Preference Optimization 和 Stable Alignment 是新路径
长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding
LLM 的 Context Window 就像电脑内存,向量数据库是 LLM 的硬盘
Robot Learning 已成为学界主流研究路线
(1)上一期报告回顾
3个月前,文章(The Age of AI:拾象大模型及OpenAI投资思考)介绍了拾象投研机构对LLM的调研报告,内容涉及:
① 什么是大模型?LLM是新一代通用计算机,windows 95 级别的计算机平台;
② 从基础模型到 Killer Apps,价值链如何被分配?OpenAI、Anthropic 为代表的基础模型能力边界不断拓宽,占据价值链中最主要的环节;
③ 什么是 AI Native 应用?AI Native 应用不是语言模型的嵌套,而是对现有软件服务的重构;
④ LLM 浪潮下,科技巨头们是如何和 LLM 做结合的?顶级CEO 们对于 LLM 尚未形成共识,未来 6 个月是重要的窗口期;
⑤ OpenAI 为什么能够成为 LLM 最强王者?OpenAI 组织活力来自自上而下对 AGI 的坚定信仰、极高的人才密度,以及自下而上推动创新的实验机制。
具体来说,对于LLM的几个关键判断:
① LLM是计算机,而OpenAI的GPT系列将成为Windows 95级别的计算机平台
② LLM基础模型拿走价值链的大头(60%),其次是AI Infra基础架构、Killer Apps,各占20%。所以,大家纷纷发力训练大模型。
③ 从Mobile到LLM:大模型真正理解语言,数据组织效率和能力继续加强。人机交互方式开始迈入新时代(CUI对话交互)
④ LLM的边界:目前只是空有大脑,身体和感官还在逐步成长。
⑤ 下一步:给大脑装上感官(多模态)以及手脚(插件/AutoGPT之类)
另外,LLM之上的应用会是什么样?全方位的重构:交互、数据信息、服务以及反馈机制,一个可行的路子是AI Native软件开发——把已有应用按照LLM的能力图谱重新设计一遍,对话式交互(CUI)走到前台。
相对于应用层,未来3-5年,AI-Infra的确定性机会更多,体现在模型层和工具层的各类应用。
(2)最新报告:State of LLM
6月29日,时隔3个月,拾象投研团队再次发布LLM调研报告:State of LLM
精简总结如下(原始报告获取方式见尾部附录)
继续看好LLM,如火如荼、大动干戈的“千模大赛”到底在争什么?下一代超级入口!
目前,OpenAI、Anthropic和google处于第一梯队。
报告甚至将LLM训练复杂度比作“造原子弹”,每次发布堪称“登月”,有些夸张,但LLM训练确实不容易。
过去的几个月时间,已经很多家公司发布自己的大模型,各有特色,灿若繁星:
开源系列羊驼大家族最为耀眼,英文名已经“售罄”。
更多介绍见前文:ChatGPT复现: 三步走+大模型进化图谱
其中不少LLM宣称达到或趋近ChatGPT/GPT-4的80-90%,大家也都体验过,可圈可点
上次的有偏评测(约120道题)中,初步探了探底:
详见文章:千模大赛哪家强?大语言模型中文评测实践。
报告里关于LLM训练的事实和观点:
预训练:GPT系列的成功主要源自于小创新,训练数据远超过其他大模型。
微调:GPT并非采用预训练一体的模型结构。
奖励模型:OpenAI 数据飞轮效应有限,外部数据标注分散给多家公司。
至于稳坐神坛的GPT-4,这次报告明确指出:GPT-4采用MoE架构,16个experts,800b参数,“吃掉”30T数据,训练消耗5万张A100,推理用了3-4万A100。而这只是开始,下一代模型重点是多模态,消耗的资源将更大更多,10万张H100!
至于业界普遍看好的开源模型,这次报告波了盆冷水:开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down
同时,报告还指出:指令遵循的开源小模型被过度炒作,已经到达瓶颈,突破方向是更强的Base Model 和更进一步的反馈数据。
LLaMA+指令微调≠GPT 3.5
怎么办?开源社区开始“分工协作”,转向 pre-train环节。
至于,盛传的“开源大模型才是未来的赢家”,大家态度截然相反,客户坚信,而研究者悲观,算力、数据、时间差以及全栈产品链,不是一般开源组织玩得起的。
千模大赛还在继续,热潮还会持续多久?过于关注训练会不会浪费资源?
跟风而上的浪潮终究会退下,到时候,少数人成为弄潮儿,而多数人被淹死,成为他人谈资。
大模型训练尘埃落定后,新的浪潮是什么?大模型应用,其中 Serving 是个难题。
报告里分析了什么时候80%算力从 Training 转向 Serving?要看用户群体,B/C/G 时间点各不相同。
B/G:私有化部署和小语种模型
C:终端推理解决隐私问题
产品上,目前主要简单辅助,多模态、复杂推理问题解决后,才会带来质的飞跃。
成熟期时间轴上的刻度依次是 长程窗口、多模态、小模型天花板、模型压缩等,B/C/G侧应用随之逐步展开,Serving时刻到来。
预计未来模型的迭代节奏会很像手机系统:1-2 年更新一次大版本,中间有无数次小版本迭代;
中期来看,RLHF 不应该是 Alignment 的唯一手段, Direct Preference Optimization 和 Stable Alignment 是新路径
长期来看,小版本迭代的角度:隐私/权限的增强、更多的图片/文件/声音格式的 Embedding
LLM 的 Context Window 就像电脑内存,向量数据库是 LLM 的硬盘;因而,向量数据库成为LLM领域应用的必备工具,大量vector store厂商成为投资热门。
LLM应用新趋势:LLM扮演system 1,负责快思考,而LLM的Agent助手扮演system 2,负责慢思考(理性推导)
报告还提到了经典的幻觉问题:
幻觉原因:模型学习了错误信息,模型只善于模仿语言风格,而不能良好地判断正确的信息
如何减少幻觉(hallucination)?
方法有:scaling/retrieval/reward model
① scaling:大模型小型化,降低幻觉频率
② retrieval:通过检索融入事实信息,纠正幻觉
③ reward model:用奖励模型来鉴别幻觉
有了大模型的加持,学术界已经把Robot Learning 做为主流研究路线
LLM+Robotics=?
软件上,机器人大脑大幅升级;
硬件上,人形机器人热度再起。