万万没想到，ChatGPT参数只有200亿？

时间：2023-10-30 15:09:14 来源：机器之心Pro 作者：

这合理吗？

谁都没有想到，ChatGPT 的核心秘密是由这种方式，被微软透露出来的。

昨天晚上，很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。

微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文，在做对比的时候透露出了重要信息：ChatGPT 是个「只有」20B（200 亿）参数的模型，这件事引起了广泛关注。

万万没想到，ChatGPT参数只有200亿？

距 ChatGPT 发布已经快一年了，但 OpenAI 一直未透露 ChatGPT 的技术细节。由于其强大的模型性能，人们对 ChatGPT 的参数量、训练数据等信息抱有诸多疑问和猜测。

作为行业一直以来的标杆，ChatGPT 性能强大，可以解决各种各样的问题。它的前身 GPT-3 参数量就达到了 1750 亿，实用化以后的大模型居然被 OpenAI 瘦身了快 9 倍，这合理吗？

「如何看待这篇论文」的话题立刻冲上了知乎热榜。

万万没想到，ChatGPT参数只有200亿？

论文链接：

https://arxiv.org/abs/2310.17680

具体来说，微软这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。CodeFusion 的参数量是 75M。在实验比较部分，论文的表 1 将 ChatGPT 的参数量明确标成了 20B。

众所周知，微软和 OpenAI 是合作已久的一对伙伴，并且这是一篇 EMNLP 2023 论文，因此大家推测这个数据很有可能是真实的。

然而，关于 ChatGPT 参数量的猜测，人们一直认为是一个庞大的数字，毕竟 GPT-3 的参数量就已经达到了 175B（1750 亿）。掀起大型语言模型（LLM）浪潮的 ChatGPT，难道就只有 20B 参数？

大家怎么看？

这个数据被扒出来之后，在知乎和 Twitter 已经引起了广泛讨论。毕竟，200 亿参数达到这样的效果十分惊人。再则，国内追赶出的大模型动则就是数百亿、上千亿。

那么这个数据保不保真？大家都有什么看法呢？

NLP 知名博主、新浪微博新技术研发负责人张俊林「盲猜」分析了一波，引起了大家广泛赞同：

不负责任猜测一波：GPT 4 是去年 8 月做好的，ChatGPT 估计是 OpenAI 应对 Anthropic 要推出的 Claude 专门做的，那时候 GPT 4 应该价值观还没对齐，OpenAI 不太敢放出来，所以临时做了 ChatGPT 来抢先发优势。OpenAI 在 2020 年推出 Scaling law 的文章，Deepmind 在 2022 年推出的改进版本 chinchilla law。OpenAI 做大模型肯定会遵循科学做法的，不会拍脑袋，那么就有两种可能：

可能性一：OpenAI 已经看到 Chinchilla 的论文，模型是按照龙猫法则做的，我们假设 ChatGPT 的训练数据量不低于 2.5T token 数量（为啥这样后面分析），那么按照龙猫法则倒推，一般训练数据量除以 20 就应该是最优参数量。于是我们可以推出：这种情况 ChatGPT 模型的大小约在 120B 左右。

可能性二：OpenAI 在做 ChatGPT 的时候还没看到 Chinchilla 的论文，于是仍然按照 OpenAI 自己推导的 Scaling law 来设计训练数据量和模型大小，推算起来训练数据量除以 12.5 左右对应模型最优参数，他们自己的 Scaling law 更倾向把模型推大。假设训练数据量是 2.5T 左右，那么这种情况 ChatGPT 的模型大小应该在 190 到 200B 左右。

大概率第一个版本 ChatGPT 推出的时候在 200B 左右，所以刚出来的时候大家还是觉得速度慢，价格也高。3 月份 OpenAI 做过一次大升级，价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的，目前的结论是大模型量化压缩到 4 到 6bit 模型效果是能保持住不怎么下降的。

所以很可能 OpenAI 这次升级从自己的 Scaling law 升级到了 Chinchilla 的 Scaling law，这样模型大小就压缩了 120B 左右，接近一半（也有可能远小于 120B，如果按照 chinchilla law，llama 2 最大的模型应该是 100B 左右，此时算力分配最优，也就是说成本收益最合算。但是实际最大的 llama2 模型才 70B，而且更小的模型比如 7B 模型也用超大数据集。

llama1 65B 基本是符合 chinchilla law 的，llama2 最大模型已经打破 chinchilla law 开始怼数据了。就是说目前大家做大模型的趋势是尽管不是算力分配最优，但是都倾向于增加数据减小模型规模，这样尽管训练成本不合算，但是推理合算，而训练毕竟是一次性的，推理则并发高次数多，所以这么配置很明显总体是更合算的），再加上比如 4bit 量化，这样推理模型的大小可以压缩 4 倍，速度大约可提升 8 倍左右，如果是采取继续增加训练数据减小模型规模，再加上其它技术优化是完全有可能把推理价格打到十分之一的。

后续在 6 月份和 8 月份各自又价格下调了 25%，最终可能通过反复加数据减小规模逐渐把模型压缩到 20B 左右。

这里解释下为何 ChatGPT 的训练数据量不太可能比 2.5T 低，LLaMA 2 的训练数据量是 2T，效果应该稍弱于 ChatGPT，所以这里假设最少 2.5T 的训练数据。目前研究结论是当模型规模固定住，只要持续增加训练数据量，模型效果就会直接增长，mistral 7B 效果炸裂，归根结底是训练数据量达到了 8 个 T，所以导致基础模型效果特别强。以 ChatGPT 的效果来说，它使用的数据量不太可能低于 2.5T。

当然，还有另外一种可能，就是 ChatGPT 在后期优化（比如第一次大升级或者后续的升级中，开始版本不太可能走的这条路）的时候也不管 scaling law 了，走的是类似 mistral 的路线，就是模型大小固定在 20B，疯狂增加训练数据，如果又构造出合适的 instruct 数据，效果也可能有保障。

不论怎么讲，对于 6B 到 13B 左右比较适合应用落地的模型，强烈呼吁中文开源模型模仿 mistral，固定住一个最适合使用的模型大小，然后疯狂增加训练数据，再加上好的 instruct 策略，是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说，7B-13B 左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力，把训练数据往上再努力怼一怼。

早在 OpenAI 开放 ChatGPT API 时，0.002 美元 / 1k token 的定价就令人们意外，这个价格只有 GPT-3.5 的 1/10。彼时就有人推测：「ChatGPT 是百亿（~10B）参数的模型」，并且「ChatGPT 使用的奖励模型（reward model）可能是千亿级模型」。该推测来源于清华大学 NLP 在读博士郑楚杰的知乎回答。

万万没想到，ChatGPT参数只有200亿？

原回答链接：

https://www.zhihu.com/question/587083296/answer/2918080518

而国内外许多网友也都认为，200 亿的参数，是完全合理的。

万万没想到，ChatGPT参数只有200亿？

也有知乎网友从价格上分析，这个数据也应该是对的。

万万没想到，ChatGPT参数只有200亿？

当然，也有网友认为这可能是个「拼写错误」，或许实际是 120B（1200 亿），至少 120B 和 GPT-3（175B）是一个数量级。

万万没想到，ChatGPT参数只有200亿？

但所有这些都是猜测，由于 OpenAI 对参数量、训练数据、方法等核心信息一直讳莫如深，因此 20B 这个数据到底是不是真的根本无法求证。如果是真的，那么大型语言模型未来的改进方向还会是增加参数量吗？

再过几天，就是 OpenAI 的开发者大会了，也许我们能够了解到更多有用的信息，让我们拭目以待吧。

万万没想到，ChatGPT参数只有200亿？

参考内容：

https://www.zhihu.com/question/628395521

https://twitter.com/felix_red_panda/status/1718916631512949248

Tags：ChatGPT 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(8)　　评论:(0)　　加入收藏

无需注册！OpenAI宣布放开ChatGPT使用限制

工智能初创公司OpenAI宣布，即日起用户无须注册即可开始使用ChatGPT的功能。OpenAI在最新公告中写道：“让ChatGPT等工具广泛可用，让人们能够体验到人工智能的好处，这是我们使命的...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(6)　　评论:(0)　　加入收藏

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 C...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(3)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　Search: ChatGPT 点击:(7)　　评论:(0)　　加入收藏

ChatGPT之父Altman两小时对谈，首聊GPT-5何时发布、llya去哪里了、Q*究竟是什么

Altman做客油管博主Lex Fridman科技博客，被追问了一个又一个辛辣的问题。长达两个小时的对谈，奥特曼从OpenAI宫斗、马斯克诉讼、Sora，一直聊到AGI与外星文明！本文重点梳理了长...【详细内容】

2024-03-20　　Search: ChatGPT 点击:(8)　　评论:(0)　　加入收藏

ChatGPT主管最新访谈：未来AI和人类如何共处？

Peter Deng在最新访谈中表示：AI不会取代生产力，人类和AI只有合作才能释放真正潜力，ChatGPT比已知的更强大、最大的挑战在于理解用户需求。当地时间3月13日，OpenAI 消费产品副总...【详细内容】

2024-03-19　　Search: ChatGPT 点击:(11)　　评论:(0)　　加入收藏

ChatGPT日耗电超50万度，大模型或带来“电荒”

未来两年内将由“缺硅”变为“缺电”，马斯克的预言可能正在变成现实。据《纽约客》杂志报道，OpenAI的热门聊天机器人ChatGPT每天可能要消耗超过50万千瓦时的电力，以响应用户的...【详细内容】

2024-03-11　　Search: ChatGPT 点击:(31)　　评论:(0)　　加入收藏

OpenAI新功能：ChatGPT可调用自定义机器人，对话更高效！

近日，知名科技公司OpenAI推出了一项新的功能——“对话中调用（@）自定义聊天机器人”，让用户在对话中无缝切换不同领域的机器人。这一功能的出现，为用户带来了极大的便...【详细内容】

2024-02-02　　Search: ChatGPT 点击:(53)　　评论:(0)　　加入收藏

ChatGPT元年之后，AI重塑世界，人类如何与其“智慧共生”？

过去一年，人工智能（AI）凭借大语言模型的爆火迅速进入大众视野。它比以往任何时候都更强大，也更具亲和力。这不仅给未来生活带来了新希望，也在人们心中蒙上了一层担忧—&mdas...【详细内容】

2024-01-26　　Search: ChatGPT 点击:(77)　　评论:(0)　　加入收藏

年度最热AI应用TOP 50，除了ChatGPT还有这么多宝藏

量子位 | 公众号 QbitAI百模齐发、AI工具乱杀的一年里，谁是真正赢家？ChatGPT访问量遥遥领先位居第一，但单次使用时长没超过平均线。Midjourney访问量年度第四，但下滑量位居第二...【详细内容】

2024-01-02　　Search: ChatGPT 点击:(51)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

耶伦记者会：访华取得三	tiktok优质视频判断标
外媒：超过马斯克！扎克伯	德国总理朔尔茨加入Ti
访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶