GPT-4 模型架构泄露：包含 1.8 万亿参数、采用混合专家模型

时间：2023-07-13 14:32:26 来源：IT之家作者：

IT之家 7 月 13 日消息，外媒 Semianalysis 近日对 AI target=_blank class=infotextkey>OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘，其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型（Mixture of Experts）等具体的参数和信息。

▲ 图源 Semianalysis

外媒表示，GPT-4 在 120 层中总共包含了 1.8 万亿参数，而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本，OpenAI 采用混合专家模型来进行构建。

IT之家注：混合专家模型（Mixture of Experts）是一种神经网络，该系统根据数据进行分离训练多个模型，在各模型输出后，系统将这些模型整合输出为一个单独的任务。

▲ 图源 Semianalysis

据悉，GPT-4 使用了 16 个混合专家模型 (mixture of experts)，每个有 1110 亿个参数，每次前向传递路由经过两个专家模型。

此外，它有 550 亿个共享注意力参数，使用了包含 13 万亿 tokens 的数据集训练，tokens 不是唯一的，根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k，32k 版本是对 8k 微调的结果，训练成本相当高，外媒表示，8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型，因此训练该模型需要导致极高的推理成本，以 H100 物理机每小时 1 美元计算，那么一次的训练成本就高达 6300 万美元（约 4.51 亿元人民币）。

对此，OpenAI 选择使用云端的 A100 GPU 训练模型，将最终训练成本降至 2150 万美元（约 1.54 亿元人民币）左右，用稍微更长的时间，降低了训练成本。

Tags：GPT-4 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　Search: GPT-4 点击:(6)　　评论:(0)　　加入收藏

微软AI程序员登场，10倍AI工程师真来了？996自主生成代码，性能超GPT-4 30%

新智元报道编辑：桃子润【新智元导读】全球首个AI程序员Devin诞生之后，让码农纷纷恐慌。没想到，微软同时也整出了一个AI程序员——AutoDev，能够自主生成、执行代码等...【详细内容】

2024-03-18　　Search: GPT-4 点击:(15)　　评论:(0)　　加入收藏

前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

3 月 9 日央视的一档节目上，百度创始人、董事长兼 CEO 李彦宏指出，以后不会存在「程序员」这种职业了，因为只要会说话，人人都会具备程序员的能力。「未来的编程语言只会剩下两种...【详细内容】

2024-03-11　　Search: GPT-4 点击:(9)　　评论:(0)　　加入收藏

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。2024 年，大模型领域要卷什么？如果没有思路的话，不妨看看各家大厂都在押注什么方向。最近一段时间，先是 OpenAI 推出 GPT-4V，让大模型...【详细内容】

2024-01-29　　Search: GPT-4 点击:(72)　　评论:(0)　　加入收藏

微软Copilot Pro来了：个人用户也能在Word里用GPT-4，20美元/月

面向个人用户的微软Copilot会员版来了。一个月多交20刀（约合人民币142元），Microsoft 365个人版/家庭版用户就能在Word、Excel、PPT等Office全家桶中用上GPT-4。就像这样，不用在C...【详细内容】

2024-01-16　　Search: GPT-4 点击:(89)　　评论:(0)　　加入收藏

“GPT-4变傻”不只是OpenAI的苦恼，所有大模型与人类交往越久就会越蠢？

　许多大模型在处理早期数据时展现出的优异表现，实际上是受到了‘任务污染’的影响，回答问题全靠记，而非纯粹基于学习理解能力。　　ChatGPT发布一年多，已经在全世界...【详细内容】

2024-01-05　　Search: GPT-4 点击:(48)　　评论:(0)　　加入收藏

GPT-4V开源平替！清华浙大领衔，LLaVA等开源视觉模型大爆发

新智元报道编辑：Aeneas【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。如今，GPT-4 Vision在语言...【详细内容】

2024-01-03　　Search: GPT-4 点击:(53)　　评论:(0)　　加入收藏

谷歌Gemini扳回一局！多模态能力和GPT-4V不分伯仲｜港中文128页全面测评报告

量子位 | 公众号 QbitAI谷歌扳回一局！在Gemini开放API不到一周的时间，港中文等机构就完成评测，联合发布了多达128页的报告，结果显示：在37个视觉理解任务上，Gemini-Pro表现出了和GP...【详细内容】

2023-12-22　　Search: GPT-4 点击:(118)　　评论:(0)　　加入收藏

GPT-4V 都搞不明白的未来推理有解法了！来自华科大 & 上科大

多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的 GPT-4V（如下图所示），也无法很好地解决...【详细内容】

2023-12-18　　Search: GPT-4 点击:(58)　　评论:(0)　　加入收藏

OpenAI 宣布修复GPT-4变懒问题，将在离线评估及AB测试后更新模型

IT之家 12 月 11 日消息，OpenAI 在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4 API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenA...【详细内容】

2023-12-12　　Search: GPT-4 点击:(50)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个