您当前的位置：首页 > 电脑百科 > 人工智能

大模型训练有多卷？揭开大模型算力之谜

时间：2023-10-16 14:24:59 来源：作者：钛媒体APP

+ 加入收藏

大模型训练有多卷？揭开大模型算力之谜

图片来源@GPT生成

使用全球40年的天气数据，用200张GPU卡进行预训练，2个月左右的时间，训练出了参数量达亿级的盘古气象大模型。

这是清华大学毕业3年的毕恺峰训练大模型的故事。

不过，从成本上看，按照正常情况下，一张GPU 7.8元/小时计算，毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型，如果训练的是通用大模型，成本可能要翻百倍。

有数据统计，中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企，缺算力、缺资金也成为了摆在行业面前最直观的问题。

高端GPU，有多缺？

“缺，当然缺，但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。

这似乎已经成了行业公认的一道无解题，顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币，单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此，高昂的价格依然可能拿不到芯片，一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。

一位云计算行业高管周立军也谈及类似的感受：“算力短缺的情况确实存在。我们有很多客户都想要高端GPU资源，但能提供的也暂时无法完全满足广泛的市场需求。”

某云服务商搭载A100的高性能计算集群售罄界面

事实证明，高端GPU的短缺短期内在全行业都无解。大模型爆发，市场对算力的需求快速增长，但供给量增速远远没有跟上。虽然算力供给长远来看一定会从卖方市场进入买方市场，但这个时间究竟要多久，也是个未知。

各家都在盘算着自己手里有多少“货”（英伟达GPU），甚至用这个来判断市场份额。比如手里如果接近1万张卡，‌‌市场总共是10万张卡，那份额就是10%。‌‌“到年底保有量大概到4万，‌‌‌‌如果市场是20万的，‌‌那可能占20%的市场。”知情人士举例表示。

一边是买不到卡，一边是大模型训练门槛并没有业界烘托的那么容易“入门”。上述提到，毕恺峰盘古气象大模型的训练成本可能超出200万。但需要注意的是，毕恺峰盘古气象大模型是在盘古通用大模型的基础上训练出得垂直大模型，它的参数为亿级。如果要训练一款十亿规模参数或者更大规模的通用大模型，那么成本可能要十倍、百倍往上加。

“目前投资规模最大的是在训练，没有几十亿的资本投入，很难下场去持续做大模型。”腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏透露。

“跑得要快，至少在钱烧完之前能有成果拿到下一轮‘融资’。”一位创业者描述当下大模型“战况”，“‌‌这条路是条‌‌绝路。‌‌如果你没有百亿千亿‌‌资金在后边撑着，‌‌很难走得通。”

这一局面下，业内的共同观点是，随着大模型市场的角逐厮杀，市场也会从狂热到理性，企业也会随着预期的变化来控制成本、调整策略。

无解下的积极应对

没条件，创造条件也要上——这似乎是大模型参与者中的多数心态。而如何创造条件，应对真实存在的问题，各家也是方法颇多。

由于高端GPU芯片短缺，且中国市场能用的GPU不是最新代次，性能通常更低一些，所以企业需要更长的时间来训练大模型。这些公司也在寻找一些创新性的办法来弥补算力短板。

其中一种方法是，使用更高质量的数据去做训练，从而提升训练效率。近期，信通院牵头发布了《行业大模型标准体系及能力架构研究报告》，其中就提到了大模型数据层的评估。报告建议，在数据质量方面，由于其对模型的效果影响会很大，推荐引入人工的标注和确认，至少从原始数据中挑选一定比例进行标注，从而构建并严重高质量的数据集。

除了通过高质量数据减少大模型成本，对于业界来说，提升基础架构能力，实现千卡以上稳定运行两周不掉卡，是技术难点也是构建可靠基础架构、优化大模型训练的方法之一。

“作为云服务商，我们会帮助客户建立起稳定可靠的基础架构。因为GPU服务器卡的稳定性会差一些，任何故障都会让训练中断，导致整体的训练时长增加。高性能计算集群，可以给到客户更稳定的服务，也能相对减少训练时长、解决一些算力问题。”周立军说。

同时，算力卡资源调度也考验服务商的技术能力。火山引擎华东互联网解决方案负责人徐巍告诉钛媒体，拥有算力卡资源只是一方面，如何将卡资源调度起来，真正投入使用，是更具考验的核心能力、工程能力。“把一个卡拆成很多小卡，尽量能做到分布式的精细化的调度，可以更近一步降低算力成本。”徐巍说道。

网络也影响大模型训练速度和效率。大模型训练动辄千卡，连接几百台GPU服务器所要求的网络速度极高，如果网络有点拥塞，训练速度就会很慢，效率很受影响。“只要一台服务器过热宕机，整个集群都可能要停下来，训练任务要重启。这对云服务运维能力与排查问题能力的要求非常高。”邱跃鹏说。

也有厂商另辟蹊径，从云计算架构过渡到超算架构也成为减少成本的一种方法，即在都能满足用户需求的情况、非量计算的任务及并行任务场景下，超算云大概是云超算一半左右的价格，然后再通过性能优化资源利用率可以从30%提高到60%。

另外，也有厂商选择使用国产平台做大模型的训练和推理以替代一卡难求的。“我们跟华为联合发布了讯飞星火一体机，能够在国产平台上自己做训练做推理，这是非常了不起的。我特别高兴地告诉大家，华为的GPU能力现在已经跟一样，任正非高度重视，华为的三位董事到专班工作，现在已经把它做到了能对标的A100。”创始人、董事长刘庆峰曾表示。

上述方法，每一种都是一个相对大的工程，所以，一般企业是很难通过自建的数据中心来满足，很多算法团队都选择最专业的算力厂商来支持。这其中并行存储也是很大的一种成本，以及技术能力，对应的故障率的保障等等也属于硬件成本的一部分。当然甚至要考虑，IDC可用区电的成本，软件、平台、人员成本等运营成本等等。

千卡级别的GPU集群才会有规模化效应，选择算力服务商，等于说边际成本为零。中国工程院院士,中国科学院计算技术研究所研究员孙凝晖也曾在演讲中提出，AIGC 带来人工智能产业的爆发，而智能技术的规模化应用具有典型长尾问题，即具备强 AI 能力的强势部门（网安、九院九所和气象局等）、科研院校与大中企业只占据算力需求主体的大约 20%，另外 80% 则均为中小微企业，这类主体受限于公司规模与预算，往往难以接入算力资源、或受限于算力的高昂价格，从而难以在AI时代浪潮中获得发展红利。因此，要实现智能技术的规模化应用，让人工智能产业既“叫好”也“叫座”，需要大量便宜、易用的智能算力，让中小微企业也能方便、便宜地使用算力。

而无论是大模型对算力的急切的需求，还是算力在应用过程中需要解决的各种难题，这其中都需要注意的一个新变化是，算力已经在市场需求和技术迭代的过程中，成为了一种新的服务模式。

探索算力服务新模式

我们在抢的大模型算力是什么算力？解答这个问题，需要先从算力服务说起。

从种类来讲，算力分为通用算力、智能算力和超算算力，而这些算力成为一种服务，是市场与技术双重驱动的结果。

《2023算力服务白皮书》（以下简称“白皮书”）对算力服务的定义是，算力服务以多样性算力为基础，以算力网络为链接，以供给有效的算力为目标的算力产业新领域。

算力服务的本质，是通过全新计算技术实现异构算力统一输出，并与云、大数据、AI等技术交叉融合。算力服务中不仅只有算力，它是算力、存储、网络等资源的统一封装，以服务形式（如API）完成算力交付。

了解这一点就会发现，在抢芯片的，其实是很大一部分是算力服务提供方，即算力生产者。真正在前端调用算力API的行业使用者，只需要提出对应的算力需求。

据钛媒体App了解，从软件方角度，所有的软件交互产生的大模型使用分为三种，第一种大模型API调用，每家都有报价，按价结算；第二个是自有小模型，自己购买算力，甚至是自己部署；第三种，大模型厂商和云厂商合作，也就是专署云，按月支付。“一般就是这三种，当前主要采用API调用，内部小模型自己做了算力调度平台。”副总裁姚冬对钛媒体App说。

大模型训练有多卷？揭开大模型算力之谜

算力产业链结构图，来源：中国信通院

也就是说，在算力结构产业链中，上游企业主要完成实现对通用算力、智算算力、超算算力、存储和网络等算力服务的支撑资源的供给。例如在大模型算力争夺战中，英伟达就属于上游算力基础资源供应方向行业供应芯片，而这其中浪潮信息等服务器厂商股票应声上涨也是受到了市场需求的影响。

中游企业则以云服务商、新型算力服务提供商为主，他们的角色主要通过对算力的编排、算力调度、算力交易技术实现算力生产，并通过API等方式完成算力供给。上述提到的算力服务商、腾讯云、火山引擎都处于这一环节。而算力服务中游企业的服务化能力越强，对应用方的门槛越低，越有助于算力的普惠、泛在化发展。

下游企业，则是依靠算力服务提供的计算能力进行增值服务生成制造的产业链角色，如行业用户等。这部分用户只需要提出需求，算力生产者则根据需求去配置对应的算力完成用户下达的“算力任务”。

这相比原来自己购买服务器搭建大模型算力环境，都更有成本和技术优势。毕恺峰训练盘古气象大模型，应该是直接调用了盘古大模型的底层即华为云的高性能计算服务，那么其他大模型企业的使用算力或者说为算力付费的过程会有什么不一样吗？

算力商业模式迭代

ChatGLM是最早一批推出的通用大模型，以智谱AI的ChatGLM算力使用为例，据已经公开披露的消息，智谱AI使用了国内多家主流AI算力服务商。“理论上应该所有的都有用了。”知情人士表示，这其中可能还包括了国内主流的算力服务商/云服务商。

按量计费和包年包月计费是当前算力服务的主流模式，使用需求大致有两种，一种是选择对应的算力服务实例，在某云服务商的官网界面，可提供搭载英伟达A800、A100、V100三种主流显卡的高性能GPU服务器。

大模型训练有多卷？揭开大模型算力之谜

某算力服务商提供的高性能计算GPU显卡类型

另一种是选择对应的MaaS服务平台，在MaaS平台中对大模型进行行业性的精调。以腾讯云TI-ONE平台按量计费刊例价为例，8C40G V100*1的配置，20.32元/小时，可用于自动学习-视觉、任务式建模、Notebook、可视化建模。

当前行业也在推进算力服务的“算网一体化融合”，通过对计算任务、算网资源状态等信息的综合判断，形成可支持跨架构、跨地域、跨服务商调度的算网编排方案，并完成相关资源部署。例如，只要存一笔钱，存到算力网络里来，算力网络中的分区可以随意调用。‌根据应用特点，选择最适合的分区、最快的分区、‌‌最具性价比的分区，然后根据时长计费，从预存的资金中把费用扣除。

云服务商也是如此，算力服务作为云服务一项独特的产品，使他们迅速参与到算力产业链中来。

工业和信息化部数据显示，2022年中国算力总规模达到180EFLOPS,位列全球第二。截至2022年，中国算力产业规模已经达到1.8万亿。大模型算力很大程度上加速了算力产业的发展。

一种说法是，当下的算力服务，实际上是一种新型的“卖电”模式。只不过根据分工的不同，一部分算力服务商可能需要帮助用户做更多系统性能调试、软件安装、大规模作业运行值守和运行特征分析，即一部分的最后一公里运维工作。

随着大模型高性能计算需求的常态化，脱胎于云服务的算力服务，俨然快速进入大众视野，形成了独特的产业链和商业模式。只不过在算力产业因大模型而爆发的伊始，高端GPU短缺、算力成本高企、抢“芯”形成了属于这个时代的独特风景。

“‌现阶段卷的是供应链中谁能拿到卡，英伟达是目前整个行业的王者，所有的市场都被它控制，这是现状。”知情人士评论。目前境况仿佛是，在供不应求的情况下，谁能拿到卡，谁就可以去交付业务。

但并不是所有人都在抢“卡”，因为短缺是暂时的，问题总会解决。“做长期研究的人其实不抢，‌‌正常等着就行了，因为他不会死。‌‌现在正儿八经抢卡的只有一批创业公司，他们要保证自己可以活到明年。”上述人士称。

在诸多不确定性中，算力成为一种服务是确定性趋势，算力服务商要做的是随时准备，在大模型回归理性、市场风向快速转变的时候，能未雨绸缪。（注：应受访对象要求，周立军为化名）

（本文首发钛媒体APP 作者 |秦聪慧）‌

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-08　　Search: 大模型点击:(4)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

网约车抽成“套路”多	A股分拆上市密集改道：
探访“中国黄金第一家	藏在AI背后的“吃电狂
看1280份年报：大消费复	美联储年内可能不降息
热门黄金ETF瞬间跌停！	亏本卖！李嘉诚这又在唱