“百模大战”打响，我们究竟需要什么样的大模型

时间：2023-09-28 09:29:08 来源：科技日报作者：

【深瞳工作室出品】

采写：本报记者都芃刘艳

策划：刘莉李坤

大模型展现出的通用智能能力具有重要的现实意义和影响力，是人工智能发展中里程碑式的进展。大模型带来的智能革命，将媲美工业革命和电力革命，深刻改变人类社会的生产生活方式。大模型，或许正是开启智能时代的那一台“蒸汽机”。

要问今年最热的科技热点是什么，许多人会脱口而出——大模型。从年初ChatGPT引发的大模型浪潮，到相关科技企业上线自家大模型产品，“百模大战”不断升级，它所引发的人工智能“地震”还在持续。

进入9月，国内科技厂商在大模型领域动作频频。9月初，此前一直处于内测阶段的多款大模型产品完成备案，正式上线，面向公众开放。9月21日，在华为全联接大会2023上，因在众多领域展示了大模型发展的更多可能，盘古大模型成为当之无愧的主角。

“百模大战”也好，“群模起舞”也罢，技术进步和创新喷涌的热潮中，人们关注的焦点集中于，我们究竟需要什么样的大模型？何种大模型是通向人工智能的最终答案？

智能时代的“蒸汽机”

现在到底有多少个大模型产品？似乎没有人能给出准确的答案。

赛迪顾问发布的《2023大模型现状调查报告》显示，截至2023年7月底，国外累计发布大模型138个，中国则累计有130个大模型问世。

但这股浪潮的源头很清楚，正是ChatGPT。

2022年末，由名不见经传的人工智能公司Open AI打造的大语言模型ChatGPT横空出世，人们可以使用最日常的语言与其对话，让它回答各种问题、完成各类书面任务，聊天、画图、敲代码……人们第一次如此近距离地感受到人工智能带来的震撼，也让“大模型”这个此前只为少数人工智能领域从业者所知的专业概念，成为了被人们挂在嘴边、反复提及的词汇。

输入内容、进行计算、产出结果，这是人工智能模型的本质，但大模型的与众不同之处正在于其足够“大”。

巨大的参数数量、庞大复杂的算法结构、海量的训练数据以及强大的算力支撑，决定了大模型不同于普通的人工智能模型，其拥有强大的通用智能。

以ChatGPT为例，其早期3.0版本的参数数量已达到1750亿个，4.0版本的参数量更是指数级增加，达到1.8万亿个，训练数据的单位数量更是达到惊人的13万亿。相比之下，早期如围棋机器人AlphaGo等专用人工智能模型，其参数量往往仅为百万级，与大模型相去甚远。

海量的参数、复杂的算法、强大的训练能力，让大模型成为具备横跨多领域学习能力的通用人工智能，实现了所谓的“智能涌现”，即拥有触类旁通、举一反三的学习能力。如果说此前的人工智能模型还只是经过训练后可以完成某些特殊任务的“马戏团猴子”，那大模型则可以说已经是一个接受完义务教育的“中学毕业生”。

在北京智源人工智能研究院院长、北京大学计算机学院教授黄铁军看来，大模型展现出的通用智能能力具有重要的现实意义和影响力，是人工智能发展中里程碑式的进展，放眼人类历史、展望人类未来，大模型带来的智能革命，将媲美工业革命和电力革命，深刻改变人类社会的生产生活方式。大模型，或许正是开启智能时代的那一台“蒸汽机”。

哪条赛道通“罗马”

ChatGPT引发的大模型热潮让许多科技巨头坐不住了，纷纷将自家“压箱底”的大模型成果公之于众。

谷歌紧随ChatGPT脚步，发布了基于自家大语言模型的聊天机器人“Bard”，互动媒体与服务公司Meta也不甘落后，发布了同类大模型“Llama”。国内同样热闹非凡，3月份，百度率先发布研发十余年的知识增强大语言模型“文心一言”。随后，360发布“360智脑”，阿里巴巴上线“通义千问”，科大讯飞推出“讯飞星火”，腾讯推出“混元”，华为推出“盘古”……一众科技公司不甘落后地推出了各自的大模型产品。

彼时，面向公众发布的大模型产品均为内测使用，公众需提出申请，获得内测资格后才能进行体验。7月10日，国家网信办联合国家发改委、教育部、科技部等七部门审议通过并发布《生成式人工智能服务管理暂行办法》(以下简称《办法》)，该《办法》8月15日起正式施行。《办法》明确规定，提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并履行算法备案等手续。8月底，一批完成算法备案的大模型产品陆续上线，正式面向公众开放。

或许是ChatGPT带来的震撼过于强烈，以自然语言对话为主要功能体验的大语言模型产品成为许多科技厂商的首选，甚至一度成为大模型的代名词。首批通过备案上线的大模型产品中有百度的“文心一言”、字节跳动的“豆包”、智谱华章的“智谱清言”等。截至9月底，已有十余家大语言模型产品官宣上线，大部分均提供聊天对话、创意写作、代码生成等服务。

但在大语言模型之外，也有厂商选择了另一条道路，不“恋战”大语言模型，而是直面行业具体问题。

在9月21日举办的华为全联接大会2023上，华为常务董事、华为云CEO张平安表示，盘古大模型要帮助各行各业的客户解最难的题。例如，在矿山领域，精煤产率是困扰业界多年的难题，山东能源集团已将“盘古”矿山大模型全面应用到采、掘、机、运、通等9大业务系统、21个场景中。在“盘古”的助力下，济宁二号煤矿每年能多产出8000吨精煤，精煤产率提升千分之二，增收约2000万元。

在正在举办的亚运会上，也少不了大模型的身影。由浙江移动打造的亚运保障网络运维大模型在幕后为亚运会保驾护航。它让保障人员“无论在哪，无论何时”都能以“对话”方式获取保障情况，全面提升了亚运会保障的工作效率，降低了保障工作的技术门槛。

浙江移动网管中心副总经理方炜告诉科技日报记者，无论是面向具体行业的垂直大模型，还是直面公众的大语言模型，从底层技术来看，二者并不冲突。“这两种选择就像是此前的互联网发展，既有改变人们生活的移动互联网，也有改变社会、改变行业的产业互联网。大模型也是基于通用的底层技术，衍生出了不同用途。比如浙江移动的网络运维大模型就是使用通用大模型通过微调和提示工程来满足亚运网络保障的场景。”

垂直大模型和通用大模型，究竟哪条赛道能够通向终极人工智能的“罗马城”，答案或许是——条条大路通罗马。

“万模群舞”或在不远的将来

无论是何种类型的大模型，在“百模大战”的背景下，其功能、用途、场景的重复都无法避免。但在业内人士看来，大模型的发展还远未触及天花板，不仅“百模大战”不是终点，“万模群舞”或许就在不远的将来。

“大模型的研发是一个拼细节的过程。从技术路线上看，目前各家基本上都是基于Transformer架构来做，方法很类似，但效果确实不一样，决定成败的是细节。”腾讯有关负责人接受采访时说，由于资源投入程度、细节把握程度的不同，最后不同产品的差异会逐渐显现。“从应用领域来说，会迎来一个‘百花齐放’的场景，比如有的专注于自然语言处理，有的专注于医疗领域，有的专注于教育领域等。就目前而言，大模型的天花板还远远没有触到，技术体系和应用场景都在不断演进。”腾讯有关负责人说。

无论是“百模大战”还是“万模群舞”，要避免低水平的雷同复制，杜绝“重复造轮子”带来的资源浪费，关键仍在于不断丰富大模型的应用生态。今年5月，国际期刊《自然》发表了一项百度在生物计算领域的突破性研究成果，其提出的mRNA序列优化算法LinearDesign，对生物医学领域创新具有重要价值，这也是中国互联网科技企业首次以第一完成单位的身份在《自然》正刊发表成果。而在这背后，是百度在2022年5月便推出的“文心”生物计算大模型。借助大模型，人类能够快速找到并设计出活性更好、性质更优的候选药物分子，从而大幅提升新药研发和疫苗设计效率，让新药研发从单点突破的“手工作坊”阶段进入到规模开发阶段。目前，基于“文心”生物计算大模型和飞桨深度学习框架搭建的面向小分子、大分子和RNA的药物设计平台——飞桨螺旋桨PaddleHelix，已经应用于超过30家医药企业。

“无论是从技术层面还是产品层面，百花齐放、百家争鸣对于当下大模型发展都更加有利。算法研究阶段可能五花八门，但到工程选型阶段，可能会逐渐聚焦到一个或少数几个类型。而到了具体产品选型层面，面向不同市场、不同行业，产品形态可能又是多种多样的。”清华大学计算机系教授唐杰认为，无论哪种大模型都有各自的局限性，各种模型互相学习、竞争，在市场中大浪淘沙是必经之路。

给大模型发展更多耐心

“百模大战”虽然激发出了更多可能，但也带来了不少负面影响。当众多厂商蜂拥而上大模型时，参差不齐的产品让人眼花缭乱，其中暗藏的法律、道德风险也应引起人们的警惕。

例如，在面向公众的大语言模型产品中，“一本正经胡说八道”现象已经多次引发质疑。“我们常说大模型会产生‘幻觉’，就是因为大模型的内容准确性还不高、专业性能力不足，如果大模型产生的内容直接公开在互联网，会使当前良莠不齐的互联网信息质量更加低下。”方炜认为，大模型目前在内容安全、版权、主体责任等方面还存在多种风险。

而当深入到具体行业时，不同行业的不同特点也对大模型在准确度、安全性、专业性等方面提出更高要求。360创始人周鸿祎接受采访时表示，虽然公开的大模型是通用的，甚至是万能的，但是当深入到具体行业时仍然面临着缺乏行业深度、不懂企业内部知识、易导致企业内部数据泄露、无法控制成本等问题。方炜也同意这种说法：“例如大模型应用在通信网络保障方面时，就不允许有任何差错，目前准确性还有待提升。”

除了目前大模型自身仍然存在的缺陷，随着竞争的逐渐激烈，我国在相关数据、算力、算法等方面的困境也逐渐暴露。

例如，在训练数据方面，唐杰指出，目前我国的数据开放态势并不强，“大多数机构还是想把数据握在自己手里”。但唐杰也坦承，即使机构有数据开源的意愿，在目前环境下，仍然存在多重风险。他建议，我国关于大模型训练数据应用、开源的相关法律法规还需要进一步细化、健全，让有开源意愿的机构能够放心地进行数据开源，充分激发互联网精神。

而在算力方面，“百模大战”对算力的高需求也让我国本就紧张的算力资源更加捉襟见肘。在“东数西算”基础上建立起的算力互联网或许有望成为解决这一问题的答案。通过对不同地区的算力资源进行调度，实现算力资源的均衡分配。但目前仍然需要在高带宽、低延迟的算力网络建设方面突破更多技术瓶颈。

如果说数据和算力是大模型的硬件“基础设施”，算法则体现着更多“人”的因素。小冰公司首席执行官李笛认为，就训练大模型而言，参数的数量并不是最重要的，工程化过程中的调优才是真正的考验。“研发、训练一个大模型可能只需要一个月，但调优可能需要一年的时间。这个过程格外需要谨慎、细致、耐心，有足够的定力和专注力，也是一种‘工匠精神’的体现。”

耐心，是谈及大模型发展时多位业内专家反复提及的关键词。“大模型不是把数据‘喂’进去，算力一跑就有了。这其中有许多复杂细致的工作要做。”唐杰表示，人工智能自20世纪50年代被提出至今，其发展已经历过多次起伏，任何技术的发展都不是一蹴而就的，要对其有充分耐心。

(记者手记)

◎刘艳

不要等大模型“无所不能”时才入局

ChatGPT让公众再一次体验到现代人工智能的强大功能，它背后的大模型技术及应用范式，将极大冲击现有人工智能产业研发路线、发展方式，并有望成为新一轮科技革命与产业变革的核心驱动力和新入口。

这一范式的变化，引发了全球大模型竞逐。中国工程院院士郑纬民认为，大模型是新型基础设施的关键底座之一，大模型的竞争也是国家科技战略的竞争。

谁都不想错过这一机遇，全球科技企业纷纷下场投身这一科技新赛道。在这一轮AI竞赛中，中国不能掉队。

《中国人工智能大模型地图研究报告》显示，从全球已发布的大模型分布看，中国和美国大幅领先，超过全球总数的80%，中国已形成了紧跟世界前沿的大模型技术群。

随着我国数字科技领军企业大模型悉数登场，各方思辨与争论不断，“百模大战”是否存在重复建设？垂直类大模型是否有建设的必要？

在百度创始人、董事长兼首席执行官李彦宏看来，新的国际竞争战略关键点，不是一个国家有多少个大模型，而是大模型上有多少原生的AI应用，这些应用在多大程度上提升了生产效率。他点出了一个浅显的道理，科技作用于社会、造福于人类，必会向不同行业延展。

先发者不一定制人。在大模型角逐中，全球基本形成了各有优势的中美两大集群，中国企业在推进大模型中表现得更加务实，依托中国强大的工业基础和丰富的行业应用场景，切入实体经济、制造业等行业，形成了“以场景架构大模型，以场景训练大模型”的路径。

大模型赛道上挤着形形色色的中美企业。有志于此的机构、产业在科技诞生促动期阶段“蜂拥而上”是技术发展的必然，也正因此，才有可能迎来技术的成熟和广泛应用，这种热情值得鼓励和包容。

技术的落地和产业的发展需要百花齐放，谁也不知道大模型未来的潜力到底有多大、其边界到底在哪。“百模大战”说到底是对不同发展路径的探索，也为大家提供了更多选项，人们乐见其成。即便有一小部分公司盲目跟风，市场也会优胜劣汰。

生成式人工智能进步速度惊人，我们是否需要担心它作恶？

不可否认，大模型的可控、安全至关重要，大模型热潮下社会各界的种种忧虑和思考无不切中要害。无论技术创新还是业务创新，“合规”是底线。在我国相关管理办法逐步出台的同时，针对大模型的通用能力应用到各场景，有可能发生的新安全隐私问题。产业各方已开始着手为大模型戴上“紧箍咒”，即用技术手段解决技术的“胡作非为”。

有抗拒有担忧，却也激发出更多创新可能。显然，积极拥抱这一未来服务载体和入口形式的重大变化，从国家到行业，皆已有迹可循。

就像有人说的，不要在新的工业革命到来之际袖手旁观，不要等大模型“无所不能”时才入局，现在就可以开始干了。(来源：科技日报)

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

AI大模型之争远未落幕

吕归亚自2022年年底OpenAI发布聊天机器人ChatGPT3.0后，各大科技公司纷纷跟进推出各自的产品。经历了一年多高速推进且“万众瞩目”的发展后， ChatGPT依旧是行业内的标杆级存在...【详细内容】

2024-03-20　　Search: 大模型点击:(19)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(7)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(1)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(3)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(5)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(8)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

收入越高，生育率越低！真	北京、广州相继上调公
“龙年龙月龙日龙时”	20元引发的官司：“仅退
网约车抽成“套路”多	A股分拆上市密集改道：
探访“中国黄金第一家	藏在AI背后的“吃电狂