出品 | 虎嗅科技组
作者 | 齐健
编辑 | 廖影
头图 | 《复仇者联盟3·无限战争》剧照
8月7日,国内又一家AI创业公司发布了自己的开源且免费可商用的AI大模型:XVERSE-13B。这家名为元象XVERSE的公司,由前腾讯副总裁、腾讯AI lab创始人姚星创立。
自从Meta在7月发布了开源可免费商用的LLaMA 2系列大模型,AI大模型市场上正在酝酿一波“开源”的新浪潮。
8月2日,百度旗下的AI大模型平台文心千帆,宣布接入LLaMA2全系列开源模型,平台可调用的大模型数量增至33款,除了3款文心模型,其他30款均为开源模型,其中包括ChatGLM2、RWKV、MPT、Dolly、OpenLLaMA、Falcon等。
此后一天,阿里云也宣布加入开源模型行列。开源通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat,两款模型已上线魔搭社区,开源、免费、可商用。
有趣的是,这种对开源开放的积极态度,正是始于闭源大模型ChatGPT的大东家——微软。7月18日,微软宣布携手Meta发布开源可商用版本的LLaMA 2模型,为企业提供OpenAI和谷歌模型的平替产品。OpenAI在AI大模型市场的垄断地位,似乎正在遭到全行业的“针对”,甚至是自己最亲密的合作伙伴。
作为全球公认的大语言模型第一名,OpenAI的GPT-4是目前唯一一个有大量用户愿意为其买单的大语言模型。
班里第一名的同学,通常没有参加学习小组的动力。同样,OpenAI也没有什么开源的理由和动力。
然而,随着LLaMA 2的全面开源,越来越多的开发者投入了Meta以及各种开源模型的阵营。就像Android用开源对抗IOS一样,一众开源AI大模型,正在绕过GPT-4的技术壁垒,以开源生态包围OpenAI。
为什么开源?
OpenAI刚刚推出插件功能的时候,就有很多人把AI大模型比做未来的windows、iOS、Android。如今,随着LLaMA 2的发布,AI大模型不只是功能,连市场格局也正在朝着操作系统的方向发展。
由UC伯克利主导的组织LMSYS Org发起的,一项针对大语言模型(LLMs)的排位赛;截至7月20日的最新版排名共统计了40款AI大模型,前五名仍是闭源模型(Proprietary),分别是GPT-4、GPT-3.5-turbo和Claude的三款模型。不过,后边的34款模型,除了谷歌的PaLM-Chat-Bison-001,均为开源模型,其中15款为不可商用(Non-commercial)。
排名模型⭐ Arena Elo rating(评级)MT-bench (评分)MMLULicense(许可)1GPT-412068.9986.4Proprietary2Claude-111667.977Proprietary3Claude-instant-111387.8573.4Proprietary4Claude-211358.0678.5Proprietary5GPT-3.5-turbo11227.9470Proprietary6Vicuna-33B10967.1259.2Non-commercial7Vicuna-13B10516.5755.8Llama 2 Community8MPT-30B-chat10466.3950.4CC-BY-NC-SA-4.09WizardLM-13B-v1.110406.7650Non-commercial10Guanaco-33B10386.5357.6Non-commercial11PaLM-Chat-Bison-00110156.4
Proprietary12Vicuna-7B10066.1749.8Llama 2 Community13Llama-2-13b-chat9876.6553.6Llama 2 Community14Koala-13B9835.3544.7Non-commercial15GPT4All-13B-Snoozy9675.4143x16Llama-2-7b-chat9616.2745.8Llama 2 Community17MPT-7B-Chat9475.4232CC-BY-NC-SA-4.018RWKV-4-Raven-14B9433.9825.6Apache 2.019Alpaca-13B9234.5348.1Non-commercial20OpenAssistant-Pythia-12B9154.3227Apache 2.021ChatGLM-6B9004.536.1Non-commercial22FastChat-T5-3B8923.0447.7Apache 2.023StableLM-Tuned-Alpha-7B8632.7524.4CC-BY-NC-SA-4.024Dolly-V2-12B8423.2825.7MIT25LLaMA-13B8172.6147Non-commercial26WizardLM-30B
7.0158.7Non-commercial27Vicuna-13B-16k
6.8754.1Llama 2 Community28Llama-2-70b-chat
6.8663Llama 2 Community29Tulu-30B
6.4358.1Non-commercial30Guanaco-65B
6.4162.1Non-commercial31OpenAssistant-LLaMA-30B
6.4156Non-commercial32WizardLM-13B
6.3552.3Non-commercial33Vicuna-7B-16k
6.2248.5Llama 2 Community34Baize-v2-13B
5.7548.9Non-commercial35XGen-7B-8K-Inst
5.5542.1Non-commercial36Nous-Hermes-13B
5.5149.3Non-commercial37MPT-30B-Instruct
5.2247.8CC-BY-SA 3.038Falcon-40B-Instruct
5.1754.7Apache 2.039ChatGLM2-6B
4.9645.5Apache-2.040H2O-Oasst-OpenLLaMA-13B
4.6342.8Apache 2.0
7月20日发布的LMSYS Org大语言模型(LLMs)的排行榜
Chatbot Arena:使用超过 50000 名用户投票来计算 Elo 评级。
MT-Bench:一组具有挑战性的多回合问题。
MMLU(5-shot):衡量模型在 57 项任务上的多任务准确性的测试。
虽然论模型能力,纵观整个市场,无论开源闭源都没有一款模型能敢跟GPT-4正面较量。但猛虎顶不住狼多,打不过GPT-4的大模型们,选择了“换道超车”,利用开源抢占应用生态,这似乎与Android对抗iOS时有些相似。
“现在,所有开源大模型只有一个目的,就是营销。”
一位国内开源大模型研发公司的创始人对虎嗅坦言,现下主推开源大模型和开源Android系统的理由,主要是靠免费抢市场。“很多大公司发布了AI大模型,甚至只是做了一款基于已有模型的应用,就开始大张旗鼓地宣传。实际上,对于基础大模型的用户来说,花再多钱打广告,也比不上模型开源来得实在。”这也是,AI公司证明自己实力的最好方法。
首先,开源模型比封闭模型更容易评估。因为开源模型的代码和数据集是公开的,研究人员可以直接检查模型的架构、训练数据和训练过程,从而对模型进行更深入的分析,以了解模型的优缺点。
“有的AI大模型看似能力很强,但它不开源,你只能看到他输出的结果。”
相比于开源模型,闭源模型只能通过模型的性能评估来了解模型的优缺点。这导致闭源模型的性能可能被人为夸大,或者其缺点被隐藏。而开源模型的透明性,则可以帮助开发者更深入地了解模型,并对其进行更公正的评价。
对于后发者来说,闭源模型还有一个问题:容易被质疑技术的原创性。多位大模型研发者曾对虎嗅表示,“对于那些不开源的模型,说句不好听的,就算是套壳LLaMA,或者干脆后台调用ChatGPT接口,又有谁知道呢?”
在第一波国产AI大模型刚刚问世时,这样的质疑声音就在网络上广为流传。对于那些没有开源的AI大模型来说,则很难自证清白,为了证明自己不是调用ChatGPT的API,有的公司甚至搬出推理服务器,现场拔网线演示。
开源无疑是AI大模型自证能力最好的途径之一。但开源的真正价值,并不是自证能力,而是要抢占生态。
“LLaMA 2出来以后,肯定会迅速抢占OpenAI的生态。”一位大模型开发者对虎嗅表示,虽然GPT-4能力最强几乎是业界公认的,但GPT-3以后的模型都没有开源,且GPT-4的API接口开放程度也很低,所以对GPT模型的开发是有很多限制的。由此,很多开发者选择了LLaMA等开源模型,这些开源模型不仅可以进行指令微调,还可以对底层模型进行研究。
“LLaMA在开发者中肯定比OpenAI更受欢迎。”
7月19日LLaMA 2刚发布时,Github上关键词包括“LLaMA”的项目有5600多个,包括“GPT-4”的有4100多个。发布两周后,LLaMA的增速更快,截至发稿,“LLaMA”为6200多个,“GPT-4”为4400多个。
另一方面,开源模型可以下载到本地进行私有化部署,这给商业化公司的AI训练提供了便利。这类公司的AI应用需要基于自己的业务数据进行训练,私有化部署的AI大模型,可以最大程度地保护数据安全。同时,私有化部署的算力选择更多,不管是云服务,还是本地部署,甚至是多个IDC的分布式算力,大大拉低了模型的训练、推理成本。
虽然ChatGPT仅用2个月就收获了1亿月活用户,但在开发者生态中,开源模型抢占用户心智的速度,似乎更快。
目前,国内很多AI公司都选择发布了开源模型。其中包括,智谱AI发布的开源模型ChatGLM-6B,复旦大学发布的MOSS,智源研究院发布的悟道天鹰Aquila,以及百川智能的Baichuan-7B(13B)等。其中智谱AI发布的开源大模型ChatGLM-6B全球下载量超过400万,在GitHub上获得3.2万颗星,比LLaMA还多3000颗星。
“如果我们不做开源模型,那市场很快就全是LLaMA的了。”一位已经推出开源模型的AI公司高管告诉虎嗅,开源是中国AI大模型发展的重要一步。
模型名称开源时间发布机构参数量ChatGLM3月14日智谱AI60亿通义千问8月3日阿里云70亿MOSS4月21日复旦大学160亿TigerBot6月7日虎博科技70亿悟道天鹰(Aquila)6月9日智源研究院70亿Baichuan6月15日百川智能70亿/130亿XVERSE8月7日元象公司130亿
部分国内开源AI大模型
事实上,在LLMs风潮刮起来以前,生成式AI就已经打过一场开源卷死闭源的仗了。
开源文生图模型Stable Diffusion凭借大量的开发者和产品应用,几乎把OpenAI先发的闭源模型Dall-E 2逼到了墙角。虽然用户普遍认为Stable Diffusion的模型能力不如另一款闭源产品MidJourney,但Stable Diffusion凭借开源免费的属性,抢占了大量文生图市场,成为最主流的文生图模型,其开发公司RunwayML和Stability AI也因此收获了大量关注和融资。
LLaMA 2的开源模型,似乎也正有意在LLMs领域逼OpenAI一把。
开源带货
LLaMA 2目前开源了,系列模型中全部三款:70亿、130亿和700亿参数版本。不过坊间也有传闻认为,“Meta实际上还有更大参数的版本并未放出,下一个版本或将有更大参数版本,但不一定会开源。”
值得关注的是,目前很多开源模型都不是全部开源。智源研究院发布的悟道3.0模型中,只开源了“天鹰”基础语言模型;智谱AI发布的ChatGLM,也只开放了系列模型中的一部分,更大的1300亿参数模型目前仍是闭源的。
不管LLaMA 2是不是“留了一手”给更大的模型,但“免费”的形式无疑会加速Meta在大模型市场中的形成,并推着它走上Android的“老路”。
通过开源生态,Android系统在全球积累了大量的开发者和用户。在技术生态方面极大地制衡了先行的闭源系统iOS,甚至在一些市场形成了自己的垄断。从2018年开始,欧盟就因Android系统的垄断机制对谷歌开出了超40亿欧元的罚单。从这张天价罚单,也能看出开源的Android系统有多赚钱。
调研机构Sensor Tower的报告显示,2022年google Play上的用户支出约为530亿美元,这个数字在2023年将增至600亿美元。另一家研究机构Statista发布的报告,截至2022年1月,Google Play商店中约有14万个应用程序。
现阶段,开源AI大模型显然还达不到手机的普及程度。不过,即便AI真的像手机一样普及了,如Meta这样的巨头,也不会轻易放过那些借助LLaMA 2赚了大钱的公司。
LLaMA 2的开源协议中,有这样一条约定:如果月活用户超过7亿,则必须向Meta申请许可证。Meta可以自行决定是否授权给您,并且您无权行使任何权利。
同时,开源模型除了可以“带货”闭源版本,以及AI大模型应用,还可以帮算力“带货”。
国内首推AI大模型的两个厂商,百度和阿里,都是云厂商。另外两家云厂商,腾讯云和华为云,虽然没有像文心一言和通义千问一样的LLMs产品,但他们也都在持续高喊AI大模型。这背后最主要的原因就是,大模型对云的“带货作用”。
“宣布一些AI大模型方面的动作,也是市场和客户共同推动的。过去几个月里,来问大模型的客户实在是太多了。”某腾讯云业务负责人告诉虎嗅,算力排队,就是AI大模型带货能力的最好证明。
模型可以不赚钱,但算力一定是赚钱的。阿里开源通义千问,百度在文心千帆大模型平台上引入30个开源模型,这两个动作都是要把“免费”的AI能力交付给用户。用上开源模型的用户,虽然不再为AI付费,但只要他们的AI跑在阿里云和百度智能云上,他们就要为算力付钱。
“AI也要回到云的思路,赚云的钱。”百度智能云AI与大数据平台总经理忻舟表示,开放大模型平台的初心,是为了给客户的业务创造价值,创造价值的同时可以增强老客户的黏性,并拓展更多新客户。这对于扩大云厂商的规模效应,有很大的帮助。
免费的更贵
“1000万吧,要定制大模型起步报价差不多就是这个数。”
一位开源大模型公司创始人在电话中给前来咨询的中间人报价。
“开源模型收获了用户认可以后,就可以去跟别人谈定制开发的服务费。”这位创始人挂断电话后,向虎嗅解释说,像LLaMA 2这样的模型,开发费用少说也要几千万美元。所以他瞄准的市场,肯定是开发成本的几十、上百倍。
从目前来看,AI公司要想靠开源模型赚钱,最好的途径就是从服务入手。
好在,多数AI大模型的用户,都很需要这些服务。
“模型开源,免费可商用。那就意味着从下载模型开始,模型部署、训练、调优,以及实际应用中的应用开发,所有的工作都需要自己来完成。”一位LLaMA应用开发者告诉虎嗅,闭源模型的供应商大多会提供训练和部署的服务,且可以根据用户需求定制开发功能。但使用开源模型的话,这些工作就都要自己做,没人帮你训练,没人给你找算力,也没人帮你定制开发。
“其实闭源模型的厂商们卖的就是服务。”某曾基于LLaMA模型做过AI应用研究的在线教育机构负责人告诉虎嗅,“开源模型看似免费,但部署过程中,很多钱还是要花的。”加入了AI大模型之后,IT部门的人力、算力成本都有明显上浮。
虽然根据开源模型做训练、调优对于多数IT人员来说并不困难。但要对模型进行深入研究和开发,仍需要在算法、AI等方面有一些技术储备。而随着AI大模型概念日益升温,这方面的人才价格也水涨船高。
“人力成本的提升其实是浮动的,但服务器和硬件成本是实打实的。从投入大模型到现在,我们的成本上升了大概20%-30%。”前述在线教育机构负责人表示,目前他的机构还处在AI场景探索阶段,最大的困难是需要一个个场景地实验。“一个不行就再换一个,这个过程中,每一步都要花钱。”
对此,虎嗅向某位百度智能云内部人士咨询了百度文心千帆在部署方面的服务与成本问题,“大模型的项目一定是系统工程,是算总帐的,选择开源并不会特别省钱。”
事实上,不管是开源模型还是闭源模型,模型部署工作的成本都是按人/天算的,后续投入到训练、推理上的算力成本也不会有本质的差别。“但是用开源模型自己训练、部署、开发,只会使这个过程变得很麻烦。”该百度内部人士表示,具体部署成本要看具体项目,差异很大。不过,开源和闭源在部署和使用成本上其实没有本质差别。且从数据安全角度来说,多数闭源模型也可以进行私有化部署。
现阶段AI还很难做到普惠。
对于多数从事互联网业务的公司来说,它们本身有IT研发团队,在大模型当来之际,很快就能组建一支“成建制”的团队开发AI应用。但对于很多零售、传统制造,以及服务行业来说,数字化转型都是个难题,要让他们去研究AI大模型的训练、部署和推理,实在是有点强人所难。
对于这部分企业来说,最好的AI产品,就是通用型的AI插件。“我们需要的只是一个对话看起来不那么白痴的客服机器人而已,我让去学习怎么训练模型,实在是有点兴师动众了。”某电商品牌业务线经理告诉虎嗅,这半年里,他只是听说AI对话能力比以前强了,但还没试用过ChatGPT。虽然他也愿意拥抱新技术,但是现在就让他花时间学习,还得投钱买AI,动力实在不足。
“除非是在我现在用的平台或者软件里有个插件,拿起来就能用,不然我不会太考虑马上花钱升级AI助手。”AI大模型对于很多初级用户来说,上手门坎并不低。
“商家需要AI可以做到,无感应用和赋能。”SaaS厂商微盟在数字化营销方面做了这样一款应用WAI,以嵌入已有应用的形式帮商家调用AI能力。为商家提供基于大语言模型的AI对话和文本、图片生成能力。
将大模型开放性地接入SaaS服务工具,与百度文心千帆的模型调用有些异曲同工。虽然只做了接口调用、F.NETune,但给用户提供了更多、更快速、更稳定的AI落地能力。
“开源模型可以让用户更容易上手,而且现在很多开源模型的更新速度甚至比大厂都快。”微盟集团首席运营官COO尹世明认为,开源开放可以迅速把AI能力交付到用户手中,而用户真正需要的是“即插即用”的AI。
对于多数还处在试验、实验、体验AI大模型阶段的用户来说,开源模型的门槛显然更低,启动成本更是几乎为零。
很多用户从一开始就使用开源模型,后续也就会选择一直沿用。而前边提到的部署和训练上的问题,则正在催生一条针对开源模型的服务产业链。
陈冉在这波大模型热潮中,新创的OpenCSG就正在围绕开源大模型做服务的生意。
OpenCSG提供的大模型服务主要针对企业的开源模型训练和落地。从开源模型的选型,到混合的分布式的算力,结合业务的模型训练,以及后端的应用开发等,都可以给企业提供服务。
“大模型在我看来就跟所有的SaaS差不多,上下游产业会逐步丰富,客户的关注点也不会只聚焦在模型能力上。”陈冉认为,客户的终极需求不是找到能力最强的模型,而是要更好、更轻松,更简单地把AI大模型用起来,服务他的业务。
围绕AI的开源生态
在整个AI产业链中,开源远不止于模型。从研发到部署,再到应用,几乎每个环节都离不开,开源的话题。
算法、算力、数据,AI三要素每项都需要开源的支持。
在算法层面,开源AI大模型处在相对后期的阶段。在早期AI研发中,几乎所有AI模型都要用到机器学习框架,它就相当于打造AI的工具箱。而目前主流的机器学习框架,包括TensorFlow,Pytorch,PaddlePaddle(飞桨)等均为开源框架。
在数据层面,Commen Crowl开源数据集是GPT模型训练过程中很重要的一个数据来源。目前很多机构和数据公司都在AI训练数据集方面发布了开源产品,包括智源研究院的COIG-PC数据集,以及海天瑞声的DOTS-MM-0526多模态数据集。
对于数据集的发布者来说,开源不仅可以提升影响力和品牌价值,开源后的数据集也可以收集来自开源社区的正向反馈,发现并修复数据中的错误或不一致性。这种外部审核有助于提高数据质量,同时进一步丰富发布者的产品生态系统。
“算法工程师在研发中,经常面临没有数据的烦恼,高质量数据可以对模型评测带来质的提升。我国目前面临着高质量数据集的稀缺问题,这也阻碍了中文大模型技术的发展。”海天瑞声是开源模型LLaMA 2的训练数据提供者之一,海天瑞声首席运营官李科表示。
在AI发展最大的瓶颈——算力方面,开源芯片框架也正在刺激产业发展。
8月4日,高通宣布与4家半导体公司共同成立合资公司,加速基于开源 RISC-V 架构的芯片商业化。目前市面上主流的芯片框架有3个:英特尔CPU使用的x86,英伟达GPU使用的Arm,以及开源芯片框架RISC-V。
“RISC-V可以提供一个可编程的环境,芯片研发团队可以利用RISC-V做很多预处理和后处理的工作,也可以加入符合用户需求的特色加速器,或者功能模块,去满足用户的需求。”SiFive企业营销与业务开发资深副总裁刚至坚表示,RISC-V的生态系统为芯片研发提供了丰富的选择,对于如今需求增长迅速的AI芯片来说有很大助力。
与RISC-V相比,Arm和x86的生态系统相对封闭。在Arm生态中,用户只能选择Arm提供的有限选项,而RISC-V生态则有众多公司参与,产品种类和选择会更多。
基于开源的架构也正在刺激芯片行业加速竞争,刚至坚说:“作为开源芯片架构的服务商,我们也会与其他公司竞争。但不论是我们胜出,还是其他公司胜出,这种竞争最终都会促进RISC-V生态的繁荣和进步。”
虽然RISC-V指令集架构是免费开源的,但芯片设计厂商基于RISC-V指令集架构二次开发形成的核心IP具有自主知识产权,可以通过外部收费进行授权。据RISC-V国际基金会数据显示,2022年会员数量同比增长超过26%,会员单位总数超过3180家,遍布70个国家/地区,其中包括高通、英特尔、谷歌、阿里平头哥、华为、紫光展锐等众多领先的芯片公司。
开源对于RISC-V来说是优势,但相应地也会产生一些问题。RISC-V只有40多个基本指令集,再加上数十个基本模块扩展指令,任何企业和开发者都可以免费使用RISC-V来创建具有独立知识产权的芯片。
然而,开源、高度可定制和模块化等特性,也使得RISC-V的生态更加碎片化,更加复杂。
“每家芯片研发公司对RISC-V的指令集进行升级后,其实都会产生一个新的架构。都叫RISC-V,但不同公司对RISC-V互相不能兼容,开源生态其实也是割裂的。”拟未科技总裁、大中华区总经理卢涛认为,芯片架构的开源和软件生态很重要,但是不同的团队,要在开放、定制和碎片化之间找到一个平衡点,这很考验研发团队的智慧和能力。
除此以外,Arm架构已经产生了GPU、IPU等适合AI训练、推理的芯片,技术生态更为完善、成熟。而RISC-V的初衷是用来设计CPU的,虽然其开放性很强,但目前来讲对于AI芯片的设计尚在探索阶段。
据调研机构Counterpoint Research预测,到2025年,RISC-V处理器累计出货量将超过800亿颗,复合年增长率为114.9%。届时,RISC-V将占据全球CPU市场14%、物联网市场28%、工业市场12%、汽车市场10%的份额。
高通已经在2019年将RISC-V应用到了其骁龙865 SoC中的微控制器中,目前出货超过6.5亿个RISC-V芯片。在2022年9月的AI Hardware Summit论坛上,RISC-V的发明者Krste Asanovic教授曾透露,目前谷歌已经开始使用基于RISC-V的SiFive Intelligence X280,开发其专为机器学习框架TensorFlow研制的TPU芯片。在此之前,谷歌在TPU芯片架构方面已经开展了超过10年的自研工作。
虽然从零开始做RISC-V芯片研发有一定的难度,但RISC-V的开源属性,给同样从零开始的中国芯片在封锁、垄断当中争取到了多一线生机,“从我的视角看,中国的芯片公司是全球成长最快的。中国芯片公司更加激进,愿意面对挑战。”刚至坚表示,市场是刺激芯片行业发展的关键。中国的芯片市场很庞大,例如中国的车用芯片算力需求,已经远超欧美市场。随着中国企业对AI算力需求的增长,未来中国的AI芯片产业肯定也会迎来更多的机会。
结语
除了商业方面的考虑,开源还可以帮助技术发布者优化模型。
“ChatGPT其实是工程的胜利。”如今大语言模型的成功,其实是建立在对模型的反复训练和调教之上的。如果在建立基础模型之后,把模型推广到开源社区中,有更多的开发者参与模型优化工作中,那么对于AI大模型的进步来说,无疑会产生很大的帮助。
除此以外,“开源大模型可以避免重复造轮子。”北京智源人工智能研究院副院长兼总工程师林咏华在2023年智源大会期间接受采访时曾表示,假设所有人都去自研通用大模型,需要耗费大量的算力、数据、电力,完全是重复造轮子,不利于社会资源的合理化利用。
对于智源研究院这样的非盈利机构来说,不管模型是开源还是闭源,可能都没有太多商业化的考虑。但对于商业化AI公司来说,无论是微软、谷歌、Meta、OpenAI,还是国内的智谱AI、百川智能,任何一款AI大模型肯定不会只以“科研”为目的。
OpenAI的产品虽然在技术上占据了绝对的优势,但以插件形式构建的ChatGPT生态,在生态建设方面却竞争乏力。在AI的开源、闭源之争中,未来或许会看到与手机操作系统不一样的格局。