英文训练AI大模型比中文更便宜，为什么会这样？

时间：2023-07-31 09:49:09 来源：作者：三易生活

如今国内市场的“百模大战”正如火如荼，无论是BAT这样的传统豪强，还是美团、字节跳动这样的新兴巨头，乃至科大讯飞等传统AI厂商都已入局。但提到AI大模型，似乎大家还是认为ChatGPT、Bing Chat、Bard等海外厂商的相关产品往往更加好用。

事实上，这并非错觉。近期牛津大学进行的一项研究就显示，用户所使用的语言对于大型语言模型（LLM）的训练成本有着密切的联系。

根据这一研究结果显示，按照OpenAI采用的服务器成本衡量和计费方式，让一个LLM处理一句缅甸掸语的句子需要198个词元（tokens），但同样的句子用英语写则只需17个词元。据统计，简体中文的训练费用大约是英语的两倍，西班牙语是英语的1.5倍，而缅甸的掸语则是英语的15倍。词元通常是指语料中文字存在的最小单位，但它的具体指代则是多变的，既可以是字、也可以是分词结果的词。

由于AI业界目前会使用词元来代表通过OpenAI或其他厂商API访问大模型所需的计算成本，所以也就意味着牛津大学的这项研究表明，英语才是目前训练大模型最便宜的语言，其他语言的成本则要大得多。

那么为什么会造成这一现象呢？用中文本身相比于英文更加复杂来解释显然并不科学，毕竟现代语言学是欧洲创建起来的，甚至现代汉语的语法分析原理也脱胎于西方的语法分析原理。

汉藏语系的语法结构与印欧语系相去甚远，参照印欧的屈折型语法来看以汉语为代表的孤立型语法，当然会觉得复杂。然而，词元（tokens）是以OpenA视角里中的训练成本来定义的，不是以字符来划分。而且，英文单词间是存在空格的，对英文文本处理时可以通过空格来切分单词。然而中文词之间不存在天然地空格，并且中文词是由多个字构成的，所以对于中文文本处理之前首先要进行分词。

真正导致用英文训练AI大模型成本更低的原因，是OpenAI等厂商的分词算法与英文以外其他语言的语义理解技术不到位有关。以OpenAI为例，作为一家美国公司，其团队在训练大模型时必然会选择以英语语料为起点，标注人工的投入显然也是英语系最方便，毕竟这会直接影响到大模型训练的强度和产出，也是为什么他们选择的人工标注团队在肯尼亚，而后者作为英联邦国家，以英语为官方语言、且教育水平较高。

AI理解不同语言不是通过翻译，而是直接学习相关语言的文本。那么AI大模型使用不同语言的能力差别又从何而来呢？答案是不同语言语料的丰富程度。此前百度的“文心一言”在内测过程中出现文生图不符实际的情况，就曾有主流观点认为，这是由于中文自然语言处理领域缺乏高质量中文语料所导致的结果。

而语料则是AI大模型的基础，生成式AI的原理大概可以总结为，通过大量的语料库进行训练，再从各种类型的反馈中进行流畅的学习，并根据需要对反馈进行整理，以建立相应的模型，从而使得AI能够对人类的问题做出相应的回答和决策。AI大模型之所以比以往的AI产品表现得更“聪明”，单纯是因为语料规模更大，比如OpenAI的GPT-3就拥有1750亿的参数量。

“力大砖飞”其实是当下大模型的底层逻辑，在这种情况下，语料基本就决定了它们的上限。语料肯定是越多越好，但如今的事实，却是英文才是目前互联网世界中使用人群规模最大、使用频率最高的语言。在去年6月，W3Techs又一次发布的全球互联网网页统计报告中就显示，英语仍一骑绝尘，占比高达六成（63.6%）以上，俄语为第二名（7%），中文则仅有1.3%、排名第八。

当然，W3Techs的统计只包含了网站，这也是为什么占全球网民五分之一的中文互联网中，能够拿得出手的网站仅占全球网站的1.3%。毕竟由于国内发达的移动互联网生态，App才是主体，大量信息已经聚集在了各式各样的App中，并且这些信息也难很通过爬虫获取，所以也导致其很难进行准确的统计。

这样的状态自然也导致了汉语语料库的匮乏，因为AI行业的惯例是使用互联网公开数据，而App里的数据则是属于运营方的，违规抓取App内数据是妥妥的违法行为。而国内互联网大厂将信息牢牢控制在自家App里，进而也导致了公开的中文语料不增反减。

不同于海外市场Reddit、Twitter这类愿意卖数据的平台，将无边界扩张思维铭刻在脑海里的国内互联网巨头，几乎每一家都在贪大求全，而敝帚自珍更是成为了各家共同的选择。既然互联网上的公开信息是以英文为主，即使国内的AI大模型训练往往也是从英文为起点，所以文心一言会出现“英翻中”的现象也就不足为奇了。

归根结底，AI大模型使用不同语言的训练成本，其实和该语言构筑的互联网生态繁荣程度呈现正相关。例如丹麦语、荷兰语等小语种使用者在互联网上留下的内容过于匮乏，就导致训练AI大模型使用它们来输出内容不光成本更高，而且效果也更差。但更加不妙的是，由于马太效应的影响，英文在AI领域的强势地位还或将会持续增强。

因此国内市场的AI大模型想要更好用，获得足够、且高质量的语料库是关键。互联互通这个已经被提出多时的概念真正被贯彻的那一刻，或许才是中文AI大模型比肩ChatGPT们的时候。

Tags：大模型点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

AI是万灵药？Meta要把大模型塞进AR眼镜里

寻找下一块“屏幕”，这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网，智能手机让移动互联网无处不在之后，这前后两次造富神话的出现，也让所有人都在期待下...【详细内容】

2024-04-09　　Search: 大模型点击:(2)　　评论:(0)　　加入收藏

AI程序员上岗垂类大模型应用迎来井喷期

能自动写代码的“AI员工”、逐渐告别不够好用的智能客服，无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业，IT、工业生产、金融、服务...【详细内容】

2024-04-07　　Search: 大模型点击:(3)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

大模型Kimi火了，长文本“卷”出新高度

近日，AI智能助手Kimi宣布支持200万字无损上下文，在长上下文窗口技术上再次取得突破，引燃人工智能领域新一轮投资热情。　　摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo，支持1...【详细内容】

2024-03-29　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

大模型应用的 10 种架构模式

作者 | 曹洪伟在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重...【详细内容】

2024-03-27　　Search: 大模型点击:(13)　　评论:(0)　　加入收藏

超长文本是AI大模型的能力突破口吗？

◎记者刘怡鹤近日，能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为，国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】

2024-03-26　　Search: 大模型点击:(8)　　评论:(0)　　加入收藏

百度AI“咬”了一口苹果大模型商用有戏了？

百度3月25日突传利好。据知情人士透露，百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称，苹果曾与阿里以及另外一家国产大模型公司进行过洽谈，最后确定...【详细内容】

2024-03-26　　Search: 大模型点击:(18)　　评论:(0)　　加入收藏

Kimi引燃大模型“长文本竞赛”，阿里360百度急出手

从ChapGPT到Sora，从数千亿参数到千万长文本，大模型浪潮下，永远不缺热点。近日，“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜，让月之暗面这家刚成立一年的人工智...【详细内容】

2024-03-25　　Search: 大模型点击:(15)　　评论:(0)　　加入收藏

Kimi爆了国产大模型应用元年还远吗？

国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据，Kimi智能助手的周度访问量由23年12月初的15万提升至近期（3.10-3.16）的超过200万，APP端下载量也快速提升，从2月初的效率...【详细内容】

2024-03-22　　Search: 大模型点击:(14)　　评论:(0)　　加入收藏

国产大模型开卷“比谁长”？Kimi爆火点燃长文本竞争赛道

来源：财联社近日，又一现象级AI应用Kimi爆火出圈，在用户端和资本市场都掀起波澜，引发多个Kimi相关概念股异常波动。海天瑞声（688787.SH）、中广天择（603721.SH）等上市公司纷纷回应“无...【详细内容】

2024-03-22　　Search: 大模型点击:(5)　　评论:(0)　　加入收藏

▌简易百科推荐

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(1)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　　　财联社　　Tags:AI产业　点击:(1)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(2)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(2)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(4)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(5)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个