您当前的位置:首页 > 电脑百科 > 人工智能

破解大模型中文语料不足问题,并非毫无办法

时间:2024-03-12 11:50:09  来源:  作者:新京报评论

更为严谨的并获得反复验证的百科全书式知识信息,才是大语言模型最为可靠的语料库。

| 张田勘

在2024年全国两会上,有委员提出,应重视当前国内人工智能AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。

截至2023年底,我国从事研发10亿参数规模以上的大模型厂商以及高校院所超过200家,目前已有20多个大模型产品获批向公众开放提供服务。但在一定程度上,高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。

ChatGPT训练中文语料占比低

AI大语言模型(LLM,简称大模型),是由具有许多参数(通常数十亿个或更多)的人工神经网络组成。其基础是人类已经产生的各类知识产品,包括各类公开发表的或在网上出现的文章、著作,以及各类网文、帖子等。

目前,大模型最大的语料库来自于用户生成内容(UGC),但更为严谨的并获得反复验证的百科全书式知识信息,才是大模型最为可靠的语料库。这些信息和知识就是各类公开发表物,包括在报纸、期刊文章和著作。

ChatGPT作为大模型能先领风骚,主要依赖于英文语料库;如果中国的大模型AI发展要获得突破,必然要依赖于中文。全球目前最有科学性和经过验证的语料来自于学术资料库,包括期刊和文化、出版物,但遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。

当前,全球有三大出版物权威数据库,分别是科学引文数据库(SCI)、社会科学引文数据库(SSCI)和人文艺术引文索引数据库(A&HCI)。一项研究显示,从1900-2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。

这些情况表明,由于英文语料库的占比最大,因而依赖英语训练的大模型也更具有可信性和权威性。因此,目前世界上一流的大模型都是靠英文语料库来训练和生成大模型。以ChatGPT为例,训练数据中,中文语料比重不足千分之一,而英文语料占比超过92.6%。

补齐优质中文语料数据短板

这对中国的人工智能发展显然是一个挑战。中国要研发更多更可靠和更实用的大模型AI,必须依赖中文语料,或建立中文语料库。然而,中国目前欠缺系统化、优质的中文语料,中文语料的不足会极大地限制中国AI的发展。

但值得注意的是,这并非没有解决办法。比如,在中国公开出版的中文报纸、期刊等或许可以成为一种优势。公开资料就显示,尽管中国的报纸出版有波动,但2019年中国报纸出版种类为1851种。

中文社会科学引文索引(cssCI)和中国科学引文数据库(CSCD)是国内具有较高知名度的两大学术引文索引数据库。CSSCI(2021-2022)共收录613种来源期刊、229种扩展版来源期刊及2种报纸理论版。CSCD(2021-2022)共收录1262种来源期刊,包括926种核心库来源期刊和336种扩展库来源期刊,其中大多数都为中文期刊。

此外,中国期刊全文数据库的中文语料更丰富,收录国内各类期刊7400种。中国国家图书馆是亚洲最大图书馆,藏书3700万册,主要是中文图书。

中国国内还有大量的各类网站。截至2023年6月,中国网站数量有383万个,国内市场上监测到活跃的App数量有260万款。这些载体上不乏大量的真知灼见。

这些情况表明,中国国内的中文语料极为丰富,是研发中文大模型AI的坚实基础。只不过,现在中国国内的中文语料数据挖掘不足,有很多公开出版物还无法上网,或没有网络版。

此外,一些中文语料因为年代久远等因素也难以在市场上自由流通,因而导致目前中文优质数据稀缺。

就此来看,不妨如有的委员所建议的,从建立数据合规监管机制、加强数据安全和知识产权的保护、加快高质量中文数据集的开发与利用层面,补齐优质中文语料数据短板。

建设多元化和多模式的语料库

更具体来说,加快中文语料的开发,首先在于提高语料库的质量,如此才能进一步共享和利用。

中国目前的中文语料库国家标准有《信息处理用现代汉语分词规范》《信息处理用现代汉语词类标记规范》等,但这些只是作为推荐性标准,行业采用率并不高。由此也形成了语料库之间的异构性,资源之间难以相互转换,同时导致重复建设。

因此,不妨根据国际标准、中文标准和行业认同,建立统一的语料库编码规范标准。现在,研究人员认为,元数据规范化是中文语料库标注规范中最有条件、最容易实行的规范。所以,不妨根据上述规范,打造元数据规范化的中文语料库。

其次,要注重建设多元化和多模式的中文语料库。现实情况是,中文语料中的文本语料库占大多数,口语、方言的语料库较少,难以形成多模态语料库,也无法给AI深度学习提供丰富的中文语料。此外,中文语料库的共享难度,成为阻碍AI发展的瓶颈。

对此,一些研究人员提出应当建立Web检索,由此推动语料库共享进程。也有人建议搭建由国家、省市图书馆和各高校图书馆主导的中文语料库资源共享平台。

目前,语料库的Web检索已成为语言学研究领域的主要共享方式,但是对于语言信息处理研究和AI使用,也还存在一定难度,往往需要语料库全文或子库。因此,需要在Web检索的基础上,建立更为广泛和容易使用的中文语料库。

当然,所有建立中文语料库的方式都需要资金、人力和场地,因此需要国家预算投入更多的资金。而保护中文语料原作者的知识产权自然也需要纳入相关的设想方案中。

如此,才能推动中国大模型产业快速和高质量发展。

撰稿 / 张田勘(专栏作者)

编辑 / 马小龙

校对 / 陈荻雁



Tags:大模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-08  Search: 大模型  点击:(3)  评论:(0)  加入收藏
AI程序员上岗 垂类大模型应用迎来井喷期
能自动写代码的“AI员工”、逐渐告别不够好用的智能客服,无需费时费力开发的工业AI控制器……随着人工智能大模型能力开始深入多个行业,IT、工业生产、金融、服务...【详细内容】
2024-04-07  Search: 大模型  点击:(2)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03  Search: 大模型  点击:(5)  评论:(0)  加入收藏
大模型Kimi火了,长文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200万字无损上下文,在长上下文窗口技术上再次取得突破,引燃人工智能领域新一轮投资热情。  摄影/宁颖OpenAI官方去年11月发布的GPT-4 Turbo,支持1...【详细内容】
2024-03-29  Search: 大模型  点击:(13)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27  Search: 大模型  点击:(13)  评论:(0)  加入收藏
超长文本是AI大模型的能力突破口吗?
◎记者 刘怡鹤近日,能“一口气读完20万字小说”的AI大模型应用Kimi再次为国内AI产业添了一把火。业内认为,国产大模型能力提升或成今年国内AI领域最核心的主线。超长上下文是...【详细内容】
2024-03-26  Search: 大模型  点击:(8)  评论:(0)  加入收藏
百度AI“咬”了一口苹果 大模型商用有戏了?
百度3月25日突传利好。据知情人士透露,百度将为苹果今年发布的iPhone16、Mac系统和ios18提供AI功能。消息人士称,苹果曾与阿里以及另外一家国产大模型公司进行过洽谈,最后确定...【详细内容】
2024-03-26  Search: 大模型  点击:(17)  评论:(0)  加入收藏
Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
从ChapGPT到Sora,从数千亿参数到千万长文本,大模型浪潮下,永远不缺热点。近日,“Kimi概念股暴涨”“Kimi为宕机道歉”等词条先后冲上微博热搜,让月之暗面这家刚成立一年的人工智...【详细内容】
2024-03-25  Search: 大模型  点击:(15)  评论:(0)  加入收藏
Kimi爆了 国产大模型应用元年还远吗?
国产大模型应用Kimi近日可谓横空出世。根据Similarweb数据,Kimi智能助手的周度访问量由23年12月初的15万提升至近期(3.10-3.16)的超过200万,APP端下载量也快速提升,从2月初的效率...【详细内容】
2024-03-22  Search: 大模型  点击:(14)  评论:(0)  加入收藏
国产大模型开卷“比谁长”?Kimi爆火点燃长文本竞争赛道
来源:财联社近日,又一现象级AI应用Kimi爆火出圈,在用户端和资本市场都掀起波澜,引发多个Kimi相关概念股异常波动。海天瑞声(688787.SH)、中广天择(603721.SH)等上市公司纷纷回应“无...【详细内容】
2024-03-22  Search: 大模型  点击:(5)  评论:(0)  加入收藏
▌简易百科推荐
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(2)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(2)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(6)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
AI干掉声优?音频大模型追逐“图灵时刻”
七十年前,“人工智能之父”图灵提出,如果人无法判断屏幕的另一侧究竟是人还是机器,就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般,指引着AI行业的工作者们不...【详细内容】
2024-04-03    第一财经网  Tags:AI   点击:(5)  评论:(0)  加入收藏
生成式人工智能有哪些新趋势?
相较于去年,当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台,只要是以搜索结果为导向的内容,都会出现它的身影。但其实,人工智能的应用场...【详细内容】
2024-04-03  品谈教师帮    Tags:人工智能   点击:(6)  评论:(0)  加入收藏
AI世界的新难题:互联网的信息不够用了!
高质量数据的紧缺正成为AI发展的重要障碍。4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们...【详细内容】
2024-04-02  硬AI    Tags:AI   点击:(6)  评论:(0)  加入收藏
今天起,ChatGPT无需注册就能用了!
 来源:量子位    金磊 克雷西 发自 凹非寺  就在刚刚,OpenAI狠狠地open了一把:从今天起,ChatGPT打开即用,无需再注册帐号和登录了!  像这样,直接登录网站,然后就可以开启对...【详细内容】
2024-04-02    量子位   Tags:ChatGPT   点击:(7)  评论:(0)  加入收藏
AI时代,面对死亡有了第二种选择?
今年春节期间,罗佩玺瞒着妈妈用AI技术“复活”了外婆,她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年,妈妈和外婆终于又“见面”了,这是她送给妈妈的生日礼物。收...【详细内容】
2024-04-02    中国青年报  Tags:AI时代   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条