您当前的位置:首页 > 新闻 > 快讯

十年育林,百度NLP已枝繁叶茂

时间:2020-07-16 16:50:50  来源:  作者:

作者:张倩

种一棵树,最好的时间是十年前,其次是现在。——Dambisa Moyo

十年育林,百度NLP已枝繁叶茂

 

7 月 10 日,自然语言处理顶会 ACL 2020 落下帷幕。本次大会共收到 3429 篇论文投稿,其中 779 篇被接收,接收率为 22.7%,与去年持平,低于近年来大部分年份的接收率。

在这 779 篇论文中,有 185 篇来自中国大陆,占被接收论文总数的 23.7%,仅次于美国。此外,今年的最佳论文二作和最佳 demo 论文一作均为华人学生。

然而,很多人可能不知道,2000 年 ACL 年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆;到了 2005 年,来自大陆的论文也只有三篇。

很多变化是过去十几年发生的,尤其是过去的十年。在这十年里,中国的 NLP 学界在 ACL 年会中的投稿数、被接收论文数逐年上升,同时,中国的 NLP 学者也实现了多个 “第一次” 的突破:

2013 年,王海峰出任 ACL 五十年来首位华人主席;

2014 年,吴华出任 ACL 程序委员会主席,成为中国企业首位 ACL 程序委员会主席;

2015 年,ACL 年会首次在中国举办;大会上,哈工大教育部语言语音重点实验室主任李生教授获得 ACL 终身成就奖,成为首个获得该奖项的华人;

2016 年,赵世奇当选 ACL 秘书长,成为首位当选该职位的亚洲人;

2018 年,ACL 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议,由王海峰担任创始主席;

2020 年,百度领衔组织了 ACL 大会上首场同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation);

……

从这些突破中,我们可以看到中国科学家的快速成长,看到中国 NLP 学界在国际上不断扩大的影响力,看到百度这家中国互联网公司跻身世界科技巨头的努力。

为什么一家中国互联网公司能够吸引众多 NLP 领域的科学家,能够成为国际 NLP 顶会的重要参与者?我们也许可以从百度早期的战略布局中找到线索。

早在十年前,百度就已经在 ACL 大会上留下了中国互联网企业的身影。彼时,第三次人工智能浪潮还没有掀起太多波澜,李世石和 AlphaGo 的里程碑式对弈还有六年才会发生。

今年正值百度 NLP 的第十个年头,我们回顾一下过去十年的路程,看看以百度为代表的中国企业如何凭借对整个领域的洞察在 NLP 领先布局、持续投入前沿技术研究及产业实践,这对于当下提升科技竞争力以及如何在行业发展早期做好战略布局仍具有借鉴意义。

百度与 ACL 的十年交集

2010 年,百度进入创建之后的第二个十年,中国互联网也进入了高速发展期。

当时,百度已经积累了大量的数据和用户群体,有着丰富的应用场景可以挖掘。对于需要大量真实数据并希望自己的成果服务广大用户的研究者来说,百度的这些特质有着强大的吸引力。于是,在这一年,百度迎来了 NLP 领域知名科学家——王海峰博士。

十年育林,百度NLP已枝繁叶茂

 

王海峰本硕博都毕业于哈工大,早在博士期间就做过将神经网络引入机器翻译的研究。进入百度之前,他曾先后就职于微软中国研究院、东芝等,并与 ACL 结缘,2004 年开始在 ACL 上发表论文,2006 年曾有 5 篇论文被收录。

除了海量的数据、丰富的应用场景之外,真正让王海峰下定决心加盟百度的契机其实是 2009 年 8 月的“百度世界大会”。

与以往三届不同,2009 年百度世界大会给人的感觉是格外具有技术味道。李彦宏在这届大会上推出了全新计算平台 “框计算”——用户只要在”百度框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。

从这次大会中,王海峰看到了百度对 AI 技术的重视和谋划。他敏锐地判断出,如果百度沿着“框计算” 的思路进一步发展,就需要更强大的自然语言处理技术的支撑,尤其是语言分析、语义理解、知识图谱等方向。

2010 年,进入百度之后,王海峰所做的第一件事就是成立了“自然语言处理部”。

在此之前,百度在 NLP 方面的研发工作一直在业务需求下进行,并没有构成体系。NLP 部门的成立改变了这种 “指哪儿打哪儿” 的局面,对原有的工作进行了重新梳理与规划,除分词、专名识别、query 需求分析、query 改写等传统方向得到加强外,也逐步建设了机器翻译、机器学习、语义理解、智能交互、深度问答、篇章理解等新的技术方向。

也是在这一年,王海峰敲定了百度在知识图谱技术上的研发投入,而当时,知识图谱还不是一个热门的研究方向。

扎实的技术背景和丰富的行业经验赋予了王海峰在 NLP 领域强大的背书能力。因此,他的加入进一步提升了百度的人才吸引力,帮助百度招揽了以吴华博士为代表的一大批技术骨干。

吴华博士在人工智能领域浸润 20 余年,专注于自然语言处理。据统计,她在机器翻译及自然语言处理领域授权或公开的专利申请有 100 余项,发表学术论文 60 余篇。

随着技术骨干的加入,百度开始在 NLP 领域的国际顶会中崭露头角。2010 年,王海峰、吴华的一篇论文被 ACL 录用,百度也成为参加这个国际顶会的首个中国互联网企业。

在这之后的十年里,百度几乎每年都会在 ACL 上展示最新的研究成果,成为这一国际大会的重要参与者。同时,在王海峰等人的不断努力下,中国研究者在 ACL 上的影响力不断扩大,开始拥有更多的话语权。

2013 年,王海峰出任 ACL 五十年来首位华人主席。

在王海峰等人的共同推动下,2015 年,ACL 首次在中国举办,体现了国际学界对中国自然语言处理研究的重视和认可。

十年育林,百度NLP已枝繁叶茂

 

2018 年,在第 56 届 ACL 年会开幕式上,时任 ACL 主席 Marti Hearst 宣布创建亚太区域分会(AACL)并计划在 2020 年举行首次会议。之后每两年举行一次会议,会议地点将设置在亚太地区,由王海峰担任 AACL 创始主席。

2020 年,百度 11 篇论文被 ACL 收录,覆盖了语义表示、情感分析、自动摘要、对话系统、机器翻译、知识推理、AI 辅助临床诊断等诸多热点与前沿研究方向。同时,百度联合谷歌、Facebook、清华大学等全球顶尖机构共同举办了首届同声传译研讨会,就 ERNIE 核心技术、开放域人机对话技术、智慧医疗、生物医药等业内关注的话题做了演讲,展现了中国企业在 NLP 及 AI 领域的技术创新与产业实践。

如果将十年前的百度 NLP 比喻成一片苗圃,那么,经过十年的浇灌,这片苗圃已然成林。王海峰等人的贡献在于,他们很早就选到了优质的树苗并悉心培育。

从今年百度被 ACL 接收的论文以及最近公布的研究进展中,我们可以看到这种前瞻视野和布局带来的丰硕成果。

从 ACL、百度看 NLP 十年研究趋势

如果仔细观察近几年的 ACL 接收论文和百度公布的研究成果,我们不难发现 NLP 领域的几个研究趋势,包括 1)越来越多的研究者将知识融入到 NLP 模型中,以提高模型的理解和推理能力;2)多模态语义理解越来越受关注,同时在视频网站电商物流、自动驾驶等领域得到广泛应用……

将知识融入 NLP 模型

语言和知识促进了人类文明的发展。人们从大量的数据和信息中获取知识,语言是凝炼和传承知识的载体,进而又将知识应用于生产生活的方方面面。早在十年前,王海峰就敏锐地觉察到知识的重要性,开始布局知识图谱技术并逐渐加大研发投入。百度将多源异构的海量互联网信息汇聚在一起,从中挖掘知识、构建大规模图谱。而当时,知识图谱对于大多数人来说还比较陌生。

2014 至 2017 年间,基于互联网大数据和搜索应用,百度知识图谱技术发展非常迅速。2016 年,百度构建了全球最大的知识图谱,拥有数亿实体、数千亿事实。2017 年,基于知识图谱技术突破和产业化应用,百度 “知识图谱技术及应用” 项目获得“中国电子学会科技进步一等奖”。

此后,面向实际应用场景,百度系统地拓展了多源异构知识图谱的研发与应用。针对不同的应用场景和知识形态,构建了关注点图谱、事件图谱、多媒体图谱、行业知识图谱等多种图谱。从认知深度、信息宽度和领域广度多维度对实体图谱进行了系统性的拓展和升级。在领域广度方面,则从通用领域拓展到涵盖医疗、法律等行业在内的具有强知识性的专业领域。

特别地,在医疗领域,基于知识图谱技术的辅助医疗决策等产品目前已在全国 300 多家医院、1500 多家基层医疗机构规模化落地应用。相关产品荣获 2019 年全国医疗人工智能应用创新奖。2019 年 7 月,在百度开发者大会上首次发布了“行业知识图谱平台”,整合知识图谱构建、存储、问答、推理等技术能力,为行业知识的获取与应用提供一体化解决方案。

此外,早在 2011 年,百度就着手研究基于知识的语言解析。2012 年,百度研发了基于海量数据训练的神经网络深度语义匹配框架——SimNet。该框架率先将语义表示与匹配计算统一在一个端到端的神经网络模型里,并结合中文语言特性融合了多粒度知识,支持千亿规模真实搜索点击数据训练。

去年,百度先后发布了知识增强的语义表示模型 ERNIE 和持续学习语义理解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在国际权威的通用语言理解评估基准 GLUE 上首次突破 90 大关,超越人类三个点,获得全球第一。今年 3 月,在全球最大规模的国际语义评测 SemEval 上,ERNIE 获得 5 项世界冠军。在刚刚落下帷幕的世界人工智能大会,百度文心(ERNIE)知识增强语义理解技术与平台获得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。

十年育林,百度NLP已枝繁叶茂

 

这些突破的取得,都离不开百度在相关方向上的前瞻布局和持续投入。

多模态语义理解

多模态语义理解是解决复杂场景智能化应用的关键技术,近年来备受关注。

2010 年左右,科技产业处在迅速的变化之中,人们对信息媒介的需求已不仅仅局限于文字,而是向语音、图像等多个方向扩展。于是,几乎在成立 NLP 部门的同一时期,王海峰就已开始着手布局语音技术和视觉技术,牵头组建了当时的“多媒体部”。

这一决定是非常具有前瞻性的。因为当时,除了与搜索强相关的 NLP 业务,早期百度并没有太多相关的智能技术需求。在多媒体部成立的初期,很多人也不知道这些技术有什么用。

凭借在语音、视觉、语言与知识等领域多年的技术积累与融合,2018 年百度发布了以 “多模态深度语义理解” 为核心的百度大脑 3.0。百度大脑是百度 AI 核心技术引擎,包括视觉、语音、自然语言处理、知识图谱、深度学习等 AI 核心技术和 AI 开放平台。如今,百度大脑已经向所有开发者开放了 260 多项 AI 能力,其中包括机器同传、拍照翻译、文档解析、图文审核、视频分类、对话情绪识别、图文转视频等融合文本与语音、视觉技术的能力。

今年,百度在多模态语义理解上取得新突破,提出了知识增强的视觉 - 语言预训练模型 ERNIE-ViL。ERNIE-ViL 首次将场景图知识融入多模态预训练, 刷新了 5 项多模态任务纪录,并登顶权威榜单 VCR。

除了这些之外,近年来,百度 NLP 还在语义计算、阅读理解、多轮对话、机器翻译、开放平台与数据等方向取得了突破性进展,并实现了大规模产业化应用。

对比百度所取得的 NLP 技术成果和 ACL 十年来的研究趋势,我们可以发现,这家公司对于 NLP 研究趋势的把握是非常精准的,而这些都得益于王海峰等领军人物对该领域的长期洞察。

正如非洲经济学家 Dambisa Moyo 在一本书里所提到的,“种一棵树,最好的时间是十年前,其次是现在”。在 NLP 领域,百度既没有错过十年前的黄金 “种植期”,也没有在十年的每一个“现在” 里松懈。尊重技术的发展规律,敏锐把握产业需求变迁,持续、坚定的投入,百度当年种下的一棵棵 NLP“小树”已经长成一片树林,而且还在不断生长出新的树苗。

在王海峰、吴华等研究者的带领下,我们有理由期待百度 NLP 的下一个十年。

 



Tags:百度   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
IT之家 12 月 23 日消息,百度地图今日宣布,第二代车道级导航正式上线。据介绍,百度地图第二代车道借助北斗 + 5G,在实现全程车道级导航效果的基础上,全面升级最优车道推荐、全 /...【详细内容】
2021-12-24  Tags: 百度  点击:(11)  评论:(0)  加入收藏
IT之家 12 月 20 日消息,百度网盘青春版 iOS 客户端今日晚间率先开启内测,安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版,需要先下载 TestFlight...【详细内容】
2021-12-21  Tags: 百度  点击:(10)  评论:(0)  加入收藏
之前我们讲到说,有些网站在复制的时候会提示一个弹窗,我们可以去掉网站的copy事件监听就可以了,但是我们经常用到的一个网站,百度文库,网站不是这样设计的。 可以随便打开一个百...【详细内容】
2021-12-03  Tags: 百度  点击:(9)  评论:(0)  加入收藏
图片来源@视觉中国文 | 一刻商业,作者 | 云梦泽,编辑 | 于沐沉寂已久的百度贴吧又受到了关注。不过,此次引发讨论的却是“百度贴吧用户流失近九成”的话题。根据易观千帆公布数...【详细内容】
2021-11-10  Tags: 百度  点击:(22)  评论:(0)  加入收藏
《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的是一个由百度开源的低代码前端框架——amis...【详细内容】
2021-11-05  Tags: 百度  点击:(68)  评论:(0)  加入收藏
很多新手站长容易出现网站标题修改后,百度快照迟迟不见更新,这种情况应该如何操作?对于不同的网站,搜索引擎的反应速度不太一样,很多网站在修改标题或者内容标题后,收录显示于本身...【详细内容】
2021-10-27  Tags: 百度  点击:(31)  评论:(0)  加入收藏
最权威的学术名词搜索工具,科研更专业! 写科研论文或者其他工作、学习上的素材,需要对一些名词做严谨的解释、使用或者了解,网络上鱼龙混杂,万一遇上个“半桶水”,可是要出洋相的...【详细内容】
2021-10-27  Tags: 百度  点击:(20)  评论:(0)  加入收藏
从开始分享软件工具到现在,询问百度网盘名不限速下载的问题就没有间断过,看来大家也是苦百度网盘已久,本文咱们就分享一下百度网盘不限速下载的方法。 文章比较长,实际上操作...【详细内容】
2021-10-25  Tags: 百度  点击:(526)  评论:(0)  加入收藏
在SEO优化的职业里,运用搜索引擎对网页内容的检索原理,对网站内部外部资源进行优化整合,然后到达抱负的作用,便利客户快速找到想要的信息。在分类上也可分白帽SEO和黑帽SEO。一...【详细内容】
2021-10-22  Tags: 百度  点击:(36)  评论:(0)  加入收藏
霸屏通俗来讲就是霸占屏幕,百度霸屏就是在百度搜索的结果中,除了竞价内容,剩下的都是我们品牌词或网站的内容。以用户的搜索习惯来说,一般翻两三页就不会再继续翻下去了。所以我...【详细内容】
2021-10-22  Tags: 百度  点击:(50)  评论:(0)  加入收藏
▌简易百科推荐
就公安部单独制定新的部门规章《道路交通安全违法行为记分管理办法》并于2022年4月1日起实施,公安部交通管理局李江平局长今天(2021年12月27日)向记者进行了详细解答。李江平...【详细内容】
2021-12-27    北京日报客户端  Tags:交通违法   点击:(7)  评论:(0)  加入收藏
为打造清朗的网络生态环境,营造安全、健康、绿色的网络空间,更好维护MCN的正常运营秩序。今日头条将加强对MCN机构的管理,保障创作环境与用户体验,管理MCN机构帐号在平台相关行...【详细内容】
2021-12-24    头条安全中心  Tags:今日头条   点击:(9)  评论:(0)  加入收藏
人力资源社会保障部、民政部、退役军人事务部、全国总工会、全国工商联五部门联合开展的“2021年金秋招聘月活动”正式启动啦具体有哪些活动?一起来看...【详细内容】
2021-12-24  人力资源和社会保障部    Tags:金秋招聘   点击:(5)  评论:(0)  加入收藏
有一种天体既是彗星,又是小行星。 艺术家描绘的“法厄同”。NASA / JPL-Caltech / IPAC每年12月中旬是双子座流星雨的爆发期。2021年的双子座流星雨极大期出现在北京时间12月...【详细内容】
2021-12-14  星空天文    Tags:流星雨   点击:(15)  评论:(0)  加入收藏
中国人民银行决定于2021年12月15日下调金融机构存款准备金率0.5个百分点(不含已执行5%存款准备金率的金融机构)。本次下调后,金融机构加权平均存款准备金率为8.4%。中国人民银行...【详细内容】
2021-12-07    中国人民银行  Tags:存款准备金率   点击:(18)  评论:(0)  加入收藏
新京报快讯 据支付宝微信公众号消息,在开放共享和安全有序的原则下,支付宝与中国银联携手加速推进互联互通。最新的工作进展如下:支付宝与中国银联在2020年开始基于条码互联互...【详细内容】
2021-12-03    新京报  Tags:支付宝   点击:(17)  评论:(0)  加入收藏
今起,进返京有新政,航班、铁路、公路具体实施方案如下—— 进返京人员,须持48小时内核酸检测阴性证明和“北京健康宝”绿码。48小时怎么界定?阴性证明的形式有无要求?...【详细内容】
2021-11-17    北京日报  Tags:   点击:(69)  评论:(0)  加入收藏
今天(9日),北京市小客车指标调控管理办公室公布“配置指标申请、京牌小客车变更或转移登记申请的资格审核结果的通告”。按照《北京市小客车数量调控暂行规定》实施细则(20...【详细内容】
2021-11-10    北京日报  Tags:小客车摇号   点击:(16)  评论:(0)  加入收藏
一月一度的汽车销量排行榜,近日正式出炉。虽然受到芯片短缺等因素的影响,许多车企的产量都有所下降,部分车型的价格有所上涨,但是在10月份的销量排行榜中,许多车型依旧获得了不...【详细内容】
2021-11-10  汽车资讯库    Tags:汽车   点击:(59)  评论:(0)  加入收藏
随着交易和会员规则的落地,北交所7件基本业务规则已全部发布,市场开市运行的基础制度准备完成。根据安排,北交所开市后,新三板精选层的公司将整体平移进入北交所,成为交易所的上...【详细内容】
2021-11-05  米多课堂    Tags:北交所   点击:(24)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条