人工智能以过去无法想象的效率
推动科研的进展,但能否
带来新的科学革命,仍有待观察
近日,上海人工智能实验室及其他几家科研机构联合发布全球中期天气预报大模型“风乌”。基于再分析数据验证表明,“风乌”比传统物理模型的10天预报误差降低了19.4%。
全球中期天气预报以预测未来14天内天气状态为目标。此前有研究表明,因为大气系统中物理过程的复杂性,及求解大气模型所需资源规模巨大,全球中期天气预报的有效性每10年才提高1天。
上海人工智能实验室科学家白磊在回复《中国新闻周刊》的采访中介绍,“风乌”将全球中期气象预报任务建模为一个多模态、多任务学习的问题,并以此为基础来设计人工智能的预报方法。基于回溯预报表明,“风乌”的性能超过了世界著名人工智能公司DeepMind最新发布的模型,并突破性达到了10.75天的可用预报性能。
用人工智能算法建模全球大气系统,只是AI for Science(人工智能驱动的科学研究)的应用之一。在很多领域,AI正以较以往数倍甚至数万倍的效率,改变多学科的研究。受访科学家们指出,现代科学日益复杂化,而AI相关技术近年来有了快速突破,使得AI for Science成为国际科研的一个前沿方向。
3月末,科技部、自然科学基金委联合启动“AI for Science”专项部署工作。科技部有关负责人表示,中国在人工智能技术、科研数据和算力资源等方面有良好基础,需要进一步加强系统布局和统筹指导,以促进人工智能与科学研究深度融合、推动资源开放汇聚、提升相关创新能力。
“从蛋白质结构预测到气候系统建模,从引力波探测到理解宇宙,人工智能对科学探索的长期影响才刚刚开始。”数据科学领域知名的机构Dataconomy在2022年11月的一篇文章中写道。
过去完全无法想象的效率
处理数据的方式会改变科学研究的行为,中国科学院物理研究所研究员刘淼对此感受很深。作为一名材料科学家,他说,10多年前他读博期间,完成三四个材料的研究就算顺利。如今,基于人工智能、超级计算等技术的进步,在几十万种可能性中筛选甚至预测不同元素组成的材料,判断其材料属性,不必再一个一个去计算、做实验,只需点几下鼠标。
刘淼说,5年前,包括他在内的一些科学家预判,随着技术的进步,材料学的下一步,不应仅仅盯着个别材料去进行计算、验证,而是运用数据帮助科学研究。他所在团队开发了一个叫作“Atomly”的材料数据库,包括30余万个无机晶体材料的数据。
他介绍,几乎自然界所有物质的属性,都是电子的某种行为。早至1960年代,学界已经发现,可以通过求解量子力学方程的方式,计算电子的行为,预测材料性质。得益于超级计算机带来的算力提升,对材料的计算大大加快,这些奠定了“Atomly”的数据基础;此外,数据库里很多无机晶体材料的结构是先利用人工智能模型进行预测,有了初步判断后才进入下一步的精确计算。
有了强大数据库及高通量计算,刘淼说,任何一组元素组合中,科学家都可以快速搜索可能的新化合物,并预知其物理性质。在“Atomly”数据库,如果点击氧和钛两个元素,就会出现280种两个元素可能构成的化合物。如果点击其中一个,就能进一步看到其原子空间排列结构、介电性、力学性能等具体数据。如果有学者想在这种化合物中找寻一种材料,可以先看这些指标、性质,再进行下一步研究。
这种效率提升之大,他形容,好像以前寻找理想的材料是钓鱼,如今是“撒了网,一下子把鱼都捞上来那种感觉”。
今年3月8日,来自美国罗彻斯特大学的助理教授兰加·迪亚斯宣称,该团队发现了一种由氢、氮和一种名为镥的稀土元素混合制成的材料,可以在21℃和大约1GPa(约等于一万个标准大气压)的压力下实现室温超导电性。这一成果当时在圈内外引起很大轰动。
为了验证这一结果,刘淼团队3月9日就快速地开展了计算。利用前述数据库,他们用了不到一周时间就计算出1500多个化合物,3月21日就提交了论文,结果发现氢-氮-镥无法形成稳定的三元化合物。也就是说,该室温超导论文结果有待商榷。刘淼说,这是过去完全不敢想象的速度。
2022年末,一篇发表在《The Gradient》杂志上的文章写道,预测蛋白质折叠,寻找新的超导体材料、疫苗或任何其他满足特定需求的材料时,它们背后的母科学都是化学。该杂志于2017年成立,创办者为美国斯坦福大学AI实验室的一群学生和研究人员。
传统上,化学研究通常在配有试管、烧瓶的实验室中完成。这篇文章写道,随着当前人工智能、以数据为中心的技术进步及数据量不断增长,我们可能正目睹一种变化:计算方法不仅用于协助实验,还用于指导实验。
不仅如此,AI还能成为实打实的“化学家”。比如,2020年7月,英国利物浦大学的研究人员开发了一款人工智能机器人(12.590, -0.51, -3.89%)化学家。这款机器具有人形特征,可以在标准实验室中独立工作,像人类一样使用各种实验仪器。首次测试中,这个1.75米高的AI机器人8天里独立完成了668个实验,并研发出了一种全新的化学催化剂。这一成果当时以封面文章形式发表在《自然》杂志上。
在药物研发领域,AI崛起带动了一批AI制药公司的兴起。咨询公司麦肯锡估计,全球有近270家公司致力于AI驱动的药物发现。
2014年,三位在麻省理工学院从事量子物理学方向研究的博士后在深圳创立了晶泰科技公司。创始人温书豪告诉《中国新闻周刊》,AI可以在大小分子药物发现、药物自动化合成等多个环节提升效率。比如,AI机器人可以用算法将400台机器连接在一起,同时开展实验,每小时就能探索几千种反应条件,筛选催化剂,可以24小时无间断完成标准化的实验操作和数据收集分析。它的效率是并发式的、规模化的,人类实验员难以做到。
新冠疫情中大放异彩的口服抗病毒特效药Paxlovid,其研发过程就有AI的贡献。高纯度、容易结晶的、溶解度好的稳定晶体,是一款药物的重要组成部分。药物结构设计上,Paxlovid就使用了AI平台预测的晶体结构,这一过程只花了六周,大大低于传统方法所需时间。温书豪强调,药物上市时间对于疾病控制和治疗、制药公司的市场优势来说,都举足轻重。
ChatGPT的发布,无疑是今年科技领域最令人兴奋的成果之一,也掀起了新一波AI浪潮。
在中国科学院自动化研究所所长徐波看来,AI for Science、预训练大模型等正在引发新一轮AI创新热潮。如果将“AI for Science”比作一个专业理科生,那么,ChatGPT类似于通才的、文字能力很强的文科生。不过,ChatGPT对于科学研究开展也有很大促进作用。除了帮人们润色论文、撰写摘要等,多位受访者都谈到,ChatGPT还可以对各个学科的文献进行很好归纳、总结,甚至会启发科学研究。
北京大学定量生物学中心研究员裴剑锋接受《中国新闻周刊》采访时指出,过去中国对建立数据体系的重视不足。今后,依靠ChatGPT强大的自然语言处理能力,可以加速相关知识体系和数据库的建立。虽然ChatGPT目前还达不到一个人类专家读文献的水平,但是专业自然语言处理AI的发展,有可能自动完成文献数据摘取和分析等工作,效率比人类高非常多。
徐波也提到,ChatGPT等大模型可以帮助领域内的科学家快速找到其感兴趣的知识、文献和一些关键的实验结果。
人工智能在科学领域的应用不胜枚举。比如,在脑科学领域,据《华尔街日报》4月初的报道,美国科技巨头之一的Meta公司正在开发一个系统来读取人脑中的想法。这是Meta AI实验室一个名为“大脑信号读取”的项目。研究人员利用脑电图和脑磁图两种技术获取数据,让自主监督学习AI工具进行训练,训练数据集包含169名志愿者在听到有声读物和单句时的大脑活动录音。通过近150个小时录音,算法像读心术一样能推断出人们最有可能听到的词。
AI for Science:为什么是现在?
徐波告诉《中国新闻周刊》,科技部“AI for Science”专项部署工作将布局前沿科技研发体系,建立一些面向重大科学问题的人工智能模型与算法,利用人工智能技术带动科学研究的知识发现。这过程中,将建设很多学科都可使用的一些计算平台,这些平台用来跨尺度建模、高精度仿真、微分方程求解等。
科学研究中,AI有多火?一位理论化学背景出身的科学家告诉《中国新闻周刊》,他的导师近来跟他说起,现在哪怕是纯底层、纯基础的科学领域,比如理论化学、理论物理,如果项目申请书里面不提AI,都难以申请到经费。他说,“大家都觉得,AI是个超级工具,如果没有用上,可能对研究的理解深度和效率都会带来影响。”
2022年,在中关村(5.760, -0.09, -1.54%)论坛“AI for Science智能峰会”上,中国科学院院士、北京大学前沿交叉学科研究院执行院长汤超分享了国内这一概念提出的经过。他说,几年前,鄂维南找到他,商量是否可能在北大设立一个学科交叉项目,来探索机器学习在不同科学和工程领域的应用,于是他们为其取了一个名字,叫“AI for Science”。2018年8月,一场有关“AI for Science”的会议在北大召开。鄂维南是中国科学院院士、北京科学智能研究院院长、北京大学国际机器学习研究中心主任。
北京大学定量生物学中心研究员裴剑锋是2018年参会的科学家之一。其研究方向是用计算的方法做药物设计,属于国内最早从事计算机辅助药物设计的学者之一。他告诉《中国新闻周刊》,北大这场会议前,人工智能与科学的结合已有一段时间。
以他所在的交叉学科为例,他说,2012年,国际上已开始有一些关于AI、化学、药物设计相结合的初步摸索。2014年,他所在团队也开始做相关工作,并且在2015年发表了国内第一篇将AI用于药物设计的论文,实际上已经是AI for Science的一种实践。
从2020年开始,AI for Science进入了集中爆发阶段。在国内,已有一些公司致力于开发科学计算平台、科研AI模型等。
如今,AI几乎可以和深度学习画等号,AI的几大领域,包括自然语言处理和计算机视觉(CV)等,都绕不开深度学习。尽管深度学习的基础——人工神经网络在1950年代已经提出,但是,直到近十来年间,高性能的算力和互联网上产生的大量数据,才使得AI领域从业者们能大量训练神经网络,不断拓展机器学习的深度。
另一边,基础科学的发展也亟待一个更强大的工具。上海人工智能实验室领军科学家欧阳万里在接受《中国新闻周刊》采访中谈到,地球科学方向积累了非常多的观测数据,存在大量计算问题。然而,由于地球系统的复杂性,很多方向的机制和原理都还不够清晰。人工智能技术强大的非线性拟合能力和灵活的建模能力,为解决领域中的一些“硬骨头”问题提供了一种新的、强大的工具。比如,大气模拟、地震监测和预测就非常适合使用人工智能来解决。
以上海人工智能实验室发布的“风乌”大模型为例,欧阳万里表示,运用AI模型进行全球中期气象预报,过去受限于算力和高效并行深度学习架构,“其难度是我们在两三年前不敢想象的”,但如今可以取得很好的效果。
AI for Science兴起背后,更重要的是它顺应了现代科学复杂化、交叉化的趋势。徐波指出,依靠科学家人脑思维可以解决的科学问题,很多已经解决了。如今,科学要面对的是生物、物理、化学等基础科学中跨尺度的复杂系统。过去以人作为认知基准的范式需要向更高维度迈进,人工智能在其中将发挥关键作用。
比如,当前在对大脑的研究中,微观尺度上关于每个神经元的结构、功能等具体信息已经研究得比较透彻,宏观上大脑的分区以及不同脑区间的连接机制也已研究得比较清楚。然而,最为复杂的介于微观与宏观之间的尺度上,即这些神经元如何在整体上产生了人类的智能还未得到充分的解答。
2020年3月,中央编制委员会办公室下发文件,批复同意自然科学基金委设立交叉科学部,负责统筹交叉科学领域整体资助政策、组织拟定发展战略等方面的工作。北京大学前沿交叉学科研究院执行院长汤超指出,交叉科学部成立以来的第一个重大研究计划,就是AI for Science方向。
受访学者们指出,AI for Science以前所未有的方式,将不同学科、不同背景研究者们联系在一起,并且进一步弱化了科学和技术的界限。裴剑锋谈到,AI与科学的结合突出了工程技术在科学研究当中的作用,比如AlphaFold能产生科学突破,工程团队在里面起了很大作用。
上海交通大学科学史与科学文化研究院院长李侠曾在采访中指出,从1960年代开始,随着解决的科学问题变得越来越复杂,以及整个科技知识生产条件的变化,科学研究需要更多团队合作。“我觉得小规模自由的科学探索依然非常重要,但是,当面临复杂和较大的科学问题时,大团队紧密的联合攻关,在AI for Science时代可能会成为更常用的方式。”裴剑锋表示。
AI能带来真正的创新吗?
凭借其日益强大的能力,AI已经如此深刻影响着科学的进展。国内AI for Science领域的牵头学者们,比如鄂维南,认为这是“一场正在发生的科技革命”。一个根本性问题是,这种数据驱动的研究方法,会成为一种新的科研范式、带来真正的创新吗?抑或它只会强化已知的理论,甚至阻碍知识边界的突破?
2009年,美国著名理论物理学家、诺贝尔奖获得者菲利普·安德森在《科学》杂志上发表了题为《机器离科学革命还有距离》的文章。他指出,科学实践分为两类,一类是大部分科学家大部分时间都在做的常规科学,它只是在充实、完善已有科学范式的结果;还有一类就是偶尔发生的科学革命,带来新的科学范式。安德森认为,机器也许可以对前者有贡献,但他看不见有任何机制可以让机器来创造一个科学革命。
汤超对此并不十分认同,他认为,AI是否能发现新的科学规律、引发科学革命,是一个很值得探索的问题。他说,AI for Science应该有三个层次的含义。首先就是大家当下在做的事情,即将深度学习用于不同的场景、不同的学科当中,解决的是比较具体的问题,影响比较大,见效也比较快;第二个层次,是利用AI来发现新的科学问题,比如,用大量的行星运动数据来训练AI,AI应该很容易就能预测行星的轨道,以及将来任何时刻行星在轨道上的位置;最后,AI for Science还意味着去探索人工智能背后的科学原理。
在晶泰科技创始人、董事长温书豪看来,AI for Science正呈加速度发展,当技术跨过一个阈值点的时候,可能所使用的科学研究方法、发现问题的方式就和现在不一样了,能为研发工作带来根本上的改变,也带来全新的可能。
中国科学院自动化研究所所长徐波认为,“ChatGPT可能会启发研究人员产生新的、想不到的实验方案及实验步骤等,有时甚至会超出学者的思维定势。”
不过,现实是骨感的,人工智能驱动的科学研究目前依然存在挑战。AI推动科学研究最知名的成果,应当属AlphaFold,该成果不仅让蛋白质结构预测研究走入一个新阶段,也将人们对“AI for Science”的关注推向高潮。
2022年7月,DeepMind公司与欧洲生物信息研究所的合作团队公布,他们利用人工智能系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。在它出现之前,科学家们解析的蛋白结构只覆盖了17%的人类蛋白序列;它出现后,98.5%的人类蛋白的结构已被其预测出来。
然而,以药物研发为例,裴剑锋说,这是一个远比蛋白质结构预测复杂得多的问题。在化学和药学领域,AI正在发挥着重要的作用,但目前还没有诞生AlphaFold这样突破性的里程碑事件。
诸多困难使得AI制药至今面临着成功率低的瓶颈。一位不愿具名的制药界学者告诉《中国新闻周刊》,首先,因为生物体系太复杂,要使用AI模型对其进行模拟,以了解一款药物对人体产生的影响,需要做很多简化,导致很多精度和准确性的丢失。很多药物研发的AI模型,在大规模的数据统计中,并没有产生具有显著统计学意义的结果。
再比如,ChatGPT大模型的成功,一个关键原因是引入了强化学习的机制,对AI的回答进行人类打分,使得它在众多可能的回答中选择那些更加符合人类的预期的答案。然而,在药物研发领域,要判断一个分子的优劣,情况要复杂得多。今年年初,水木未来CEO郭春龙在接受媒体采访时曾说过,不像ChatGPT的强化学习,给一个蛋白质的序列加上标签,往往需要大量的实验,成本要高很多。
数据是更加严峻的限制。前述制药界科学家指出,即使是一个大型药厂积累几十年的数据,对一个AI大数据模型来说,数据量还是不足的。因为化合物种类太广了,大约是10的200次方,即便人类能积累100亿个数据,也只是10的10次方,相较之下简直是“九牛一毛”,严重不足的数据使得AI制药模型的泛化能力受到很大限制。
今年的一场论坛上,创新药物研发平台百图生科副总裁瞿佳润谈到,相比起算力和算法,在AI for Science中,最重要的挑战还是数据,尤其是在生物行业。AI只是一个工具上的变化,并不能扭转一些本质上的问题。
中国科学院物理研究所研究员刘淼也强调,就拿他所在的材料科学领域来说,现在业界开展材料数据研发的机构很多,但多数都是基于一些公有的数据集,并没有自己的核心竞争力。
就在4月18日,AI制药先驱公司Relay Therapeutics披露了其抗肿瘤抑制剂RLY-2608的初步临床数据。从这款药物的初步临床数据来看,其安全性比较有优势,但疗效远未达到预期,16例受试患者仅1例有阳性结果,导致其股价一天大跌36%。
不管效率如何提升,业内达成共识的是,AI不会取代科学家。正如温书豪所说,伟大的数学家会问为什么1+1=2,然而AI不会。AI会成为超级工具,会帮助人类记住无法记住的知识、无法计算的复杂方程,但是,深度的思考和提问的能力,人依然是独特而不可替代的。
今年2月,发表在《自然》网站的《AI如何改变数学》一文中,美国圣塔菲研究所的计算机科学家和认知科学家梅兰妮·米切尔表示,数学家暂时还不会丢饭碗,除非AI的一个主要缺陷能被攻克——即它们还无法从具体信息中提取抽象概念。“AI系统或许能证明定理,但你首先要提出这些定理背后有意思的抽象数学概念,这比证明定理难多了。”
记者:彭丹妮