搜狐科技《思想大爆炸-对话科学家》栏目第42期,对话清华大学计算机系教授,清华大学人工智能研究院智能机器人中心主任孙富春。
嘉宾简介:
孙富春,清华大学计算机科学与技术系教授,博士生导师,清华大学人工智能研究院智能机器人中心主任,IEEE/CAAI/CAA Fellow,国家杰出青年基金获得者。同时担任国家重点研发计划机器人总体专家组成员,中国人工智能学会副理事长,中国自动化学会和中国认知科学学会常务理事,并兼任多个国际刊物主编。
出品 | 搜狐科技
作者 | 梁昌均
“人形机器人跟人相比,现在也就两三岁的水平,还处于幼崽时期。”谈及目前机器人的发展水平,清华大学教授、人工智能研究院智能机器人中心主任孙富春对搜狐科技表示。
今年以来,在AI大模型加持下,机器人也成为市场热点。特斯拉多次公布人形机器人Optimus进展,从浇花到瑜伽表演,其运动、平衡能力越来越强。另外,机器人创投市场也保持活跃。
孙富春表示,可以把机器人看作是机器+人。在机器本体方面,传感器技术、执行器技术等发展非常快,也使机器人机构的自平衡和协调能力大大提高。人的方面主要就是AI技术,而大模型发展恰恰为机器人增加了一个聪明的脑袋。
在这波机器人热潮中,人形机器人尤其受到追捧。华为前天才少年稚晖君投身创业,小鹏、科大讯飞等公司近日也披露了人形机器人的进展。
对此孙富春认为,我们的生活和工作环境主要是为人设计的,如果机器在形体、行为等方面和人接近,那么它会更容易在人的工作生活环境中取代人去做更多事情。另外,人总是喜欢跟同类去交流,如果机器人做得像人一样逼真,就更加容易跟人去交互。
不过,孙富春表示,现在人形机器人跟人之间还存在很多差别,比如人有灵感,有顿悟的能力,而机器人还是利用编程和设计去做事情,即便是大模型,也还是利用人类知识与智能算法去推理和学习。同时,现在机器人的躯体和四肢是通过电机控制,灵巧性、适应性等跟人差距也很大。
因此在孙富春看来,目前人形机器人仅相当于人两三岁的水平,要想达到人类成年的水平,可能还需要很多年的努力。
此外,随着大模型的兴起,人形机器人也在朝着通用的方向发展。“大模型能提高机器人的交互能力、多模态融合感知与任务规划能力,能让机器人实现多任务,进而实现通用化。”孙富春表示。
不过,这还需要做很多研究。比如大模型与知识图谱结合,提高机器人的推理能力,与扩散模型的结合,提高机器人的跨模态感知能力,以及如何通过具身优化让机器人能够适应具体的场景等。在10月26日开幕的中国计算机大会上,孙富春作为具身智能研讨会共同主席,将就此展开更多探讨。
这也意味着,人形机器人的规模化应用还有距离。孙富春认为,迎宾服务、工业巡检、生产线上的自主作业等领域会较快落地,而家庭场景会相对较慢。“这类机器人的成本比较高,它应对一些场景的适应能力还不够强,还需进一步研究开发。”
虽然目前机器人取代人的很多工作还很困难,但如AI一样,机器人的发展也引发了不少人对失业的担忧。“大模型跟机器人的结合,可能会取代很多人类做的事情。我个人认为,15年到20年时间,80%的人工劳动会被机器人取代。”孙富春判断。
同时,他强调,未来机器人的发展也要关注伦理安全和治理问题,需要兼顾阿西莫夫的机器人三定律和AI原则。“我们不应该让机器人去控制人,必须把这种情况消灭在摇篮里。”
以下为对话实录(经编辑整理)
搜狐科技:现在经常把ChatGPT称为对话机器人,这个说法有问题吗?智能机器人到底如何定义?
孙富春:中国机械工业部在1986年定义机器人为“一种能自动定位控制、可重复编程的、多功能、多自由度的操作机。它能搬运材料、零件或夹持工具,用以完成各种作业。根据国家机械工业部的定义,那时机器人更多体现的是机器,能执行搬运、操作、定位、导航等能力。机器人与人工智能相结合,人工智能程序将实现机器人的感觉(Sensing)、思考(Thinking)与行动(Action)。我们将具备感觉、思考和行动的机器人称为智能机器人。
搜狐科技:特斯拉Optimus披露新进展引发关注,创业者、资本也在进入,您怎么看目前机器人的发展?
孙富春:可以把人形机器人分为人形机器+人两方面。在机器本体方面,要有很好的躯体,手脚要灵巧,眼睛要看得远,相关的传感器技术、执行器技术,这几年发展非常快。人的方面主要就是AI技术,而大模型恰恰为机器人增加了一个聪明的脑袋。这两者结合在一起,才引起大家高度关注。
搜狐科技:从您说的感知、思考、行动三个层面来看,大模型对机器人能带来哪些提升?
孙富春:大模型能提高机器人的交互能力、多模态融合感知与任务规划能力。它改变了传统机器人就事论事的做事方式,就是针对具体的场景、具体的任务,需要用具体的算法去实现,很难做到通用。但大模型能让机器人实现多任务,进而迈向实现通用化。
这具体怎么做?首先在数学上,把分离的传感器投影到标准空间。其次在物理上,要形成从数据空间、特征空间,再到概念空间、知识空间的映射,实现感知模组的标准化。此外,还需研究基于形态的进化学习,实现工具集的合理调度,这些都需要与物理世界进行交互。
第三要建立知识库,通过知识去学习。大模型带来的是一种范式的改变,就是知识+数据+反馈。一方面机器人要向人学习,即模仿学习,另一方面也需要偏好学习,学习特定的人做事情的技巧和方法。
此外,还需要具身优化,让机器人能够适应具体的场景。通过这些过程来实现大模型的通用化,这是未来要做的工作,而大模型恰恰为机器人面向场景的通用化应用奠定了基础。
搜狐科技:波士顿动力、特斯拉,国内有企业都在做人形机器人,为什么它会受到追捧?
孙富春:我们特别期盼机器人像人一样,为什么?第一,人总是喜欢跟同类去交流,如果机器人跟人一样逼真,就更加容易跟人去交互,特别是情感层面,包括意图理解等。
第二,人所处的环境都是按照人的行为习惯设计的,如果机器人像人一样,就更能像人一样去做更多的事情。所以最好让机器人在形体、行为等方面和人更接近,那么它会更容易在人的工作生活环境中取代人去做更多事情。
搜狐科技:随着大模型带来AGI的曙光,业内也提出通用机器人,有观点认为,人形机器人是通用机器人的终极形态,您怎么看?
孙富春:通用机器人的外观形态是否像人,不是最重要的。更重要的是,机器人的信息处理层能够有自我认知和环境理解,极少量的成本可以实现功能迁移,功能上是否具有好的扩展性。变形金刚在需要快速运动的时候就是车的形态,在需要战斗的时候就是人形。
通用机器人应该可以根据任务需求调整自己,可以是像变形金刚一样的硬件结构重构,也可以像人调整脑补的神经元连接一样调整软件系统的功能重构。通用机器人在综合能力或智慧方面,人类可能是它的终极,但从行为层面来看这个观点有问题。比如在某些行为方面最好的是动物,而不是人。
搜狐科技:如果是以人来作为参照对象,人形机器人现在达到什么水平?
孙富春:目前机器人和人之间差距还很大。从硬件结构方面,人通过大量的肌肉纤维来控制骨骼运动,骨骼的形态是人在逐渐进化的过程不断修正完善的。而目前的人形机器人往往都是电机控制的连杆,运动的柔顺性方面较差。从决策层面,人有灵感,有顿悟的能力,而机器人更多还是利用编程和设计去做事情,即便是大模型,也还是利用人类知识与智能算法去推理和学习。
从能耗方面,人和动物等生物的能耗比是非常高,但是现阶段机器人的能量系统在许多方面也制约了其应用。此外,机器人目前可以具有识别物体的能力,但是上下文推理能力仍是其短板,跟人相比,现在也就两三岁的水平,还处于幼崽时期。
搜狐科技:人形机器人现在只有两三岁的水平,要达到10岁或者成年的水平,还需要多久?
孙富春:按目前趋势发展,我觉得20年能见到雏形,50年左右我觉得应该差不多。像AI一样,机器现在也是在按照人的思路在进化去学习。但很多关键技术还没有突破,比如类似肌肉纤维控制关节的高效驱动技术,还需要深入研究。
搜狐科技:现在特斯拉的人形机器人去浇花或跳舞,感觉还是比较笨拙,这需要从哪些方面去解决?
孙富春:这一方面要提高机器本身的机械结构,提升机构的自平衡和协调能能力。另一方面,要模仿学习,向人学习,学习人的操作技能,比如学习护工浇花,把浇花的行为变成知识,建立场景库、技能库和基元库,通过技能的认知学习,就能达到人的灵巧度,这个也是我团队目前在做的事情。
搜狐科技:波士顿动力或特斯拉现在只是放了演示视频,人形机器人还在概念阶段,什么时候能够大规模应用?
孙富春:还有很长的路要走。我觉得现在人形机器人最佳的发展途径就是,推动科研工作同产业结合。一方面突破人形机器人的主要关键技术;另一方面要推动落地,逐渐形成新的产业。
搜狐科技:工业领域已有机器人取代了枯燥重复的工作,酒店、餐饮也出现了服务机器人,人形机器人会在哪些领域落地比较快?
孙富春:未来落地比较快的领域包括:服务迎宾、工业巡查、生产线的人工替代装配作业等。巡检有些场景比较危险,用移动机器人可能会更好,在公路上用轮子去运动,在崎岖不平的地方用腿去运动。
搜狐科技:相较工业和商业场景,家庭场景的机器人还比较少见,为什它落地比较慢?
孙富春:工业和商业场景,从任务来讲,是相对确定性,如巡检。从环境上来讲,结构化程度更好。从法律责任方面,也相对清晰。与工业和商业场景相比,家庭场景下的机器人的功能需求非常复杂。
比如,家务劳动服务机器人需要完成洗碗、扫地、做饭、整理等,这些任务千差万别,家庭环境也千差万别。这些任务至少是确定性任务,但家庭场景中有更为复杂的任务,比如老人陪护,需要考虑老人的健康状态、心情,需要聊天、辅助生活等。从技术角度,机器人的本体设计要求灵活、安全,制造成本低;从软件决策层面,需要具有良好的环境理解能力,根据环境状态自适应调整决策方案。
搜狐科技:现在很多人认为AI、机器人会给人带来生存危机,您认为机器人会造成人的大面积失业吗?
孙富春:现在机器人完全取代人的很多工作还很困难,但大模型跟机器人的结合,可能会取代很多人类做的事情。我个人认为,15年到20年时间,80%的人工劳动会被机器人取代。不会被取代的20%,比如创造性工作、科学研究、生命健康等层面仍然需要人,也需要人和机器的合作。另外,对机器的监管也需要人。
随着AI、机器人技术的发展,行业更新速度加快。虽然老行业消失,但会诞生新行业,而且新行业越来越关注人本主义,就是以人为中心的服务。某些行业可能很快被机器取代,那么我们要构造新的就业场景,这需要政府和市场结合去解决这些问题。
搜狐科技:目前在机器人发展过程中,您认为有哪些问题值得关注?阿西莫夫的机器人三定律现还是适用的吗?
孙富春:机器人发展也要关注伦理安全,包括治理问题。它既会涉及机器人三定律,还要兼顾人工智能的三个原则,目的性原则,是要让机器人增强人、服务人和扩展人的能力,而不是取代人;透明性原则,人工智能系统用哪些算法,用哪些数据训练,我们必须知道。此外,我们希望AI系统在人的回路中。机器人未来的发展也要考虑AI的这些原则。
搜狐科技:很多科幻电影中机器人都有自主意识,这会成为现实吗?会出现机器人控制人的情况吗?
孙富春:我认为总有一天会,这不是乐观,而是肯定避免不了。现在机器人是硅基系统,它也可能具有生命。但我们不应该让它去控制人,必须把这种情况消灭在摇篮里。
第二十届中国计算机大会(CNCC2023)将于2023年10月26-28日在沈阳举行,会议以“发展数字基础设施,支撑数字中国建设”为主题,展望前沿趋势,分享创新成果。本届大会共设19个特邀报告、3场大会论坛,130场技术论坛和丰富的活动及展览展示,ACM、IEEE CS、IPSJ、KIISE等国际合作学会的代表将出席这一盛会,线下参会人员预计达到万人规模。