大模型加持的机器人有多强，MIT CSAIL&IAIFI指导机器人抓取物体

时间：2023-08-21 11:10:53 来源：作者：机器之心Pro

来自 MIT CSAIL 和 IAIFI 的研究者将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。

最近，具身智能成为人工智能领域关注的一个焦点。从斯坦福大学的 VIMA 机器人智能体，到谷歌 DeepMind 推出首个控制机器人的视觉 - 语言 - 动作（VLA）的模型 RT-2，大模型加持的机器人研究备受关注。

当前，自监督和语言监督的图像模型已经包含丰富的世界知识，这对于泛化来说非常重要，但图像特征是二维的。我们知道，机器人任务通常需要对现实世界中三维物体的几何形状有所了解。

基于此，来自 MIT CSAIL 和 IAIFI 的研究者利用蒸馏特征场（Distilled Feature Field，DFF），将准确的 3D 几何图形与来自 2D 基础模型的丰富语义结合起来，让机器人能够利用 2D 基础模型中丰富的视觉和语言先验，完成语言指导的操作。

论文地址：

https://arxiv.org/abs/2308.07931

具体来说，该研究提出了一种用于 6-DOF 抓取和放置的小样本学习方法，并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 - 语言模型 CLIP 中提取的特征，该研究提出了一种通过开放性的自然语言指令对新物体进行操作，并展示了这种方法泛化到未见过的表达和新型物体的能力。

方法介绍

该研究分析了少样本和语言指导的操作，其中需要在没见过类似物体的情况下，给定抓取演示或文本描述，机器人就能拾取新物体。为了实现这一目标，该研究围绕预训练图像嵌入构建了系统，这也是从互联网规模的数据集中学习常识先验的可靠方法。

下图 1 描述了该研究设计的系统：机器人首先使用安装在自拍杆上的 RGB 相机拍摄一系列照片来扫描桌面场景，这些照片用于构建桌面的神经辐射场 (NeRF)。最重要的是，该神经辐射场经过训练不仅可以渲染 RGB 颜色，还可以渲染来自预训练视觉基础模型的图像特征。这会产生一种场景表征，称为蒸馏特征场（DFF），它将 2D 特征图的知识嵌入到 3D 体积中。然后，机器人参考演示和语言指令来抓取用户指定的物体。

该研究的一大亮点是从 CLIP 模型中提取密集的二维特征，来给蒸馏特征场提供监督。此前，OpenAI 的 CLIP 模型仅提供图片尺度的全局特征，而 3D 神经场的生成需要密集的 2D 描述符。

为了解决这个问题，研究团队使用 MaskCLIP 对 CLIP 的视觉模型进行重新参数化，提取 patch 级密集特征。此方法不需要重新训练，可以保证其描述符与语言模型的对齐。

具身智能（embodied intelligence) 囊括机器人，自动驾驶汽车等和物理世界有相互作用的人工智能体。这类智能体需要对物理世界同时进行几何空间和语义的理解来进行决策。

为了实现这样的表征能力，研究团队将视觉基础模型和视觉 - 语言基础模型中经过预训练的二维视觉表征通过可微分的三维渲染，构建为 3D 特征场。团队将这个方法运用在 6-DOF 机器人抓取任务上，这种方法叫作机器人操作特征场（Feature Fields for Robotic Manipulation，F3RM）的方法需要解决三个独立的问题：

首先，如何以合理的速度自动生成场景的特征场；

其次，如何表征和推断 6-DOF 抓取和放置的姿势；

最后，如何结合语言指导来实现开放文本命令。

自然语言提供了一种将机器人操作扩展到开放物体集的方法，为目标物体照片不准确或不可用的情况提供了一种替代方案。在测试时，机器人接收来自用户的开放文本语言查询，其中指定要操作的物体。如下图 3 所示，语言指导的姿势推断过程包括三个步骤：

检索相关演示；

初始化粗略抓取；

语言指导的抓取姿势优化。

实验结果

我们先来看一些机器人抓取的实验效果。例如，使用 F3RM 方法，机器人可以轻松抓取一个螺丝刀工具：

抓取小熊玩偶：

抓取透明杯子和蓝色杯子：

把物体挂放在不同材质的架子上：

F3RM 还可以识别并抓取一些不常见的物体，比如化学领域会用到的量勺、量杯：

为了表明机器人能够利用 2D 基础模型中丰富的视觉和语言先验，并且可以泛化到未见过的新型物体上，该研究还进行了一系列抓取和放置任务的实验，我们来看下实验结果。

从示例中学会抓握

如下图 4 所示，该研究进行了 6-DOF 抓取和放置任务，并为每个任务提供两个演示。为了标记演示，该研究将 NeRF 重建的点云加载到虚拟现实中，并使用手动控制器将夹子移动到所需的姿势（图 2 (a)）。

机器人在抓取和放置任务上的成功率如下表 1 所示：

下图 5 展示了该研究所提方法在未见过的新物体上的泛化情况：

此外，语义特征和详细 3D 几何图形之间的融合提供了一种对密集的堆叠进行建模的方法。例如，在下图 6 (b) 中，毛毛虫玩具被埋在其他玩具下面。图 6 (c) 显示机器人抓住了毛毛虫玩具，并将其从玩具堆的底部拾起。

语言指导的机器人抓取

该研究设置了 13 个桌面场景来研究使用开放文本语言和 CLIP 特征场来指定要操作物体的可行性。

在下图 7 中，机器人在语言指导下成功执行了 5 个抓握。整个场景包含 11 个物体，其中 4 个来自 YCB 物体数据集。

语言指导的操作成功率如下表 2 所示：

作者介绍

William Shen

杨歌

文章的两位共同一作，博士三年级的 William Shen 和博后杨歌是CSAIL 「具身智能」团队的成员（

https://ei.csail.mit.edu/labs.html)。这篇文章的指导老师是 Leslie Kaelbling 和 Phillip Isola. 其中杨歌是 2023 年 CSAIL 具身智能研讨会的共同筹办人。

Tags：机器人点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　Search: 机器人点击:(3)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　Search: 机器人点击:(5)　　评论:(0)　　加入收藏

哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

【新智元导读】OpenAI 机器人理解力虽强，却无法进行非语言交流。最近，哥伦比亚大学华人团队打造了全新的机器人 Emo，不仅可以提前预测和模拟人类表情，还可以进行眼神交流。此前，...【详细内容】

2024-04-01　　Search: 机器人点击:(17)　　评论:(0)　　加入收藏

马斯克：人形机器人成本将不到一辆汽车的一半

特斯拉CEO埃隆·马斯克周二表示，他认为人形机器人的成本最终将不到一辆汽车的一半。马斯克是在回应一位X用户的帖子，该用户写道：“人形机器人的重量还不到汽车的十分之一...【详细内容】

2024-03-27　　Search: 机器人点击:(13)　　评论:(0)　　加入收藏

世界首款人形机器人模型正式亮相，距离真正进入生活还有多久？

央广网北京3月19日消息（记者万玉航）人形机器人正在智能化道路上加速狂奔，成为未来AI发展的新热点。3月19日，英伟达CEO黄仁勋宣布世界首款人形机器人模型正式发布。在演讲中，黄仁...【详细内容】

2024-03-20　　Search: 机器人点击:(24)　　评论:(0)　　加入收藏

英伟达发布机器人基础模型，具身智能离现实又进了一步？

·英伟达发布人形机器人通用基础模型Project GR00T和新型计算机 Jetson Thor，希望能让机器人拥有更聪明的大脑。·上海机器人产业技术研究院副院长周梅杰分析认...【详细内容】

2024-03-20　　Search: 机器人点击:(9)　　评论:(0)　　加入收藏

世界首款！英伟达重磅发布人形机器人模型

3月19日，在备受瞩目的GTC 2024大会上，英伟达CEO黄仁勋带来了一项震撼人心的发布：世界首款人形机器人模型正式亮相。这一创新成果不仅标志着英伟达在人工智能领域的又一重大突破...【详细内容】

2024-03-19　　Search: 机器人点击:(15)　　评论:(0)　　加入收藏

英伟达抛出年度AI杀器：史上最强芯片，还有机器人大模型

作者丨邱晓芬、景霖编辑丨苏建勋3月18日-21日期间，英伟达在美国圣何塞召开GTC大会。作为英伟达一年一度的技术发布会， GTC大会也被誉为AI行业的风向标。创始人黄仁勋在GTC大会...【详细内容】

2024-03-19　　Search: 机器人点击:(15)　　评论:(0)　　加入收藏

与OpenAI合作13天后，Figure人形机器人展示与人类对话能力

人形机器人与AI的结合加快了，Figure AI的机器人开始与人类对话。北京时间3月13日深夜，一段人形机器人视频在社交媒体上热传，主角是Figure AI的人形机器人。2月底，Figure AI刚刚...【详细内容】

2024-03-14　　Search: 机器人点击:(9)　　评论:(0)　　加入收藏

成立仅2年，做出能和人类对话的人形机器人，Figure AI什么来头？

昨天夜里，一段人形机器人的视频在外网刷屏了。视频里，这款机器人按照人类口头指令进行了一些简单的抓取和放置动作，比如递给人类苹果、将塑料袋收拾进篮子里，把杯子和盘子归置放...【详细内容】

2024-03-14　　Search: 机器人点击:(11)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(7)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(7)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(1)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(3)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(6)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(8)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

AI是万灵药？Meta要把大	考研调剂第一次失败后
高职单招是什么意思？	在饭局上喝酒，要学会3
汽车不停能开多少公里	三证齐全，中国“飞的”
小米SU7被大卸八块，雷	视频号，从抖音挖来一个