5620亿参数！谷歌发布全球最大视觉语言模型PaLM-E

时间：2023-03-09 10:49:03 来源：每日经济新闻作者：

每经记者：蔡鼎每经编辑：兰素英

过去几个月时间里，由ChatGPT在全球科技巨头之间引发的人工智能热潮推动了大量语言模型的生产力前置。据《华尔街日报》，虽然谷歌早在两年前就做出了类似ChatGPT的人工智能聊天工具，但谷歌对AI的小心谨慎态度让其失去了对生成式AI的先机。

不过，作为硅谷科技巨头，谷歌从来不缺乏“后来居上”的决心和实力。

美西时间3月6日（周一），来自谷歌和德国柏林工业大学的一组人工智能研究人员公布了史上最大视觉语言模型PaLM-E（全称Pathways Language Model with Embodied）。

作为一种多模态具身视觉语言模型 (VLM)，PaLM-E能将视觉和语言集成到机器人控制中。谷歌和柏林工业大学称，PaLM-E是迄今为止人类开发的最大规模VLM，其可以在不需要再训练的情况下执行各种任务。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿（GPT-3 的参数量为1750亿），这是全球已知的最大视觉语言模型。

可分析视觉数据执行高级命令

“我们观察到诸如多模态思维链推理（允许模型分析包括语言和视觉信息的一系列输入），只接受单图像提示训练的多图像推理（使用多个图像作为输入来做出推理或预测）等涌现能力。”论文的第一作者、谷歌AI研究员Danny Driess在推特上写道。

图片来源：推特

据谷歌介绍，当接到“把抽屉里的薯片拿过来”等较为高级的命令时，PaLM-E可以为一个有“手臂”的移动机器人平台（由谷歌Robotics公司开发）生成行动计划，并自行执行任务。机器人能够顺利地从十多个开放式抽屉中找到米饼，拿给研究人员。

图片来源：谷歌

在另外一个案例中，研究人员还要求机器人“将所有色块按颜色堆放到不同角落”的指令，以及将“绿色色块推到乌龟旁边”的指令，即便机器人之前没有见过这只乌龟摆件，也能顺利地完成任务。

图片来源：谷歌

在图像识别的案例中，PaLM-E识别图像中的已故篮球明星科比·布莱恩特，并可以生成关于他的文本信息，例如他赢得了多少次NBA总冠军戒指。研究人员写道，PaLM-E也是一种“有效的视觉语言模型”。

图片来源：谷歌

具体来讲，PaLM-E通过分析来自机器人摄像头的数据来实现对高级命令的执行，而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要，并允许更自主的机器人控制。

此外，PaLM-E也非常具有弹性，能根据所处的具体环境做出反应。例如，PaLM-E模型可以引导机器人从厨房取出一个薯片袋，并且将PaLM-E集成到控制循环中，它可以抵抗任务执行期间可能发生的中断。在谷歌发布的视频中，一名研究人员从机器人手中抓起薯片并进行移动，但最终机器人可以找到这些薯片并再次抓起。

“PaLM-E几乎拥有所有语言能力”

据谷歌和柏林工业大学的合著论文介绍，PaLM-E是一个仅有解码器的大型语言模型（LLM），在给定前缀（prefix）或提示（prompt）下，能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

由于PaLM-E是基于语言模型，所以它会连续观察图像或传感器数据，并将其编码成与语言符号大小相同的向量序列。这使得模型能够以处理语言的相同方式“理解”感觉信息。

谷歌和柏林工业大学研究人员发布的预印本论文

除了RT-1机器人外，PaLM-E还借鉴了谷歌之前在VIT-22B上的工作，后者是谷歌在上月公布的一款视觉语言模型。VIT-22B已经在各种视觉任务上进行了训练，例如图像分类、目标检测、语义分割和图像字幕等。

除了机器人技术外，谷歌的研究人员还观察到了几个有趣的现象。首先，PaLM-E在实验案例中表现出了“正向转移（positive transfer）”，这意味着它可以将所学到的知识和技能从一个任务转移到另一个任务，因此与执行单个任务的机器人模型相比，性能有显著的提高。

此外，谷歌研究人员还观察了PaLM-E大规模参数下的一个趋势：“语言模型规模越大，在进行视觉语言和机器人任务训练时，它就越能保持语言能力——从参数规模上来讲，5620亿参数的PaLM-E几乎拥有所有语言能力。”

谷歌研究人员计划未来将探索PaLM-E在现实世界中有更多应用，例如家庭自动化或工业机器人，也希望PaLM-E能够激发更多关于多模态AI的应用。

《每日经济新闻》记者还注意到，作为AI大战的老对手，微软也已经在“图像+语言模型”的路数上有所布局。在今年2月底发表的研究中，微软就展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例。

微软最近发布的“用于机器人的ChatGPT（ChatGPT for Robotics）”论文，就尝试以类似于谷歌PaLM-E的方式将视觉数据和大型语言模型结合起来，对机器人进行控制。

每日经济新闻

Tags：谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　Search: 谷歌点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

海外推广干货分享：外贸网站在谷歌SEO排名上不去首页的16个原因

当外贸网站在谷歌SEO排名上无法进入首页时，可能有多种原因导致。以下是一些可能的原因：缺乏优质内容：谷歌注重用户体验，对于提供有价值、相关且独特的内容的网页更倾向于排名靠...【详细内容】

2024-04-09　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　Search: 谷歌点击:(2)　　评论:(0)　　加入收藏

机械设备B2B工厂外贸网站如何做Google谷歌SEO优化关键字排名？

在今天的全球化市场中，机械设备行业正面临着激烈的竞争。要在这一领域脱颖而出，拥有一个优化良好的B2B外贸网站至关重要。通过精准的谷歌SEO关键字排名，您的网站可以吸引更多海...【详细内容】

2024-04-08　　Search: 谷歌点击:(6)　　评论:(0)　　加入收藏

Win10/Win11和 macOS用户反馈：谷歌云服务“捆绑”系统 DNS 设置

IT之家 4 月 6 日消息，谷歌公司承认旗下的 Google One 订阅服务中存在问题，在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置，变更为 8.8.8.8 地址。Google On...【详细内容】

2024-04-08　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　Search: 谷歌点击:(8)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 谷歌点击:(1)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: 谷歌点击:(9)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

▌简易百科推荐

Meta推出新版自研AI芯片：性能较上代提高三倍，降低对英伟达依赖

AI（人工智能）芯片紧缺之际，越来越多科技巨头选择自行研发。当地时间4月10日，社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】

2024-04-11　　　　澎湃新闻　　Tags:Meta 　点击:(1)　　评论:(0)　　加入收藏

英特尔发布新一代AI芯片并首推AI芯片代工 “单挑”英伟达和台积电

新华财经上海4月11日电当地时间4月9日，英特尔在Vision 2024客户和合作伙伴大会上宣布推出最新AI芯片产品Gaudi 3加速器。英特尔称，相比英伟达的H100 GPU，Gaudi3 AI芯片的模型...【详细内容】

2024-04-11　　　　上海证券报　　Tags:英特尔　点击:(2)　　评论:(0)　　加入收藏

AI“复活”亲人成生意，哪些红线待划定？

提供一张照片、一段10多秒的音频，即可让逝者在视频中“活”过来——AI“复活”亲人成生意，哪些红线待划定？本报记者陶稳《工人日报》(2024年04月11日 06版)阅读提示...【详细内容】

2024-04-11　　　　工人日报　　Tags:AI 　点击:(2)　　评论:(0)　　加入收藏

科技巨头狂撒千亿美元 “买照片”，只为训练AI模型？

高质量的数据，越来越值钱。你能想象，那些被遗忘在网盘的陈年老图，有朝一日能价值千金？就在最近，路透社报道称，苹果公司正与图像托管网站Photobucket协商，希望得到这家公司近130亿张...【详细内容】

2024-04-10　　　　镁客网　　Tags:AI模型　点击:(0)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

2024-04-09　　　　IT之家　　Tags:安卓　点击:(2)　　评论:(0)　　加入收藏

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

2026年的数据荒越来越近，硅谷大厂们已经为AI训练数据抢疯了。它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天AI忽然吐出了我们的...【详细内容】

2024-04-09　　　　新智元　　Tags:硅谷　点击:(2)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(8)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(9)　　评论:(0)　　加入收藏

训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

全网真的无数据可用了！外媒报道称，OpenAl、Anthropic等公司正在努力寻找足够的信息，来训练下一代人工智能模型。前几天，OpenAI和微软被曝出正在联手打造超算「星际之门」，解决算...【详细内容】

2024-04-08　　　　新智元　　Tags:GPT-5 　点击:(2)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(5)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能