您当前的位置：首页 > 新闻 > 科技

谷歌发布最新零样本学习看图说话模型，多类型任务直接上手

时间：2021-10-27 11:27:01 来源：凹非寺作者：

+ 加入收藏

兴坤发自凹非寺
量子位报道 | 公众号 QbitAI

谷歌新推出了弱监督看图说话模型SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。

从文字描述图像到回答图片相关问题，模型无需微调也能样样精通。

对于一般的视觉语言预训练（VLP）模型，训练数据集中要求包含大量精准标签。而模型的任务迁移，则需要针对特定任务重新进行数据集的标签标注。

总结下来，就是标注数据集不仅耗时耗力，还不能多任务通用。

能不能开发出一种又简单又万能的VLP模型呢？

谷歌新开发的这款模型使用了弱监督学习进行模型训练，通过利用大量的弱对齐图像-文本对进行建模，简化了VLP的训练流程，大大降低了训练的复杂性。

SimVLM使用前缀语言建模的单一目标进行端到端训练，并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用，从而能够更好地实现零样本学习泛化效果。

SimVLM模型是如何实现的？

SimVLM模型的预训练过程采用了前缀语言建模(PrefixLM)的单一目标，接受序列的前缀作为输入，通过模型解码器来预测其延续的内容。

对于数据集中的图像-文本对，图像序列可视作其文本描述的前缀。

这种方法可以简化训练过程，最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。

模型的主干网络，则使用了在语言和视觉任务上均表现突出的Transformer架构。

对输入的原始图像数据提取上下文patch，这里采用了ResNet卷积网络。

如上图所示：视觉模态中，图片被分割成多个patch，然后压缩为一维序列。文本模态语句则被映射到了一个表征向量中。

本模型使用了包含大约1.8B噪声的图像-文本对ALIGN训练集进行预训练，以此来实现更好的零样本学习泛化能力。

为了补偿训练集中的噪声影响，训练模型另外还使用了共800G的Colossal Clean Crawled Corpus (C4)数据集。

SimVLM模型基础性能如何？

模型的预训练完成后，需要在多模式任务中对模型进行微调，以测试性能。

这里用到的多模式任务有：VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps和Multi30K En-De。

将SimVLM模型与现有的功能完善的模型进行比较，测试结果如上表所示，参与评估的SimVLM模型还包括了三种不同规模：8600万参数、3.07亿参数和6.32亿参数。

跨模式任务的测试结果中，SimVLM模型的性能表现最好（数据越大越好），除了CoCo Caption的B@4指标，在其他任务上都取得了新的SOTA结果，充分证明了该模型的先进性。

SimVLM模型零样本泛化

SimVLM模型在跨模式任务测试中可以取得不错的性能表现，那么它能否顺利执行零样本跨模态转移呢？

预训练的SimVLM模型仅对文本数据进行微调或完全不进行微调，通过图像字幕、多语言字幕、开放式VQA和视觉文本生成等任务，对模型进行测试。

测试结果如下图所示：

给定图像和文本提示，预训练模型无需微调即可预测图像的内容。

除此之外，未进行过微调的模型在德语字幕生成、数据集外的答案生成、基于图像内容的文字描述、开放式视觉问题回答等应用上均有不错的表现。

为了量化SimVLM的零样本学习性能，这里采用了预训练的固化模型在COCO Caption和NoCaps上进行解码，然后与监督标准基线（Sup.）进行比较。

从结果对比上来看，即使没有监督微调，SimVLM也可以达到有监督的训练质量水平。

作者介绍

本研究的第一作者是谷歌学生研究员王子瑞，现就读于卡内基梅隆大学，曾以第一作者身份在ICLR、EMNLP、CVPR等顶会上发表了多篇论文。

截止到2020年12月20日，他在SuperGLUE数据集上获得了第一个超过人类得分的SOTA性能（分数超过90），目前则被百度团队赶超，位居第二。

这一次开发的SimVLM也在6个视觉语言基准测试中达到了单模型SOTA性能，并实现了基于文本引导的零样本学习泛化能力。

参考链接：
https://arxiv.org/abs/2108.10904
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html
http://www.cs.cmu.edu/~ziruiw/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

Tags：谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

谷歌发布警告：NSO黑客的水平与国家级的精英间谍不相上下

我们所见过的技术上最复杂的漏洞利用之一”- 谷歌“零号项目”安全研究人员评价ForcedEntry无交互攻击。多年来，以色列间谍软件开发商NSO集团针对安卓和iOS设备开发出了多款...【详细内容】

2021-12-24　　Tags: 谷歌点击:(8)　　评论:(0)　　加入收藏

数据缩至1/5000，模型准确率却翻倍，谷歌新“蒸馏法”火了

博雯发自凹非寺量子位报道 | 公众号 QbitAI在炼丹过程中，为了减少训练所需资源，MLer有时会将大型复杂的大模型“蒸馏”为较小的模型，同时还要保证与压缩前相当的结果。这就...【详细内容】

2021-12-24　　Tags: 谷歌点击:(9)　　评论:(0)　　加入收藏

专门针对chrome谷歌浏览器而开发的一款访问插件

谷歌访问助手插件是专门针对chrome谷歌浏览器而开发的一款访问插件，可以为谷歌搜索，谷歌chrome商店，gmail邮箱提供加速服务，解决打不开的问题。这款插件可以帮助我们在使用谷歌...【详细内容】

2021-12-03　　Tags: 谷歌点击:(12)　　评论:(0)　　加入收藏

B2B和B2C谷歌SEO网站优化和运营异同对比

最近发现B2B的海外推广貌似是一个挺大的缺口，很多厂长或老板不了解独立站的流量构成和玩法，无论是自然流量还是付费流量。也衍生了很多培训（咦，这是不是我副业的好机会？）所以这次...【详细内容】

2021-11-11　　Tags: 谷歌点击:(31)　　评论:(0)　　加入收藏

谷歌Android 12L的适配机型，看得我们有点懵

如果你是一名忠实的Android玩家，那么可能会知道，今年的Android 12系统在版本规划上与“往届”相比可以说是很有些特殊。具体来说，除了前段时间刚刚推出正式版的Android 12外，谷...【详细内容】

2021-11-10　　Tags: 谷歌点击:(23)　　评论:(0)　　加入收藏

谷歌宣布推出分布式云

本月 12 日，谷歌召开了 Google Cloud Next '21 年度大会。在这场大会上，谷歌宣布推出Google Distributed Cloud（谷歌分布式云计算），这是一套软硬件结合的解决方案，用于将谷歌...【详细内容】

2021-10-29　　Tags: 谷歌点击:(29)　　评论:(0)　　加入收藏

谷歌发布最新零样本学习看图说话模型，多类型任务直接上手

谷歌新推出了弱监督看图说话模型SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。...【详细内容】

2021-10-27　　Tags: 谷歌点击:(40)　　评论:(0)　　加入收藏

gmail谷歌邮箱账号注册教程，轻松解决手机号码无法用于验证问题

由于一些特殊原因，使用国内手机号码注册谷歌邮箱会有各种限制，最常见的一种就是此电话号码无法用于进行验证，这就让人很无语了，很多朋友都卡在了这里。本期就针对国内手机号码注...【详细内容】

2021-10-27　　Tags: 谷歌点击:(38)　　评论:(0)　　加入收藏

谷歌浏览器分身单窗口单ip ，google浏览器多开

很多人在使用谷歌浏览器时都有多开的需求，但是google浏览器是不支持多开的，只能切换账户。更不要提每个多开的窗口都配置不同的ip了。如果想要实现谷歌浏览器分身单窗口单IP，其...【详细内容】

2021-10-22　　Tags: 谷歌点击:(187)　　评论:(0)　　加入收藏

谷歌安卓Android 12系统正式推送：带来六大新功能

今天凌晨，谷歌正式发布了全新一代安卓Android 12系统，拥有全新的UI，同时带来了六大新功能，除此以外还有10月的安全补丁，下面就给大家介绍这六大新功能以及安卓Android 12系统配置...【详细内容】

2021-10-22　　Tags: 谷歌点击:(53)　　评论:(0)　　加入收藏

▌简易百科推荐

倒计时！企业QQ即将下架，社交QQ会被下架吗？

就在今天，腾讯方面宣布将在2022年1月31日下架企业QQ和营销QQ，其实这一消息的降临并不让笔者意外，因为早在今年的10月28日20点之后，企业QQ和营销QQ就被停止了续费服务。相信很多...【详细内容】

2021-12-27　　科技探险家　　　　Tags:企业QQ 　点击:(0)　　评论:(0)　　加入收藏

电竞产业快速扩张

日前，上海交通大学发布《全球电竞之都评价报告》，对全球15个致力于发展电竞之都的城市进行评价，上海作为中国城市电竞发展的排头兵，其拥有众多优质电竞企业及完整产业集群，因此排...【详细内容】

2021-12-27　　经济日报　　　　Tags:电竞　点击:(2)　　评论:(0)　　加入收藏

微博整治：这种低俗头像，别再用了

为优化网络氛围环境，微博又开始整顿用户信息了。本月月初，微博官方发布公告，要求昵称中带有如“二货”“SB”“瘪三”“娘炮”等明显低俗或侮辱性词汇的用户尽快修改，否则将面临...【详细内容】

2021-12-24　　运了个营　　　　Tags:微博　点击:(10)　　评论:(0)　　加入收藏

Google OnHub路由器将于2022年底停止软件支持

昨日谷歌宣布，自2022年12月19日开始停止对OnHub的软件支持，OnHub路由器仍将提供Wi-Fi信号，但用户无法用谷歌Home应用程序管理它。无法更新Wi-Fi网络设置、添加额外的Wifi设备或...【详细内容】

2021-12-22　　雷峰网　　　　Tags:Google OnHub 　点击:(5)　　评论:(0)　　加入收藏

百度网盘青春版内测开启，iOS 端体验：不限速，支持导入原版文件

IT之家 12 月 20 日消息，百度网盘青春版 iOS 客户端今日晚间率先开启内测，安卓客户端将在稍后内测。使用苹果 iPhone 的IT之家小伙伴可以点此下载内测版，需要先下载 TestFlight...【详细内容】

2021-12-21　　IT之家　　　　Tags:百度网盘　点击:(9)　　评论:(0)　　加入收藏

滴滴司机注意！滴滴将调整拼车单

对于拼车单，是接还是不接，不少网约车司机表示很矛盾。接吧，钱少事多，常常跑了个寂寞，不接吧，车多客少，挑三拣四没饭吃。在平台大力推广拼车单之下，不少司机迫于生活压力，最终还是打...【详细内容】

2021-12-17　　网约车情报分享　　　　Tags:滴滴　点击:(7)　　评论:(0)　　加入收藏

饿了么短距离内预估配送时间不得低于30分钟，并试点推广智能头盔

蓝鲸TMT频道12月16日讯，据饿了么官方微信公众号，近日，在圆桌会上，蓝骑士与平台交流了配送安全问题。饿了么表示，线上将技术手段融入安全防护；线下将持续进行安全培训，并试点智能头...【详细内容】

2021-12-17　　　　金融界　　Tags:饿了么　点击:(23)　　评论:(0)　　加入收藏

GitHub 年度报告重磅发布

开源最前线（ID：OpenSourceTop）猿妹编译项目地址： https://github.com/restic/restic全球知名代码托管平台 GitHub 今天就重磅发布了今年的年度报告——《2021 年度 O...【详细内容】

2021-12-17　　Python部落　　　　Tags: 　点击:(9)　　评论:(0)　　加入收藏

《网络短视频内容审核标准细则》修订版发布

新京报快讯据中国网络视听节目服务协会网站消息，12月15日，中国网络视听节目服务协会发布了《网络短视频内容审核标准细则》（2021）。中国网络视听节目服务协会组织有关短视频平...【详细内容】

2021-12-16　　　　新京报　　Tags:短视频　点击:(11)　　评论:(0)　　加入收藏

网信办督促网站平台依法处置违法违规“头部账号”

今年以来，国家网信办针对一些粉丝量大、关注度高的网站平台“头部账号”法纪意识淡薄，滥用网上影响力，传播错误导向内容，污染网络生态等突出问题，会同相关部门，指导各地网信办，要求...【详细内容】

2021-12-16　　　　网信中国微信公众号　　Tags:网信办　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

远程软件发展迅猛，ToDe	倒计时！企业QQ即将下架
极简Windows11与iPhon	iPhone信号问题，花10元
惊人数据：App Store中4	个人所得税递延纳税报
非常实用的 Python 库	等离子电视技术先进，为