您当前的位置：首页 > 电脑百科 > 人工智能

谷歌推出多模态Vid2Seq，理解视频IQ在线，字幕君不会下线了

时间：2023-03-20 17:03:49 来源：新智元作者：

+ 加入收藏

最近，来自谷歌的研究员提出了一种用于描述多事件视频的预训练视觉语言模型——Vid2Seq，目前已被CVPR23接收。

在以前，理解视频内容是一项具有挑战性的任务，因为视频通常包含在不同时间尺度发生的多个事件。

比如，一个雪橇手将狗拴在雪橇上、然后狗开始跑的视频涉及一个长事件（狗拉雪橇）和一个短事件（狗被拴在雪橇上）。

而促进视频理解研究的一种方法是，通过密集视频标注任务，该任务包括在一分钟长的视频中对所有事件进行时间定位和描述。

论文地址：https://arxiv.org/abs/2302.14115

Vid2Seq架构用特殊的时间标记增强了语言模型，使其能够在同一输出序列中无缝预测事件边界和文本描述。

为了对这个统一的模型进行预训练，研究者通过将转录的语音的句子边界重新表述为伪事件边界，并将转录的语音句子作为伪事件的标注，来利用未标记的旁白视频。

Vid2Seq模型概述

由此产生的Vid2Seq模型在数以百万计的旁白视频上进行了预训练，提高了各种密集视频标注基准的技术水平，包括YouCook2、ViTT和Activit.NET Captions。

Vid2Seq还能很好地适用于few-shot的密集视频标注设置、视频段落标注任务和标准视频标注任务。

用于密集视频标注的视觉语言模型

多模态Transformer架构已经刷新了各种视频任务的SOTA，比如动作识别。然而，要使这样的架构适应在长达几分钟的视频中联合定位和标注事件的复杂任务，并不简单。

为了实现这一目标，研究者用特殊的时间标记（如文本标记）来增强视觉语言模型，这些时间标记代表视频中离散的时间戳，类似于空间领域的Pix2Seq。

对于给定的视觉输入，所产生的Vid2Seq模型既可以接受输入，也可以生成文本和时间标记的序列。

首先，这使Vid2Seq模型能够理解转录的语音输入的时间信息，它被投射为单一的标记序列。其次，这使Vid2Seq能够联合预测密集的事件标注，并在视频中以时间为基础，同时生成单一的标记序列。

Vid2Seq架构包括一个视觉编码器和一个文本编码器，它们分别对视频帧和转录的语音输入进行编码。产生的编码随后被转发到文本解码器，该解码器自动预测密集事件标注的输出序列，以及它们在视频中的时间定位。该架构初始化时有一个强大的视觉主干和一个强大的语言模型。

对视频进行大规模预训练

由于任务的密集性，为密集的视频标注手动收集注释的成本特别高。

因此，研究者使用了无标签的解说视频对Vid2Seq模型进行预训练，这些视频在规模上很容易获得。他们还使用了YT-Temporal-1B数据集，其中包括1800万个涵盖广泛领域的旁白视频。

研究者使用转录的语音句子及其相应的时间戳作为监督，这些句子被投射为单一的token序列。

然后用一个生成目标对Vid2Seq进行预训练，该目标教导解码器仅仅预测给定视觉输入的转录的语音序列，以及一个鼓励多模态学习的去噪目标，要求模型在有噪声的转录语音序列和视觉输入的情况下预测掩码。特别是，通过随机掩盖跨度的token，把噪声添加到语音序列中。

下游任务的基准测室结果

由此产生的预训练的Vid2Seq模型可以通过一个简单的最大似然目标在下游任务中进行微调，该目标使用教师强迫（即在给定先前的基础真实token的情况下预测下一个token）。

经过微调，Vid2Seq在三个标准的下游密集视频标注基准（ActivityNet Captions、YouCook2和ViTT）和两个视频剪辑标注基准（MSR-VTT、MSVD）上超越了SOTA。

在论文中，还有额外的消融研究、定性结果，以及在few-shot设置和视频段落标注任务中的结果。

定性测试

结果表明，Vid2Seq可以预测有意义的事件边界和标注，而且预测的标注和边界与转录的语音输入有很大的不同（这也表明输入中视觉标记的重要性）。

下一个例子有关于烹饪食谱中的一系列指令，是Vid2Seq对YouCook2验证集的密集事件标注预测的例子：

接下来是Vid2Seq对ActivityNet Captions验证集的密集事件标注预测的例子，在所有这些视频中，都没有转录的语音。

不过还是会有失败的案例，比如下面标红的这个画面，Vid2Seq说是一个人对着镜头脱帽致敬。

对标SOTA

表5将Vid2Seq与最先进的密集视频标注方法进行了比较：Vid2Seq在YouCook2、ViTT 和ActivityNet Captions这三个数据集上刷新了SOTA。

Vid2Seq在YouCook2和ActivityNet Captions上的SODA指标比PDVC和UEDVC分别提高了3.5和0.3分。且E2ESG在Wikihow上使用域内纯文本预训练，而Vid2Seq优于这一方法。这些结果表明，预训练的Vid2Seq模型具有很强的密集事件标注能力。

表6评估了密集视频标注模型的事件定位性能。与YouCook2和ViTT相比，Vid2Seq在处理密集视频标注作为单一序列生成任务时更胜一筹。

然而，与PDVC和UEDVC相比，Vid2Seq在ActivityNet Captions上表现不佳。与这两种方法相比，Vid2Seq整合了较少的关于时间定位的先验知识，而另两种方法包括特定的任务组件，如事件计数器或单独为定位子任务训练一个模型。

实现细节

架构

视觉时间transformer编码器、文本编码器和文本解码器都有12层，12个头，嵌入维度768，MLP隐藏维度2048。

文本编码器和解码器的序列在预训练时被截断或填充为L=S=1000个token，在微调期间，S=1000和L=256个token。在推理过程中，使用波束搜索解码，跟踪前4个序列并应用0.6的长度归一化。

训练

作者使用Adam优化器，β=(0.9, 0.999)，没有权重衰减。

在预训练期间，使用1e^-4的学习率，在前1000次迭代中线性预热（从0开始），并在其余迭代中保持不变。

在微调期间，使用3e^-4的学习率，在前10%的迭代中线性预热（从0开始），其余90%的迭代中保持余弦衰减（降至0）。过程中，使用32个视频的批处理量，并在16个TPU v4芯片上分割。

作者对YouCook2进行了40次epoch调整，对ActivityNet Captions和ViTT进行了20次epoch调整，对MSR-VTT进行了5次epoch调整，对MSVD进行了10次epoch调整。

结论

谷歌提出的Vid2Seq，是一种用于密集视频标注的新型视觉语言模型，它可以有效地在无标签的旁白视频上进行大规模的预训练，并在各种下游密集视频标注的基准上取得了SOTA的结果。

作者介绍

论文一作：Antoine Yang

Antoine Yang是法国国立计算机及自动化研究院Inria和巴黎高等师范学校École Normale Supérieure的WILLOW团队的三年级博士生，导师为Antoine Miech, Josef Sivic, Ivan Laptev和Cordelia Schmid。

目前的研究重点是学习用于视频理解的视觉语言模型。他于2019年在华为诺亚方舟实验室实习，在2020年获得了巴黎综合理工学院的工程学位和巴黎萨克雷国立大学的数学、视觉和学习硕士学位，2022年在谷歌研究院实习。

Tags：谷歌点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

OpenAI和谷歌再起纷争：AI的尽头是内容

日前，纽约时报的一篇报道称，人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也...【详细内容】

2024-04-09　　Search: 谷歌点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

财联社4月7日讯（编辑史正丞）种种迹象显示，目前站在全世界AI领域潮头浪尖的这些公司，早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】

2024-04-09　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

海外推广干货分享：外贸网站在谷歌SEO排名上不去首页的16个原因

当外贸网站在谷歌SEO排名上无法进入首页时，可能有多种原因导致。以下是一些可能的原因：缺乏优质内容：谷歌注重用户体验，对于提供有价值、相关且独特的内容的网页更倾向于排名靠...【详细内容】

2024-04-09　　Search: 谷歌点击:(4)　　评论:(0)　　加入收藏

谷歌推出适用于安卓设备的“查找我的设备”网络

IT之家 4 月 9 日消息，谷歌今日推出了适用于安卓设备的“查找我的设备”网络，其功能类似于苹果的“查找”网络，旨在帮助用户定位丢失、被盗的安卓产品。IT之家注意到，与苹果的“...【详细内容】

2024-04-09　　Search: 谷歌点击:(2)　　评论:(0)　　加入收藏

机械设备B2B工厂外贸网站如何做Google谷歌SEO优化关键字排名？

在今天的全球化市场中，机械设备行业正面临着激烈的竞争。要在这一领域脱颖而出，拥有一个优化良好的B2B外贸网站至关重要。通过精准的谷歌SEO关键字排名，您的网站可以吸引更多海...【详细内容】

2024-04-08　　Search: 谷歌点击:(6)　　评论:(0)　　加入收藏

Win10/Win11和 macOS用户反馈：谷歌云服务“捆绑”系统 DNS 设置

IT之家 4 月 6 日消息，谷歌公司承认旗下的 Google One 订阅服务中存在问题，在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置，变更为 8.8.8.8 地址。Google On...【详细内容】

2024-04-08　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　Search: 谷歌点击:(8)　　评论:(0)　　加入收藏

谷歌或改变商业模式，人工智能搜索考虑收费

诸如ChatGPT这样的产品针对提问可以给出快速而完整的答案，这可能会使传统搜索引擎的链接列表和伴随这些链接出现的广告变得多余。谷歌考虑对人工智能搜索收费谷歌考虑对人工...【详细内容】

2024-04-07　　Search: 谷歌点击:(1)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　Search: 谷歌点击:(9)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　Search: 谷歌点击:(7)　　评论:(0)　　加入收藏

▌简易百科推荐

行业大模型快速落地的一年，如何做？

生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看，无论是“文生文”的大语言模型，还是“文生图”的多模态模型，更多的是辅助人们进行一些简单的办公，或者提供一...【详细内容】

2024-04-10　　　　钛媒体APP　　Tags:行业大模型　点击:(3)　　评论:(0)　　加入收藏

互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

早前，一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主，向用户大力推介“所有人都需要学”的AI入门课程。不过，这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】

2024-04-10　　　　九派新闻　　Tags:AI课　点击:(7)　　评论:(0)　　加入收藏

藏在AI背后的“吃电狂魔”

人工智能时代的能耗黑洞据估算，到2027年，人工智能行业每年将消耗85~134太瓦时的电力，相当于瑞典或荷兰一年的总用电量。马斯克判断，电力缺口最早可能会在2025年发生，“明年你会看...【详细内容】

2024-04-09　　　　雪豹财经社　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

OpenAI和谷歌再起纷争：AI的尽头是内容

2024-04-09　　小编也疯狂　　新浪网　　Tags:AI 　点击:(3)　　评论:(0)　　加入收藏

AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

2024-04-09　　　　财联社　　Tags:AI产业　点击:(4)　　评论:(0)　　加入收藏

和“数字人”交朋友，当心隐私被出卖......

在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验？如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点？《中国消费者报》记者就此展开了调查APP里有个...【详细内容】

2024-04-09　　　　中国消费者报　　Tags:数字人　点击:(6)　　评论:(0)　　加入收藏

AI“复活”成产业链：成本可降至数百元

大模型应用落地，带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳实习生孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前，预估会有需求的庞立...【详细内容】

2024-04-09　　　　中国企业家　　Tags:AI“复活” 　点击:(3)　　评论:(0)　　加入收藏

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(5)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(6)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(8)　　评论:(0)　　加入收藏

推荐资讯

新增融券再启动暂停键	16个Redis常见使用场
一篇文章教会你使用Py	聊聊Rust里面的数据类
C++中的外部模板及其	一篇文章带你了解Pyth
网络安全行业的春天何	Linux获取Redis 性能

站内最新

栏目相关

· 行业大模型快速落地的一年，如何做？

· 互联网充斥“针对小白的AI课”，能相信吗？普通人不学AI课程会被淘汰？

· 藏在AI背后的“吃电狂魔”

· OpenAI和谷歌再起纷争：AI的尽头是内容

· AI产业的灰色暗面：OpenAI、谷歌、META如何搞训练语料

· 和“数字人”交朋友，当心隐私被出卖......

· AI“复活”成产业链：成本可降至数百元

· 多方热议人工智能产业新机遇

· 人形机器人时代来了吗

· AI重塑社交：腾讯与字节跳动的新赛场

· 第一批用 Kimi 做内容的网红已经杀疯了

· 昆仑万维发布面向人工智能时代的六条人才宣言

· AI干掉声优？音频大模型追逐“图灵时刻”

· 生成式人工智能有哪些新趋势？

· AI世界的新难题：互联网的信息不够用了！

· 今天起，ChatGPT无需注册就能用了！

· AI时代，面对死亡有了第二种选择？

· 影视业AI应用如何超乎想象？

· 当AI会作词作曲唱歌，音乐人何去何从

· 大模型Kimi火了，长文本“卷”出新高度

站内热门