您当前的位置:首页 > 电脑百科 > 人工智能

一张图片产生五感的AI模型,究竟如何做到的?

时间:2023-08-25 11:07:43  来源:51CTO  作者:

最近,MetAImage在技术圈引起了极大的好评。在《IMAGEBIND:One Embedding Space To Bind Them All》的论文中,通过一个嵌入空间,Meta 的 ImageBind 将五种不同的模态与图像进行连接配对,非常精彩。

1、“跨五感”的模型问世

比如,给你看一张海滩的图片,你就会联想到海浪的声音、咸味的空气和你周围的热浪,反过来,如果你听到打鼾,你可以想象一个人躺着进入深度睡眠中的画面。

这的确也很符合常识:人类可以根据图像想象出气味、声音以及空间的感觉,反之亦然。

那么 AI 能像人类一样将许多不同且不相关的模式绑定在一起吗?Meta AI发表的ImageBind论文就是解决了这个问题。

为了“绑定”多种模式,而不仅仅是文本和图像,该论文的研究人员将图像作为主要数据,并测试了音频、热图(热像仪)、文本和 IMU(惯性测量,一系列加速度计、陀螺仪等)和深度。

为了将深度和文本等两种不相关的模式联系起来,研究人员使用了对比学习(Contrastive Learning)。将图像数据作为主要要求,论文中显示了代表任何给定数据中可用的图像实际链接的粗实线。

接下来,研究人员展示了紧急链接是如何发生的,现在您可以获取音频和文本数据点并获得正确的图像或视频。这种能力以前并不存在;这是新兴(emergent Link)的。使用成对的对齐观察值(例如吠叫声和文本“狗”),它可以正确地将输出提供一张狗的图像。论文中给出的另一个例子是鹳的图像和海浪的声音结合了模态,并显示了鹳在水中的图像。

这篇论文的基础在于,人们实际上并不需要数据对与图像连接在一起。例如,只需将深度或热图信息与文本(具有与图像的实际联结)配对,用户就可以创建包含所有这三个信息的图像。该论文将这种现象称为“快速对齐(emergent alignment)”。

2、为什么不采用 Meta 的数据集

Meta 的 Facebook 拥有最大的图像和文本配对数据集之一。奇怪的是,研究人员没有使用他们自己的数据集,而是使用了 OpenAI 的CLIP数据集,然而,可能使用Meta自己在过去十年中收集的数据集来训练这个模型本应该是有意义的。另一方面,没有任何 GPT-4多模式架构的迹象。

但机器人研究员 Hugo Ponte 却不觉得这样,并认为 Meta 使用 CLIP 是一个明智之举。

首先,CLIP 是一个为图像和语言创建共享嵌入空间的模型,非常强大。在 CLIP 数据集上添加 ImageBind 使得该模型不仅适用于文本,而且几乎适用于论文中提到的所有其他模式。如果用户有音频、IMU、热图、深度和文本数据,开发者可以创建最接近该数据的图像。

Ponte 进一步分析了这篇论文和作者选择 CLIP 的原因——“我认为这是一个明智之举,这样,他们没有改变 CLIP 嵌入空间,这意味着你实际上可以返回到过去三年里发布的每一篇使用 CLIP 的论文,并可以直接插入 ImageBind 来替代使用。”

通过使用 ImageBind,我们可以将任何内容投射到 CLIP 中。“他们没有取代CLIP,而是扩展了 CLIP,这让它变得更好,因为 CLIP 也适用于对比学习,需要图像和图像显示的文本的配对示例。”Ponte 补充道。

此外,ImageBind 作者还采用了 Vision Transformer (ViT),这是一种当今常见的架构,可以为不同模式的相关概念创建类似的嵌入,例如将“狗”与狗的图像相关联。

3、下一步是什么

不出所料,Meta 也开源了代码,但有趣的是也给商业目的戴上了紧箍咒,不允许商用。然而,开发人员已经使用 ImageBind 构建了一个巧妙的搜索引擎演示。搜索引擎使用文本、音频甚至视觉输入检索人工智能生成的图像。

Meta AI 负责人 Yann LeCun 表示,该模型没有公开发布可能是出于法律原因,也可能是因为它只是第一篇具有如此广泛模式的论文。这减缓了该论文的采用速度,仅在其上开发了几个演示。

然而,广泛的模式看起来像是向 Yann Lecun 的AGI 方法迈出的一步。到目前为止,该模型可以从不同的“感官”中学习,以生成模仿人类如何感知世界的正确图像。



Tags:AI模型   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
十大AI模型盘点,每一个都是强者!
2023年,大环境波诡云谲,科技圈浪潮依然奔涌不停。大模型打开AI新世界,Vision Pro引领空间计算,智能电车超越油车,拼多多“新王”已立,智能手机狂卷创新,新硬件层出不穷,鸿蒙系统加速...【详细内容】
2023-12-27  Search: AI模型  点击:(165)  评论:(0)  加入收藏
如何收集和准备AI模型的训练数据
在人工智能(AI)领域,训练数据是培养和训练AI模型的关键。高质量的训练数据对于AI算法的准确性和性能至关重要。本文将为您介绍如何收集和准备AI模型的训练数据,以确保模型的质量...【详细内容】
2023-11-20  Search: AI模型  点击:(145)  评论:(0)  加入收藏
Adobe研究人员研发新AI模型LRM:实现从2D样本瞬时生成3D图像
由Adobe Research和澳大利亚国立大学(ANU)联合研发的人工智能模型宣布了一项突破性的成果,能够从单一的2D图像中生成3D图像。研究人员表示,他们的新算法在大规模图像样本上进行...【详细内容】
2023-11-14  Search: AI模型  点击:(160)  评论:(0)  加入收藏
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活...【详细内容】
2023-11-10  Search: AI模型  点击:(240)  评论:(0)  加入收藏
如何训练AI模型:从数据准备到模型优化
人工智能(AI)已经成为了当今世界最热门的技术领域之一。与传统的编程模式不同,AI 可以学习人类的行为模式,自动地进行决策和预测。这种能力的实现依赖于训练出高质量的 AI 模型...【详细内容】
2023-11-03  Search: AI模型  点击:(238)  评论:(0)  加入收藏
首次曝光!OpenAI遭遇罕见挫折,中断开发新AI模型
来源:腾讯科技比GPT-4运行成本更低的Arrakis模型,因表现不及预期被叫停。去年年底,当聊天机器人ChatGPT开始在全球引发轰动的时候,人工智能研究公司OpenAI的工程师们就已经开始...【详细内容】
2023-10-19  Search: AI模型  点击:(146)  评论:(0)  加入收藏
AI风口来袭,Adobe(ADBE.US)推出全新AI模型引领平面设计革命
智通财经APP获悉,提供Photoshop、Illustrator等热门软件产品的科技巨头Adobe(ADBE.US)宣布了其生成式人工智能模型Firefly的多个新版本,承诺提供更高质量的图像和生成新型媒体内...【详细内容】
2023-10-13  Search: AI模型  点击:(269)  评论:(0)  加入收藏
推特更新服务条款:禁止第三方抓取数据来培训AI模型
新浪科技讯 北京时间9月8日晚间消息,据报道,X公司(推特)日前更新了服务条款,在未经许可的前提下,任何第三方都不得在X平台上抓取数据来培训人工智能(AI)模型。该条款将于9月29日起生...【详细内容】
2023-09-09  Search: AI模型  点击:(113)  评论:(0)  加入收藏
谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍
谷歌第五代定制张量处理器(TPU)芯片TPU v5e用于大模型训练和推理,训练和运行AI模型的速度提高了5倍。与上一代芯片相比,TPU v5e每一美元的训练性能提高2倍,每一美元的推理性能提...【详细内容】
2023-08-30  Search: AI模型  点击:(138)  评论:(0)  加入收藏
国内首个风机功率曲线AI模型上线
科技日报讯 (徐越 袁伟 记者陆成宽)8月25日,记者从国家能源集团获悉,该集团龙源电力工程技术公司上线国内首个风电机组功率曲线图像识别AI模型,率先实现风电机组功率曲线特性分...【详细内容】
2023-08-28  Search: AI模型  点击:(280)  评论:(0)  加入收藏
▌简易百科推荐
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(1)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(1)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(1)  评论:(0)  加入收藏
和“数字人”交朋友,当心隐私被出卖......
在虚拟社交中如何在保护用户隐私和数据安全的同时提供高质量的社交体验?如何避免过度依赖虚拟社交找到虚拟与真实之间的平衡点?《中国消费者报》记者就此展开了调查APP里有个...【详细内容】
2024-04-09    中国消费者报  Tags:数字人   点击:(2)  评论:(0)  加入收藏
AI“复活”成产业链:成本可降至数百元
大模型应用落地,带火数字人(11.560, 0.29, 2.57%)赛道。文|《中国企业家》记者李艳艳 实习生 孙欣编辑|姚赟头图来源|《流浪地球2》电影画面截图清明节前,预估会有需求的庞立...【详细内容】
2024-04-09    中国企业家  Tags:AI“复活”   点击:(2)  评论:(0)  加入收藏
多方热议人工智能产业新机遇
编者按  从前沿科技展会到高层对话平台,从上海、重庆到博鳌,从线上到线下……一场场高规格、大规模的盛会中,人工智能正在成为各界热议的高频词。赋能千...【详细内容】
2024-04-08    中国家电网  Tags:人工智能   点击:(4)  评论:(0)  加入收藏
​人形机器人时代来了吗
日前,由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】
2024-04-08    中国青年报  Tags:​人形机器人   点击:(5)  评论:(0)  加入收藏
AI重塑社交:腾讯与字节跳动的新赛场
文|新火种 一号编辑|美美最近,腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品,尽管腾讯和字节跳动在前段时间刚刚“破冰”,但这一举措不仅意味着这两大巨头之...【详细内容】
2024-04-07    蓝鲸财经  Tags:AI   点击:(8)  评论:(0)  加入收藏
第一批用 Kimi 做内容的网红已经杀疯了
作者:王东东 文章来自:斗战圣佛小组技术信仰派 VS 市场信仰派 朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是:大模型有没有戏。技术派...【详细内容】
2024-04-04    斗战圣佛小组  Tags:Kimi   点击:(4)  评论:(0)  加入收藏
昆仑万维发布面向人工智能时代的六条人才宣言
过去的一年多,是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里,我们见证了人工智能的快速发展和广泛的影响,人工智能已经迅速地融入了我们的生活,深刻...【详细内容】
2024-04-03    砍柴网  Tags:昆仑万维   点击:(7)  评论:(0)  加入收藏
站内最新
站内热门
站内头条