您当前的位置:首页 > 电脑百科 > 人工智能

这个深度学习库能执行10多种图像文本任务,还统一接口|已开源

时间:2022-10-01 15:22:14  来源:  作者:量子位

Pine 发自 凹非寺

量子位 | 公众号 QbitAI

支持10余种图像文本任务,囊括20多种数据集,还提供SOTA模型性能和可复现预训练及微调实验配置

没错,这是一个视觉语言深度学习框架就可以拥有的。

这个库的庐山真面目是:Salesforce亚洲研究院推出的LAVIS。

并且,它还统一了接口,降低开发成本和入门门槛。

最重要的是:已开源!

LAVIS全⽅位⽀持视觉语⾔任务、数据集、模型。

如果还不能看不出它的优势,那话不多说,直接看LAVIS与现有多模态库的对比图。

相较之下,现存的视觉语⾔框架只⽀持较少⼀部分任务和数据集,逊色了不少。

除此之外,LAVIS还附带了丰富的开源资源和⼯具,就比如说它提供了一个图形化的工具,可以可视化数据集的样本,以便于能更好的预览、理解数据。

并且随着LAVIS一起开源的还有GUI demo,它的功能就有这么多。(看图)

具体LAVIS有何过人之处?一起来看看吧~

⼀站式视觉语⾔框架

LAVIS概括下来,可以用三个数字来表示:四、十、二十

先来说说,它表示LAVIS支持四种领先的基础视觉语⾔模型架构,包括ALBEF、BLIP、CLIP和ALPRO。

其中ALBEF和CLIP主要支持图像文本任务,ALPRO⽀持视频⽂本任务,BLIP对这两项任务都能够提供⽀持。

也正是有了这些视觉语言模型做基础,LAVIS才能够运行这余种视觉语言任务。

具体来讲,它可以进行图⽚描述⽣成、图像⽂本检索、视频⽂本检索、图像问答、视频问答、多模态分 类、多模态图像、视频对话、视觉语⾔推理、多模态预训练等实⽤任务。

除此之外,LAVIS还具备多模态特征提取等功能。

讲完模型架构和任务,就还差数据集了,不过这就不必担心,因为LAVIS能够支持二十多种数据集。

想实现各项任务都能够找到合适的数据集进行训练。

不过,这些都还只是LAVIS的开碟小菜,它还“憋了个大招”:

统一接口。

这对初学者和跨领域研究者来说是相当友好了,许多深度学习库的模型、数据集以及任务评估接口都不一致,这就导致学习成本大大提高。

而统一接口之后,就会极⼤简化模型训练评测,并且能够最⼩化重复开发成本。

话说回来,这里的统一接口具体方便了什么呢?

主要分为两部分。

第一部分是用于加载数据集和模型的统一接口,模型及其相关的预处理器也可以通过一个统一的接口来加载,从而便于对自定义数据进行分析和推断。

第二部分是实现多模态特征提取的统一接口,这些特性对于端到端微调的离线应用程序尤其有用。通过更改名称和模式,用户可以选择使用不同的模型架构和预先训练的权重。

这样一来,⽤户便可以利⽤LAVIS提供的load_model(), load_dataset() ,⼀键加载所需模型和数据集。

比如说,加载COCO captioning数据集,只需要输入load_dataset(“coco_caption”);加载BLIP captioning模型只需要输入model=load_model(name=“blip_caption”)。

此外,LAVIS还能实现数据到训练⾼定制化,给予开发者充分空间研究新模型、新多模态能⼒、新引⽤场景。

不过,实现LAVIS这样一站式的视觉语言框架,是怎样做到的呢?

模块化的结构

其实从LAVIS的构造就能够看出,LAVIS深度学习库的整个构造很简洁,用三个字就可以概括:模块化

在整个库中,将关键组件模块化后再进行组织。

这样一来,就可以对单个组件的现成访问、快速开发以及新组件或外部组件的轻松集成,还能够模型推断,例如多模态特征提取。

具体是怎样的?可以一起看看。

LAVIS共分为六个关键模块(详见下图)。

其中比较核心的就是runners模块,它负责管理整个训练的评估的过程,RunnerBase和RunnerIters也各司其职,一个负责基于epoch的训练,一个负责基于迭代的训练。

tasks模块会对每个任务执行具体的训练和评估逻辑,以适应特定的任务。

datasets顾名思义就是负责创建数据集。

models模块中,它保存了其支持的四个模型以及共享模型层的定义。

processors模块用来处理多模态输入的预处理,处理器将输入的图像、视频和文本转换为模型可以使用的形式。

common则是LAVIS提供的工具包和一些应用程序。

这些模块之间相互依赖,由此便形成了一个简单而统一的库,进而可以更方便地训练和评估模型;访问所支持的模型和数据集以及扩展新模型、任务和数据集。

目前,开发人员表示将持续更新维护LAVIS,在未来它将会支持更多更强大的视觉语言预训练模型,和更多的视觉语言任务,比如文本图像生成。

听完是不是心痒痒了?

下方就有开源链接以及详细文档,感兴趣的朋友可以试试~

Github:https://github.com/salesforce/LAVIS

技术报告:https://arxiv.org/abs/2209.09019

⽀持⽂档:https://opensource.salesforce.com/LAVIS//latest/index.html

官⽅博客:https://blog.salesforceairesearch.com/lavis-language-vision-library/

— 完 —

量子位 QbitAI · 头条号签约



Tags:深度学习   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
深度学习中的梯度裁剪策略比较
在深度学习的训练过程中,梯度裁剪是一种常用的技术,用于防止梯度爆炸问题,即梯度的值变得非常大,导致模型训练不稳定。梯度裁剪通过限制梯度的最大值或最小值,帮助模型更稳定地收...【详细内容】
2024-03-05  Search: 深度学习  点击:(28)  评论:(0)  加入收藏
深度学习的未来:趋势和新兴技术
深度学习是人工智能(AI)的一个子集,持续推动技术进步,塑造机器感知、分析和响应数据的方式。本文将探索将在未来几年重新定义人工智能格局的最新趋势和新兴技术。模型规模指数...【详细内容】
2024-02-19  Search: 深度学习  点击:(50)  评论:(0)  加入收藏
基于深度学习的虚拟现实图像生成技术研究与应用
随着虚拟现实(VirtualReality,简称VR)技术的快速发展,人们对于逼真、沉浸式的虚拟体验需求不断增加。而虚拟现实图像生成是VR技术中的重要环节之一,它通过模拟和生成逼真的虚拟场...【详细内容】
2024-01-04  Search: 深度学习  点击:(143)  评论:(0)  加入收藏
深度学习框架解读—Yolov5/Yolov7/Halcon对比分析
作为一名机器视觉深度学习算法工程师,我从技术实现、性能、适用场景和易用性等方面来评价YOLOv5、YOLOv7和Halcon中的深度学习框架。以YOLOv5和YOLOv7进行比较,并结合Halcon的...【详细内容】
2024-01-03  Search: 深度学习  点击:(47)  评论:(0)  加入收藏
基于深度学习的人体姿态估计技术探索
人体姿态估计是计算机视觉领域的重要研究方向之一,旨在通过对图像或视频中人体姿势的分析和理解,推测出人体的关节点位置和姿态信息。近年来,随着深度学习技术的进步和应用,基于...【详细内容】
2024-01-02  Search: 深度学习  点击:(79)  评论:(0)  加入收藏
深度学习中的图像生成对抗攻击与防御方法综述
随着深度学习技术的快速发展,图像生成对抗攻击成为了一个备受关注的研究领域。图像生成对抗攻击是指通过对抗样本的生成,欺骗深度学习模型,使其产生错误的分类结果。为了应对这...【详细内容】
2023-11-28  Search: 深度学习  点击:(239)  评论:(0)  加入收藏
面向时间序列数据的深度学习应用综述
时间序列数据是指按照时间顺序排列的数据集合,如股票价格、气象数据、交通流量等。深度学习作为一种强大的机器学习技术,已经在时间序列数据分析中取得了显著的成果。本文将对...【详细内容】
2023-11-27  Search: 深度学习  点击:(112)  评论:(0)  加入收藏
深度学习之模型压缩、加速模型推理
简介当将一个机器学习模型部署到生产环境中时,通常需要满足一些在模型原型阶段没有考虑到的要求。例如,在生产中使用的模型将不得不处理来自不同用户的大量请求。因此,您将希望...【详细内容】
2023-11-20  Search: 深度学习  点击:(203)  评论:(0)  加入收藏
深度学习模型与人类认知的对比与解释
深度学习模型是近年来人工智能领域的热门研究方向,其在图像识别、自然语言处理等任务上取得了令人瞩目的成果。然而,与人类认知相比,深度学习模型仍存在一些差距。本文将探讨深...【详细内容】
2023-11-17  Search: 深度学习  点击:(161)  评论:(0)  加入收藏
超大规模数据下的分布式深度学习模型训练技术
随着互联网和物联网的快速发展,数据规模呈现爆炸式增长。在这样的背景下,如何高效地训练深度学习模型成为了一个亟待解决的问题。传统的深度学习模型训练方式往往需要大量的计...【详细内容】
2023-11-08  Search: 深度学习  点击:(259)  评论:(0)  加入收藏
▌简易百科推荐
ChatGPT 应用商店?可能是一个万能应用程序!
OpenAI 在去年 11 月召开了一次开发者大会,首席执行官 Sam Altman 希望软件制造商在 ChatGPT 之上进行进一步的构建。OpenAI 表示,它将很快推出一个市场,开发人员和非技术人员...【详细内容】
2024-04-12  视角先锋队    Tags:ChatGPT   点击:(2)  评论:(0)  加入收藏
Kyligence发布企业级AI解决方案!AI数智助理降低数据使用门槛
智东西作者 | 长颈鹿编辑 | 李水青智东西4月12日报道,昨日大数据分析和指标平台供应商Kyligence(硅智信息)召开了数智论坛暨春季发布会,并分享和探讨Data+AI产品及解决方案在金...【详细内容】
2024-04-12    智东西  Tags:Kyligence   点击:(2)  评论:(0)  加入收藏
百度Create AI剧透:“三大开发神器”升级,模型增至77个,三步即可生成应用
智东西(公众号:zhidxcom)作者| 香草编辑| 李水青智东西4月11日报道,今日,在百度Create AI开发者大会预沟通会上,百度披露了“三大开发神器”AgentBuilder、AppBuilder、ModelBuild...【详细内容】
2024-04-12    智东西  Tags:Create AI   点击:(2)  评论:(0)  加入收藏
李彦宏最新内部讲话:开源大模型不如闭源,后者会持续领先
界面新闻记者 | 李如嘉界面新闻编辑 | 宋佳楠4月11日,界面新闻获悉,百度创始人、董事长兼首席执行官李彦宏在一场内部讲话中首次谈及文心大模型为何不开源,以及对于大模型开源...【详细内容】
2024-04-12    界面  Tags:李彦宏   点击:(1)  评论:(0)  加入收藏
AI未来或超越“最聪明的人”?专家谈发展如何兼顾公平
中新社北京4月11日电 (记者 马帅莎)到明年底或2026年,人工智能(AI)或超越“最聪明的人”,美国知名企业家埃隆·马斯克近日对人工智能的这一大胆猜想引起关注,这比他去年...【详细内容】
2024-04-12    中国新闻网  Tags:AI   点击:(2)  评论:(0)  加入收藏
行业大模型快速落地的一年,如何做?
生成式AI正成为时下科技企业“讲故事”的关键词之一。但从发展上看,无论是“文生文”的大语言模型,还是“文生图”的多模态模型,更多的是辅助人们进行一些简单的办公,或者提供一...【详细内容】
2024-04-10    钛媒体APP  Tags:行业大模型   点击:(3)  评论:(0)  加入收藏
互联网充斥“针对小白的AI课”,能相信吗?普通人不学AI课程会被淘汰?
早前,一位标榜清华大学博士和多家公司AI顾问名头的百万级粉丝量博主,向用户大力推介“所有人都需要学”的AI入门课程。不过,这些课程最终因贩卖焦虑、蒙骗学员而被平台下架。然...【详细内容】
2024-04-10    九派新闻  Tags:AI课   点击:(9)  评论:(0)  加入收藏
藏在AI背后的“吃电狂魔”
人工智能时代的能耗黑洞据估算,到2027年,人工智能行业每年将消耗85~134太瓦时的电力,相当于瑞典或荷兰一年的总用电量。马斯克判断,电力缺口最早可能会在2025年发生,“明年你会看...【详细内容】
2024-04-09    雪豹财经社  Tags:AI   点击:(4)  评论:(0)  加入收藏
OpenAI和谷歌再起纷争:AI的尽头是内容
日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也...【详细内容】
2024-04-09  小编也疯狂  新浪网  Tags:AI   点击:(4)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09    财联社  Tags:AI产业   点击:(4)  评论:(0)  加入收藏
站内最新
站内热门
站内头条