您当前的位置:首页 > 互联网百科 > 元宇宙

不堆参数、不靠时长,Meta加速ViT训练流程,吞吐量4倍提升

时间:2022-05-26 20:02:42  来源:  作者:机器之心Pro

有时候,好的训练「技巧」比蛮力堆参更有效。

现阶段,视觉 transformer(ViT)模型已经在图像分类、目标检测与分割等各样各样的计算机视觉任务中得到了广泛应用,并可以在视觉表征与识别中实现 SOTA 结果。由于计算机视觉模型的性能往往与参数量和训练时长呈正相关,AI 社区已经实验了越来越大规模的 ViT 模型。

但应看到,随着模型开始超出万亿次浮点运算的规模,该领域已经遇到了一些主要的瓶颈。训练单个模型可能耗费数月,需要数以千块的 GPU,进而增加了加速器需求并导致大规模 ViT 模型将很多从业者「排除在外」。

为了扩展 ViT 模型的使用范围,Meta AI 的研究者已经开发出了更高效的训练方法。非常重要的一点是对训练进行优化以实现最佳的加速器利用。但是,这一过程耗时费力且需要大量的专业知识。为了设置有序的实验,研究者必须从无数可能的优化方案中进行选择:一次训练过程中执行的百万次运算中的任何一个都有可能受到低效率的影响和阻碍。

Meta AI 发现,通过将一系列优化应用到其图像分类代码库 PyCls 中的 ViT 实现,可以提升计算和存储效率。对于使用 PyCIs 训练的 ViT 模型,Meta AI 的方法可以提升训练速度和每加速器吞吐量(TFLOPS)。

下图展示了使用优化代码库 PyCIs 后每芯片(per chip)加速器吞吐量相较于 V100 基准的相对增加,而 A100 优化的加速器吞吐量是 V100 基准的 4.05 倍。

不堆参数、不靠时长,Meta加速ViT训练流程,吞吐量4倍提升

 

运行原理

Meta AI 首先对 PyCIs 代码库进行分析以确认低训练效率的潜在来源,最终将注意力放在了对数字格式的选择上。在默认情况下,大多数应用使用 32-bit 单精度浮点格式来表征神经网络值。转换至 16-bit 半精度格式(FP16)可以减少模型的内存占用和执行时间,但往往也会降低准确率。

研究者采取了折中方案,即混合精度。利用它,系统通过单精度格式执行计算以加速训练并减少内存使用,同时通过单精度存储结果以保持准确率。他们没有手动地将部分网络转换至半精度,而是实验了不同模式的自动混合精度训练,这样可以在数字格式之间自动切换。更高级模式的自动混合精度主要依赖半精度运算和模型权重。研究者采用的平衡设置既能大幅度加速训练,同时也不牺牲准确率。

为了使流程更加高效,研究者充分利用了 FairScale 库中的完全分片数据并行(Fully Sharder Data Parallel, FSDP)训练算法,它在 GPU 上对参数、梯度和优化器状态进行分片。通过 FSDP 算法,研究者可以使用更少的 GPU 构建更大量级的模型。此外,研究者还使用了 MTA 优化器、一个池化的 ViT 分类器和一个 batch-second 输入张量布局来跳过冗余转置运算。

下图 X 轴为可能的优化,Y 轴为采用 ViT-H/16 训练时加速器吞吐量相较于分布式数据并行(DDP)基准的相对增加。

不堆参数、不靠时长,Meta加速ViT训练流程,吞吐量4倍提升

 

研究者在总 patch 大小为 560 时实现了 1.51 倍的加速器吞吐量提升,以每个加速器芯片上每秒执行的浮点运算数量衡量。通过将图像大小从 224 像素增加至 256 像素,他们可以将吞吐量提升至 1.86 倍。但是,改变图像大小意味着超参数的变化,这会对模型的准确率造成影响。在完全 FP16 模式下训练时,相对吞吐量增加至 2.18 倍。尽管有时会降低准确率,但在实验中准确率降低少于 10%。

下图 Y 轴为 epoch 时间,在整个 Imag.NET-1K 数据集上一次训练的持续时间。这里专注于现有配置的实际训练时间,这些配置通常使用 224 像素的图像大小。

不堆参数、不靠时长,Meta加速ViT训练流程,吞吐量4倍提升

 

Meta AI 的研究者使用优化方案,将 epoch 时间(在整个 ImageNet-1K 数据集上一次训练的持续时间)从 0.65 小时减少到 0.43 小时。

下图 X 轴表示特定配置中 A100 GPU 加速器芯片的数量,Y 轴表示每芯片 TFLOPS 的绝对吞吐量。

不堆参数、不靠时长,Meta加速ViT训练流程,吞吐量4倍提升

 

该研究还讨论了不同 GPU 配置的影响。在每种情况下,系统都实现了比分布式数据并行(DDP)基线水平更高的吞吐量。随着芯片数量的增加,由于设备间通信的开销,我们可以观察到吞吐量略有下降。然而,即使用 64 块 GPU,Meta 的系统也比 DDP 基准快 1.83 倍。

新研究的意义

将 ViT 训练中可实现的吞吐量翻倍可以有效让训练集群规模翻倍,提高加速器利用率直接减少了 AI 模型的碳排放。由于最近大模型的发展带来了更大模型和更长训练时间的趋势,这种优化有望帮助研究领域进一步推动最先进的技术,缩短周转时间并提高生产力。

原文链接:https://ai.facebook.com/blog/significantly-faster-vision-transformer-training/



Tags:Meta   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Meta AI 全球市场扩张,并上线网页版 meta.ai
IT之家 4 月 19 日消息,Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表...【详细内容】
2024-04-19  Search: Meta  点击:(2)  评论:(0)  加入收藏
重磅!Meta推出开源大模型Llama 3,性能直逼GPT-4
每经编辑:杜宇当地时间4月18日,AI 领域迎来重磅消息,Meta正式发布了人们等待已久的开源大模型Llama 3。与此同时,Meta首席执行官扎克伯格宣布:基于最新的Llama 3模型,Meta的AI助手...【详细内容】
2024-04-19  Search: Meta  点击:(4)  评论:(0)  加入收藏
Meta如何将缓存一致性提高到99.99999999%
介绍缓存是一种强大的技术,广泛应用于计算机系统的各个方面,从硬件缓存到操作系统、网络浏览器,尤其是后端开发。对于Meta这样的公司来说,缓存尤为重要,因为它有助于减少延迟、扩...【详细内容】
2024-04-15  Search: Meta  点击:(3)  评论:(0)  加入收藏
Meta确认5月发布Llama 3,参数量达1400亿
周二,在伦敦的一场活动上,Meta 确认计划在下个月初推出其 LLM 的最新版 Llama 3,这个模型是驱动生成式 AI 助手的核心技术。这一消息证实了《The Information》杂志周一发布的...【详细内容】
2024-04-12  Search: Meta  点击:(18)  评论:(0)  加入收藏
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11  Search: Meta  点击:(7)  评论:(0)  加入收藏
AI是万灵药?Meta要把大模型塞进AR眼镜里
寻找下一块“屏幕”,这无疑是最近几年科技行业的一个热门赛道。随着个人计算机点燃了互联网,智能手机让移动互联网无处不在之后,这前后两次造富神话的出现,也让所有人都在期待下...【详细内容】
2024-04-09  Search: Meta  点击:(10)  评论:(0)  加入收藏
AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
财联社4月7日讯(编辑 史正丞)种种迹象显示,目前站在全世界AI领域潮头浪尖的这些公司,早在几年前就已经陷入对训练语料的“绝望”追逐中——为此他们不惜修改政策条款...【详细内容】
2024-04-09  Search: Meta  点击:(8)  评论:(0)  加入收藏
Meta:Quest 手势追踪不会用于模拟手柄
IT之家 3 月 28 日消息,Meta Quest 用户期待的“空气手柄”功能可能要落空了。近日,Meta 的一位产品经理明确表示,手势追踪功能不会用于模拟传统的实体手柄控制器。据IT之家了...【详细内容】
2024-03-29  Search: Meta  点击:(12)  评论:(0)  加入收藏
Meta:苹果入局证明扎克伯格对AR/VR坚持投入是正确的
(映维网Nweon 2024年01月29日)根据《华尔街日报》报道,对于苹果携Vision Pro正式入局头显市场,Meta实际上非常欢迎,并希望苹果及Vision Pro可以助力他们已投入500亿美元的元宇宙...【详细内容】
2024-01-29  Search: Meta  点击:(57)  评论:(0)  加入收藏
谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5
新智元报道编辑:编辑部【新智元导读】谷歌放出的Gemini,在对标GPT的道路上似乎一直处于劣势,Gemini真的比GPT-4弱吗?最近,斯坦福和Meta的学者发文为Gemini正名。Gemini的推理能力...【详细内容】
2024-01-02  Search: Meta  点击:(72)  评论:(0)  加入收藏
▌简易百科推荐
解读数字藏品与元宇宙有何关联?
数字藏品与元宇宙的关联主要体现在以下几个方面: 数字藏品是元宇宙的重要组成部分:在元宇宙中,数字藏品是一种重要的数字资产,它们可以作为元宇宙中的虚拟物品、艺术品、文物、...【详细内容】
2024-03-06  小磊爱交友    Tags:元宇宙   点击:(20)  评论:(0)  加入收藏
元宇宙怎样从概念到产业?
南京市元宇宙产业大厦。(受访者供图)游戏玩家利用小程序参与任务。医学生可在元宇宙教学医院模拟练习。□ 本报记者 何钰 徐冠英1月29日,工信部、教育部等7部门联合出台的《关...【详细内容】
2024-02-02    新华日报  Tags:元宇宙   点击:(30)  评论:(0)  加入收藏
扎克伯格谈愿景:元宇宙AI 两手抓,预估年底有35万片英伟达 H100
IT之家 1 月 19 日消息,Meta 公司首席执行官马克・扎克伯格(Mark Zuckerberg)近日在 Threads 上发布视频,表示正扩大 AI 团队阵容,推动元宇宙和人工智能发展。IT之家附上视频如下...【详细内容】
2024-01-19    IT之家  Tags:扎克伯格   点击:(47)  评论:(0)  加入收藏
2024 年,谁是元宇宙的救命稻草?
“元宇宙元年”开启时,科技的触角企图在0与1构成的世界里、安放可以数字化的一切,绘制出时间与空间的虚拟延长线。尼尔·斯蒂芬森笔下的虚拟城市沿着一条100米宽的道路...【详细内容】
2024-01-03  AI新智界    Tags:元宇宙   点击:(46)  评论:(0)  加入收藏
全新虚拟人技术发布,苹果原来还握着这么多元宇宙大招
随着年末的到来,半年前苹果在头显领域的大招Vision Pro距离正式发售也越来越近。虽然半年来,大家的目光都聚焦在Vision Pro可能带来的全新沉浸式体验上,但潜藏在其中关于虚拟人...【详细内容】
2023-12-27  元宇宙新声    Tags:元宇宙   点击:(42)  评论:(0)  加入收藏
图像渲染和元宇宙的关系,你知道吗?
图像渲染是计算机图形学中的一个重要概念,它指的是通过计算机程序生成和处理数字图像的过程从定义上来说,渲染就是将抽象的几何模型转换成可视化的图像。它涉及光照、材质、阴...【详细内容】
2023-11-21  时空元宇宙    Tags:元宇宙   点击:(54)  评论:(0)  加入收藏
元宇宙的虚拟与现实
元宇宙的概念最早可以追溯到上个世纪的科幻小说作品。进入到二十一世纪二十年代,随着虚拟现实技术的发展,元宇宙的概念再一次被业界追捧。简单地说,元宇宙就是利用虚拟现实技术...【详细内容】
2023-11-20  JerryZang    Tags:元宇宙   点击:(86)  评论:(0)  加入收藏
教育元宇宙须与现实无缝融合
编者按当今世界,科技进步日新月异,互联网、云计算等现代信息技术深刻改变着人类的思维与学习方式。如何因应信息技术的发展,推动教育变革和创新,建设“人人皆学、处处能学、时时...【详细内容】
2023-10-31    光明日报  Tags:元宇宙   点击:(102)  评论:(0)  加入收藏
TOD与科幻相遇 会怎样“对话”?
智慧化、数字化、未来感……TOD与科幻相遇 会怎样“对话”?“元宇宙”TOD概念方案 受访者供图前日,备受瞩目的2023成都世界科幻大会在蓉落幕。当科幻与TOD相遇会...【详细内容】
2023-10-24    锦观新闻  Tags:TOD   点击:(73)  评论:(0)  加入收藏
元宇宙开始从科幻走向现实
近些年,元宇宙的概念吸引了全球公司的关注和投资,尤其是在 Facebook 宣布更名为 META 之后。元宇宙可以被描述为一个三维虚拟空间,通过可视化界面增强在线活动。虽然对元宇宙的...【详细内容】
2023-10-11    新浪VR  Tags:元宇宙   点击:(65)  评论:(0)  加入收藏
站内最新
站内热门
站内头条