单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

时间：2023-11-28 12:07:51 来源：机器之心Pro 作者：

编辑：杜伟、佳琪

3D 生成是 AI 视觉领域的研究热点之一。本文中，来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去噪，并提出了一种新颖的 3D 生成方法 DMV3D，实现了新的 SOTA 结果。

2D 扩散模型极大地简化了图像内容的创作流程，2D 设计行业也因此发生了变革。近来，扩散模型已扩展到 3D 创作领域，减少了应用程序（如 VR、AR、机器人技术和游戏等）中的人工成本。有许多研究已经对使用预训练的 2D 扩散模型，生成具有评分蒸馏采样（SDS）损失的 NeRFs 方法进行了探索。然而，基于 SDS 的方法通常需要花费数小时来优化资源，并且经常引发图形中的几何问题，比如多面 Janus 问题。

另一方面，研究者对无需花费大量时间优化每个资源，也能够实现多样化生成的 3D 扩散模型也进行了多种尝试。这些方法通常需要获取包含真实数据的 3D 模型 / 点云用于训练。然而，对于真实图像来说，这种训练数据难以获得。由于目前的 3D 扩散方法通常基于两阶段训练，这导致在不分类、高度多样化的 3D 数据集上存在一个模糊且难以去噪的潜在空间，使得高质量渲染成为亟待解决的挑战。

为了解决这个问题，已经有研究者提出了单阶段模型，但这些模型大多数只针对特定的简单类别，泛化性较差。

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型，能直接根据模型文字或单张图片的输入，生成 3D NeRF。在单个 A100 GPU 上，仅需 30 秒，DMV3D 就能生成各种高保真 3D 图像。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

具体来讲，DMV3D 是一个 2D 多视图图像扩散模型，它将 3D NeRF 重建和渲染集成到其降噪器中，以端到端的方式进行训练，而无需直接 3D 监督。这避免了单独训练用于潜在空间扩散的 3D NeRF 编码器（如两阶段模型）和繁琐的对每个对象进行优化的方法（如 SDS）中会出现的问题。

本质上，本文的方法是对 2D 多视图扩散的框架进行 3D 重建。这种方法受到了 RenderDiffusion 的启发，它是一种通过单视图扩散实现 3D 生成的方法。然而，RenderDiffusion 的局限性在于，训练数据需要特定类别的先验知识，数据中的对象也需要特定的角度或姿势，因此泛化性很差，无法对任意类型的对象进行 3D 生成。

相比之下，研究者认为一组稀疏的包含一个对象的四个多视角的投影，足以描述一个没有被遮挡的 3D 物体。这种训练数据的输入源于人类的空间想象能力。他们可以根据几个对象的周围的平面视图，想象出一个完整的 3D 物体。这种想象通常是非常确定和具像化的。

然而，利用这种输入本质上仍需解决稀疏视图下 3D 重建的任务。这是一个长期存在的问题，即使在输入没有噪声的情况下，也是一个非常具有挑战性的问题。

本文的方法能够基于单个图像 / 文本实现 3D 生成。对于图像输入，他们固定一个稀疏视图作为无噪声输入，并对其他视图进行类似于 2D 图像修复的降噪。为了实现基于文本的 3D 生成，研究者使用了在 2D 扩散模型中通常会用到的、基于注意力的文本条件和不受类型限制的分类器。

他们只采用了图像空间监督，在 Objaverse 合成的图像和 MVIm.NET 真实捕获的图像组成的大型数据集上进行了训练。从结果来看，DMV3D 在单图像 3D 重建方面取得了 SOTA，超越了先前基于 SDS 的方法和 3D 扩散模型。DMV3D 生成的基于文本的 3D 模型，也优于此前的方法。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

论文地址：https://arxiv.org/pdf/2311.09217.pdf
官网地址：https://justimyhxu.Github.io/projects/dmv3d/

我们来看一下生成的 3D 图像效果。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

方法概览

单阶段 3D 扩散模型是如何训练并推理的呢？

研究者首先引入了一种新的扩散框架，该框架使用基于重建的降噪器来对有噪声的多视图图像去噪以进行 3D 生成；其次他们提出了一种新的、以扩散时间步为条件的、基于 LRM 的多视图降噪器，从而通过 3D NeRF 重建和渲染来渐进地对多视图图像进行去噪；最后进一步对模型进行扩散，支持文本和图像调节，实现可控生成。

多视图扩散和去噪

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

基于重建的多视图降噪器

研究者基于 LRM 构建了多视图降噪器，并使用大型 transformer 模型从有噪声的稀疏视图姿态图像中重建了一个干净的三平面 NeRF，然后将重建后的三平面 NeRF 的渲染用作去噪输出。

重建和渲染。如下图 3 所示，研究者使用一个 Vision Transformer（DINO）来将输入图像

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

转化为 2D token，然后使用 transformer 将学得的三平面位置嵌入映射到最后的三平面，以表示资产的 3D 形状和外观。接下来将预测到的三平面用来通过一个 MLP 来解码体积密度和颜色，以进行可微体积渲染。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

时间调节。与基于 CNN 的 DDPM（去噪扩散概率模型）相比，本文基于 transformer 的模型需要不同的时间调节设计。

相机调节。在具有高度多样化的相机内参和外参的数据集（如 MVImgNet）上训练本文的模型时，研究者表示需要对输入相机调节进行有效的设计，以促使模型理解相机并实现 3D 推理。

在单个图像或文本上调节

以上方法使研究者提出的模型可以充当一个无条件生成模型。他们介绍了如何利用条件降噪器

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

来对条件概率分布进行建模，其中 y 表示文本或图像，以实现可控 3D 生成。

图像调节。研究者提出了一种简单但有效的图像调节策略，其中不需要改变模型的架构。

文本调节。为了将文本调节添加到自己的模型中，研究者采用了类似于 Stable Diffusion 的策略。他们使用 CLIP 文本编码器生成文本嵌入，并使用交叉注意力将它们注入到降噪器中。

训练和推理

训练。在训练阶段，研究者在范围 [1, T] 内均匀地采样时间步 t，并根据余弦调度来添加噪声。他们使用随机相机姿态对输入图像进行采样，还随机采样额外的新视点来监督渲染以获得更好的质量。

研究者使用条件信号 y 来最小化以下训练目标。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

推理。在推理阶段，研究者选择了以圆圈均匀围绕对象的视点，以确保很好地覆盖生成的 3D 资产。他们将四个视图的相机市场角固定为 50 度。

实验结果

在实验环节，研究者使用了 AdamW 优化器来训练自己的模型，其中初始学习率为 4e^-4。他们针对该学习率使用了 3K 步的预热和余弦衰减，使用 256 × 256 输入图像来训练降噪器，对 128 × 128 的裁剪图像进行渲染以进行监督。

关于数据集，研究者的模型只需多视图姿态图像来训练，因而使用来自 Objaverse 数据集的约 730k 个对象的渲染后多视图图像。对于每个对象，他们按照 LRM 的设置，在对固定 50 度 FOV 的随机视点均匀照明下，渲染了 32 张图像。

首先是单图像重建。研究者将自己的图像 - 调节模型与 Point-E、Shap-E、Zero-1-to-3 和 Magic123 等以往方法在单图像重建任务上进行了比较。他们使用到的指标有 PSNR、LPIPS、CLIP 相似性得分和 FID，以评估所有方法的新视图渲染质量。

下表 1 分别展示了 GSO 和 ABO 测试集上的定量结果。研究者的模型优于所有基线方法，并在两个数据集上实现所有指标的新 SOTA。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

图 4 为定性结果，相比基线，本文模型生成的结果具有更高质量的几何和更清晰的外观细节。

相比之下，DMV3D 是一个以 2D 图像为训练目标的单阶段模型，无需对每个资产单独优化，在消除多视图扩散噪声的同时，直接生成 3D NeRF 的模型。总的来说，DMV3D 可以快速生成 3D 图像，并获得最优的单图像 3D 重建结果。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

从文本到 3D。研究者还评估了 DMV3D 基于文本的 3D 生成结果。研究者将 DMV3D 和同样能够支持全类别的快速推理的 Shap-E 和 Point-E 进行了比较。研究者让三个模型根据 Shap-E 的 50 个文本提示进行生成，并使用了两个不同的 ViT 模型的 CLIP 精度和平均精度来评估生成结果，如表 2 所示。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

从表中可以看出，DMV3D 表现出了最佳的精度。图 5 中是定性结果，相比于其他模型的生成结果，DMV3D 生成的图形明显包含更丰富的几何和外观细节，结果也更逼真。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

其他结果

在视角方面，研究者在表 3 和图 8 中显示了用不同数量（1、2、4、6）的输入视图训练的模型的定量和定性比较。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

在多实例生成方面，与其他扩散模型类似，本文提出的模型可以根据随机输入生成多种示例，如图 1 所示，展示了该模型生成结果的泛化性。

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

在应用方面，DMV3D 具备广泛的灵活性和通用性，在 3D 生成应用领域具备较强的发展潜力。如图 1 和图 2 所示，本文方法能够在图像编辑应用程序中通过分割（如 SAM）等方法将 2D 照片中的任意对象提升到 3D 的维度。

更多技术细节和实验结果请查阅原论文。

Tags：Adobe 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

用Python替代Adobe，零成本从PDF提取数据

一、简介PDF文件是官方报告、发票和数据表的通用语言，然而从PDF文件中提取表格数据可能是一项挑战。尽管Adobe Acrobat等工具提供了解决方案，但它们并不总是易于获取或可自动...【详细内容】

2023-11-28　　Search: Adobe 点击:(188)　　评论:(0)　　加入收藏

单个A100生成3D图像只需30秒,Adobe让文本、图像都动起来的新方法

编辑：杜伟、佳琪3D 生成是 AI 视觉领域的研究热点之一。本文中，来自 Adobe 研究院和斯坦福大学等机构的研究者利用基于 transformer 的 3D 大型重建模型来对多视图扩散进行去...【详细内容】

2023-11-28　　Search: Adobe 点击:(177)　　评论:(0)　　加入收藏

AIGC创业公司还没盈利，微软Adobe已赚得盆满钵满

衡宇萧箫发自凹非寺量子位 | 公众号 QbitAI一出奥特曼在OpenAI“来去之间”的戏码，以回归暂告一段落。过程很抓马，吃瓜群众很激动，当然了，最开心的还得是微软。不仅因为这出...【详细内容】

2023-11-24　　Search: Adobe 点击:(81)　　评论:(0)　　加入收藏

Adobe研究人员研发新AI模型LRM：实现从2D样本瞬时生成3D图像

由Adobe Research和澳大利亚国立大学（ANU）联合研发的人工智能模型宣布了一项突破性的成果，能够从单一的2D图像中生成3D图像。研究人员表示，他们的新算法在大规模图像样本上进行...【详细内容】

2023-11-14　　Search: Adobe 点击:(160)　　评论:(0)　　加入收藏

AI应用“龙头”浮现：Adobe！

来源：华尔街见闻赵颖强大的视频AI技术能让用户“节省数小时的重复性琐碎工作”，Adobe预计将迎来业绩兑现且利润率可能保持在45%以上。强大AI功能重振增长前景，Adobe或将迎来业...【详细内容】

2023-10-16　　Search: Adobe 点击:(99)　　评论:(0)　　加入收藏

AI风口来袭，Adobe(ADBE.US)推出全新AI模型引领平面设计革命

智通财经APP获悉，提供Photoshop、Illustrator等热门软件产品的科技巨头Adobe（ADBE.US）宣布了其生成式人工智能模型Firefly的多个新版本，承诺提供更高质量的图像和生成新型媒体内...【详细内容】

2023-10-13　　Search: Adobe 点击:(269)　　评论:(0)　　加入收藏

Adobe新版AI绘画炸场，2k分辨率在线就能玩，网友：效果比DALL·E 3更强

Firefly新版文生图工具，直接炸场Adobe春晚！在一年一度的MAX大会上，Adobe推出了一系列新功能。其中最受瞩目的，就要属“文生图2.0”Firefly Image 2了——不仅生成图像...【详细内容】

2023-10-12　　Search: Adobe 点击:(306)　　评论:(0)　　加入收藏

Adobe 推 AI 生图下猛药：侵权包赔！企业版 Firefly 已上线

原文来源：量子位图片来源：由无界 AI 生成AI 生图涉嫌侵权怎么破？Adobe 打包票：用户只管玩，侵权我们赔！现在，Adobe 正式推出面向企业客户的 Firefly，并保证使用过程涉及版权侵权诉讼，...【详细内容】

2023-09-10　　Search: Adobe 点击:(210)　　评论:(0)　　加入收藏

Adobe联创去世，没他就没有PDF，乔布斯也因他逆风翻盘

梦晨克雷西发自凹非寺量子位 | 公众号 QbitAIAdobe联合创始人John Warnock去世了，享年82岁。他是PDF格式的发明人之一，贡献了PDF中的核心技术PostScript——如果...【详细内容】

2023-08-21　　Search: Adobe 点击:(168)　　评论:(0)　　加入收藏

adobe photoshop cc 2019修改界面主题颜色的方法

很多人在办公中都在使用adobe photoshop cc 2019软件，不过你们晓得adobe photoshop cc 2019怎么修改界面主题颜色吗?接下来，小编就为大伙带来了adobe photoshop cc 2019修改界...【详细内容】

2023-08-21　　Search: Adobe 点击:(204)　　评论:(0)　　加入收藏

▌简易百科推荐

Win10/Win11和 macOS用户反馈：谷歌云服务“捆绑”系统 DNS 设置

IT之家 4 月 6 日消息，谷歌公司承认旗下的 Google One 订阅服务中存在问题，在 Windows 10、Windows 11 以及 macOS 系统上会更改系统 DNS 设置，变更为 8.8.8.8 地址。Google On...【详细内容】

2024-04-08　　　　IT之家　　Tags:Win10 　点击:(3)　　评论:(0)　　加入收藏

微软 Edge 浏览器将迎来“内存限制器”功能，用户可自主控制 Edge 内存占用

IT之家 3 月 28 日消息，微软即将为其 Edge 浏览器带来一项实用新功能，据悉该公司正在测试一项内置的内存限制器，这项功能可以让用户限制 Edge 所占用的内存，防止浏览器超出内存...【详细内容】

2024-03-29　　　　IT之家　　Tags:Edge 　点击:(13)　　评论:(0)　　加入收藏

一寸照片的大小如何压缩？四个实测效果很好的方法

一寸照片作为生活中常见的尺寸之一，常用于各类证件照与证明文件的制作。然而，受限于其较为狭小的尺寸，上传及打印过程中很容易出现尺寸超限的情况。所以，这个时候就需要对其体积...【详细内容】

2024-03-18　　宠物小阿涛　　　　Tags:压缩　点击:(12)　　评论:(0)　　加入收藏

手机投屏到电脑/电视的方法

方法一：Win10自带的投影功能1、将手机和电脑连接同一个无线网络。2、选择【开始】>【设置】>【系统】>【投影到此电脑】3、将默认的始终关闭的选项更改为所有位置都可用。4、...【详细内容】

2024-03-18　　　　老吴讲I　　Tags:投屏　点击:(13)　　评论:(0)　　加入收藏

微软商店怎么卸载应用一分钟快速看懂！

微软商店怎么卸载应用一分钟快速看懂！微软公司（Microsoft Corporation）是一家全球领先的科技企业，总部位于美国华盛顿州的雷德蒙德。成立于1975年，由比尔·盖茨和保罗&mid...【详细内容】

2024-02-27　　婷婷说体育　　　　Tags:微软商店　点击:(35)　　评论:(0)　　加入收藏

微软Edge浏览器新功能：手机上传配对设备直接传文件

2月21日，微软最新的稳定版本Edge浏览器在Windows 11/10端加入了“手机上传”功能。这一功能允许用户直接从移动设备上上传文件，适用于所有网站，并且没有文件格式限制。要使用这...【详细内容】

2024-02-21　　　　中关村在线　　Tags:Edge 　点击:(127)　　评论:(0)　　加入收藏

什么是虚拟机？你知道吗？

谁都没想到 Sun 公司技术如此的强大，却在之后的岁月里逐渐走向陨落，因为不懂销售和运营，导致公司财务逐渐出现亏损，在 2009 年，Oracle 公司以现金方式收购 Sun 公司，交易价格达 74...【详细内容】

2024-02-19　　Java极客技术　　微信公众号　　Tags:虚拟机　点击:(43)　　评论:(0)　　加入收藏

怎么查看电脑使用记录

查看电脑使用记录是一项常见的操作，可以帮助用户了解自己或其他人在电脑上进行了哪些操作。下面是一个详细的解释，包括查看浏览历史、文件访问记录、应用程序使用记录以及其他...【详细内容】

2024-02-06　　编程资料站　　　　Tags:使用记录　点击:(81)　　评论:(0)　　加入收藏

电脑虚拟内存怎么设置？1分钟快速增加内存！

“我电脑里的内存好像不太够用，因此，我想在电脑里增加一些虚拟内存。不知道我应该怎么操作呢？有什么比较简单的此操作方法吗？” 虚拟内存是计算机系统内存管理的一种技术，它为程...【详细内容】

2024-02-06　　数据蛙恢复专家　　　　Tags:虚拟内存　点击:(61)　　评论:(0)　　加入收藏

新手制作ai写真都是用哪些工具？

春节即将来临，你的朋友圈是否已经被各种春节主题的个人写真刷屏了？看到那么多美照，你是否也心动了？其实，制作个人写真并不需要专门去拍摄，现在有很多AI写真软件可以轻松制作出自己...【详细内容】

2024-01-31　　雨后海棠　　　　Tags:ai写真　点击:(60)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版