您当前的位置:首页 > 新闻资讯 > 科技

谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍

时间:2022-08-07 14:27:36  来源:  作者:新智元

新智元报道

编辑:LRS

【新智元导读】最近谷歌发布了全新的MobileNeRF模型,直接将神经辐射场拉入移动时代,内存需求仅为1/6,渲染3D模型速度提升10倍,手机、浏览器都能用!

2020年,神经辐射场(NeRF)横空出世,只需几张2D的静态图像,即可合成出该模型的3D场景表示,从此改变了3D模型合成的技术格局。

NeRF以一个多层感知器(MLP)来学习表示场景,评估一个5D隐式函数来估计从任何方向、任何位置发出的密度和辐射,可在体渲染(volumic rendering)框架下用于生成新图像。

NeRF经过最小化多视图色彩一致性的损失的优化后,相比传统的生成方式,对于新视图能够保留更好的图像细节。

但目前主流的NeRF实现方式仍然存在弊端,即需要专门的渲染算法,而这些算法与当下常见的硬件并不匹配。

传统的NeRF实现使用体积渲染算法,用于在光线沿线的数百个采样位置为每个像素都运行一次大规模MLP,以便估计和密度和辐射度。这种渲染过程对于交互式的可视化来说太慢了,没法用于实时渲染。

最近有研究将NeRF烘焙(baking)到稀疏的3D voxel grid中来解决这个问题,比如SNeRG中的每个激活的voxel包含不透明度、漫反射颜色和学习的特征向量。

从SNeRG绘制图像分为两个阶段:第一阶段使用光线行进来累积沿每条光线的预计算漫反射颜色和特征向量,第二阶段使用对累积特征向量进行操作的轻型MLP来产生与视图相关的残差,该残差添加到ac累积漫反射颜色,这种预计算和延迟渲染方法将NeRF的渲染速度提高了三个数量级。

但SNeRG仍然依靠光线在稀疏体素网格中行进来生成每个像素的特征,因此无法充分利用GPU的并行性。

此外,SNeRG需要大量的GPU内存来存储体积纹理,所以没办法在手机等移动端设备上运行。

最近,google Research和西蒙菲莎大学的研究人员联合提出一种全新的模型MobileNeRF,成功将NeRF模型部署在多种常见的移动设备上。

论文链接:https://arxiv.org/abs/2208.00277

Demo链接:https://mobile-nerf.Github.io/

NeRF由一组纹理多边形(textured polygons)表示,其中多边形大致沿着场景表面排布,纹理图集存储不透明度和特征向量。

在渲染图像阶段,MobileNeRF利用带Z-buffering的经典多边形光栅化管道为每个像素生成特征向量,并将其传递给GLSL片段着色器中的轻型MLP运行以生成输出颜色。

渲染管道不按深度顺序对光线采样或对多边形排序,因此只能对二进制不透明进行建模。但MobileNeRF可以充分利用了现代图形集成电路硬件中z缓冲区和片段着色器提供的并行性,因此在标准测试场景上比SNeRG快10倍,而且输出质量几乎相同。

此外,MobileNeRF只需要一个标准的多边形渲染管道,可以在几乎所有的计算平台上实现和加速,因此可以在手机和其他以前无法以交互速率支持NeRF可视化的设备上运行。

作者还提供了一个演示网站,可以在web浏览器上实时渲染。

文章的第一作者Zhiqin Chen是西蒙菲莎大学的三年级博士生。于2019年获得西蒙菲莎大学硕士学位,2017年获得上海交通大学学士学位。主要研究兴趣是计算机图形学,主修几何建模和机器学习。

NeRF进入移动时代

给定一个经过校准的图像集合,NeRF的目标就是找到一个高效的新视图合成(novel-view synthesis)的表征,包括一个多边形网格(polygonal mesh),其纹理图存储了特征和不透明度。

在渲染时,给定一个摄像机的姿势,MobileNeRF采用两阶段的延迟渲染过程:

渲染阶段1:将网格栅格化为屏幕空间,并构建一个特征图像,即在GPU内存中创建一个延迟渲染缓冲区。

渲染阶段2:通过运行在片段着色器中的神经延迟渲染器将这些特征转换成彩色图像,即一个小型MLP,能够接收特征和视图方向并输出一个像素颜色。

表示法的训练分为三个阶段,从一个经典的类似于NeRF的连续表示法逐渐转向一个离散的表示法。

训练阶段1:连续训练。训练一个类似于NeRF的连续不透明度模型,其中体积渲染正交点来自于多边形mesh

在不损失一般性的情况下,研究人员描述了合成360度场景中使用的多边形网格,首先在单位立方体中以原点为中心定义一个大小为P×P×P的regular grid,通过为每个创建一个顶点来实例化V,通过为每个网格边缘创建一个连接四个相邻voxel顶点的四边形(两个三角形)来实例化。

在优化过程中,将顶点位置初始化为V=0,即对应于regular Euclidean lattice,并对其进行正则化处理,以防止顶点离开voxel,并在优化问题受限的情况下使其返回到中间位置。

训练阶段2:对不透明度进行二进制化,因为虽然经典的栅格化可以很容易地将碎片分解,但对于半透明碎片的处理却很麻烦。

一般硬件实现的渲染管道并不支持半透明的网格。渲染半透明网格需要对每一帧进行排序,因此要按从后到前的顺序执行渲染,以保证正确的alpha合成。

研究人员通过将平滑不透明度转换为离散/分类不透明度解决了这一问题。

为了通过photometric supervision的方式来优化离散不透明度,模型还采用了直通式估计器(strAIght-through estimator)。需要注意的是,其梯度是透明地通过离散化操作,不考虑平滑透明度和离散透明度的值。为了稳定训练,研究人员选择对连续和离散模型进行联合训练。

训练阶段3:提取一个稀疏的多边形网格,将不透明度和特征烘焙成纹理图,并存储神经递延着色器的权重。网格被存储为OBJ文件,纹理图被存储为PNG文件,而延迟着色器的权重则被存储在一个(小型)JSON文件中。

在传统的光栅化pipeline中,想要获得高质量的光栅化结果,混叠(aliasing)是一个必须考虑的问题。虽然经典的NeRF通过半透明体来实现平滑的边缘,但半透明体需要对每帧多边形排序。

研究人员通过采用超采样抗锯齿来克服这个问题。虽然可以简单地执行四次/像素,并对得到的颜色进行平均,但延迟神经着色器的执行仍然是该技术的计算瓶颈。研究人员通过简单地平均化特征来缓解这个问题,即平均化延迟神经着色器的输入,而非平均化其输出。

在将其送入神经延迟着色器之前,对子像素特征进行平均,以产生抗混叠表示。

由于MobileNeRF采用了标准的GPU光栅化管道,所以需要的实时渲染器可以在html网页中运行。

在实验阶段,研究人员设置了一系列的实验来测试MobileNeRF在各种场景和设备上的表现。

使用了三个数据集进行测试:NeRF的8个合成360°场景,LLFF的8个正面场景,以及Mip-NeRF 360的5个无界360°户外场景。

主要的对比模型为SNeRG,因为它是目前唯一一个可以在常见的设备上实时运行的NeRF模型。

渲染的分辨率与训练的图像相同,800×800的合成图像,1008×756的正向图像,以及1256×828的无界图像,并且在chrome浏览器上测试所有的方法,并在一个完整的圈中旋转/平移相机,以渲染360个框架。

在测试时,GPU内存消耗和存储成本相比SNeRG来说也降低了很多。

其中SNeRG由于其网格表示方法不同,无法表示无界的360°场景,并且由于兼容性或内存不足的问题,无法在手机或平板电脑上运行。

在渲染质量上来看,用常见的PSNR、SSIM和LPIPS指标与其他方法进行比较后,可以发现MobileNeRF的质量与SNeRG大致相同。

当摄像机处于适当的距离时,我们的方法实现了与SNeRG相似的图像质量。当相机被放大时,SNeRG倾向于呈现过度平滑的图像。

在多边形的计数中,可以看到MobileNeRF对每个场景产生的顶点和三角形的平均数量,以及与初始网格中所有可用顶点/三角形相比的百分比。由于MobileNeRF只保留了可见的三角形,所以在最终的网格中大部分顶点/三角形被移除。

阴影网格(shading mesh)对比下,文中展示了提取的没有纹理的三角形网格。三角形面大部分是轴对齐的,而不是与实际物体表面对齐。

因此,如果希望有更好的表面质量,需要设计出更好的正则化损失或训练目标,但优化顶点也确实改善了渲染质量。

参考资料:

https://czq142857.github.io/



Tags:MobileNeRF   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
谷歌华人研究员发布MobileNeRF,渲染3D模型速度提升10倍
最近谷歌发布了全新的MobileNeRF模型,直接将神经辐射场拉入移动时代,内存需求仅为1/6,渲染3D模型速度提升10倍,手机、浏览器都能用! 2020年,神经辐射场(NeRF)横空出世,只需几张2D的静...【详细内容】
2022-08-07  Search: MobileNeRF  点击:(279)  评论:(0)  加入收藏
▌简易百科推荐
从大模型爆发到AI PC面世 人工智能个人化时代来了吗?
中新网上海4月18日电(记者 郑莹莹 刘育英)1981年,IBM公司推出第一台真正意义上的个人电脑,开启了PC,Personal Computer的浪潮。联想集团(简称:联想)董事长兼CEO杨元庆还记得当年...【详细内容】
2024-04-19    中国新闻网  Tags:人工智能   点击:(3)  评论:(0)  加入收藏
李彦宏新目标,押注AI原生应用
文 / 道哥“未来,自然语言将成为新的通用编程语言。你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。” 4月16日,百度创始人、董事长兼首席执行官李彦宏在Create 20...【详细内容】
2024-04-18    节点财经  Tags:李彦宏   点击:(4)  评论:(0)  加入收藏
李彦宏的三个AI猛药,能让百度翻盘吗?
“你只要会说话,就可以成为一名开发者!”李彦宏在第五届百度AI开发者大会自信宣告上这样说道。过去一年,AI破圈的故事屡见不鲜, 我们不断能看见“AI让写作变成零门槛”“不会画...【详细内容】
2024-04-18    太平洋科技  Tags:李彦宏   点击:(5)  评论:(0)  加入收藏
斯坦福发布2024 AI报告:中国AI专利全球第一,顶级AI模型主要来自美国
近日,由李飞飞联合领导的斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2024 年人工智能指数报告》(Artificial Intelligence Index Report 2024)。这份长达 300 多页...【详细内容】
2024-04-18    学术头条  Tags:AI报告   点击:(10)  评论:(0)  加入收藏
Create 2024百度AI开发者大会:李彦宏带来三大AI开发工具,让人人都是开发者
“未来,自然语言将成为新的通用编程语言,你只要会说话,就可以成为一名开发者,用自己的创造力改变世界。”4月16日,Create 2024百度AI开发者大会在深圳举办。百度创始人、董事长兼...【详细内容】
2024-04-17    每日经济新闻  Tags:AI开发   点击:(6)  评论:(0)  加入收藏
Google成了“AI界汪峰”,全都怪OpenAI?
  2016 年,Google CEO 桑达尔·皮查伊在 I/O 开发者大会上豪情满怀地向全世界宣布:Google 已经成为了搜索的代名词,Alphabet 未来将成为一家 AI 优先的公司。  凭借...【详细内容】
2024-04-15    APPSO  Tags:Google   点击:(6)  评论:(0)  加入收藏
人工智能耗电凶猛,科技巨头寻求核聚变发电
第一财经 作者:朱颖人工智能(AI)是电老虎,每天在吞噬巨大的电能。据报道,OpenAI的ChatGPT每天消耗超过50万千瓦时的电力,以响应2亿个用户的请求,而美国一个家庭平均每天的用电量...【详细内容】
2024-04-15    第一财经  Tags:人工智能耗电   点击:(6)  评论:(0)  加入收藏
Meta确认5月发布Llama 3,参数量达1400亿
周二,在伦敦的一场活动上,Meta 确认计划在下个月初推出其 LLM 的最新版 Llama 3,这个模型是驱动生成式 AI 助手的核心技术。这一消息证实了《The Information》杂志周一发布的...【详细内容】
2024-04-12  视角先锋队    Tags:Meta   点击:(18)  评论:(0)  加入收藏
OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型
IT之家 4 月 12 日消息,OpenAI 今日宣布,新 GPT-4 Turbo 现已向付费 ChatGPT 用户开放。与 1 月份相比,新版本提高了写作、数学、逻辑推理和编码的能力。GPT-4 Turbo 可在 Chat...【详细内容】
2024-04-12    IT之家  Tags:GPT-4   点击:(11)  评论:(0)  加入收藏
Meta推出新版自研AI芯片:性能较上代提高三倍,降低对英伟达依赖
AI(人工智能)芯片紧缺之际,越来越多科技巨头选择自行研发。当地时间4月10日,社交巨头Meta公布了自主研发芯片MTIA的最新版本。MTIA是Meta专门为AI训练和推理工作设计的定制芯片...【详细内容】
2024-04-11    澎湃新闻  Tags:Meta   点击:(7)  评论:(0)  加入收藏
相关文章
    无相关信息
站内最新
站内热门
相关头条
  • · 斯坦福发布2024 AI报告:中国AI专利全球第一,顶级AI模型主要来自美国
  • · 谷歌搜索史上最大变革!考虑对AI搜索收费
  • · ChatGPT官宣免注册,全球互联网变天!OpenAI将取代谷歌搜索?
  • · 马斯克脑机接口再造奇迹:瘫痪小伙意念玩赛车击败正常人
  • · Kimi引燃大模型“长文本竞赛”,阿里360百度急出手
  • · 瘫痪8年小哥植入马斯克脑机接口,狂打8小时「文明6」!Neuralink首个人类植入者直播来了
  • · 英伟达“算力核弹”强在哪里?
  • · AI大模型之争远未落幕
  • · 世界首款!英伟达重磅发布人形机器人模型
  • · 全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场
  • · 真“Open ” AI?马斯克旗下大模型Grok宣布开源:参数量全球最大
  • · 全球首位AI程序员诞生 人类程序员会失业吗?
  • · 谷歌宣布更新搜索算法:打击AI生成内容,提高搜索结果质量
  • · 英伟达、微软等巨头“抱团”,AI有望助推6G时代到来 国内产业如何接招?
  • · OpenAI Sora已开放对外申请 网友爆料:可能还有其它重磅产品发布
  • · 周鸿祎再谈Sora:真正给人工智能补上了“眼睛”
  • · Sora爆火超100小时:美国狂“卷”算力,国内则卖 AI 课程“捞金”一年5000万|钛媒体AGI
  • · 爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:开发者也难出头!
  • · 从居家到工作,CES 2024上演 AI硬件大秀
  • 站内头条