“
本文详解了AI target=_blank class=infotextkey>OpenAI Sora的技术报告,阐述了它的核心功能:视频生成、视频合成、图片生成以及它的强大之处,最后解释了Sora背后的原理、局限等。
首先,让我们来谈谈这个名字。OpenAI所推出的Sora并不仅仅是一个视频生成工具,而是被定位为世界模拟器,这一定位颇具格局。那么,什么是世界模拟器呢?OpenAI认为,这个工具能够有效地模拟物理和数字世界,包括其中的物体、动物和人类等各种元素。
从字里行间可以看出,这个模型是构建元宇宙的一个非常有效的途径。
以往的视频生成模型和算法往往局限于特定类别的视觉数据,比如较短或固定大小的视频。与此不同的是,Sora是一个通用的视觉数据模型——它能够生成持续时间、宽高比和分辨率多样的视频和图像,甚至能够生成长达一分钟的高清视频。
这意味着,Sora超越了以往模型的限制,不仅能够处理更广泛类型的视觉内容,还能生成更长、更高质量的视频。这种能力让Sora在视频生成和图像处理领域展现出更为强大和灵活的潜力,无论是为社交媒体内容创作、电影制作预览、虚拟现实环境构建,还是为科研和教育提供视觉资料,Sora都表现出了巨大的应用前景。
Sora的核心功能
Sora Features
01
Sora的核心功能可以归纳为三个:视频生成、视频合成以及图片生成。因此,我们不能简单地将其视为一个仅限于视频生成的工具,否则将忽略其许多实用的功能。
尽管视频生成和视频合成在其他AI视频工具中也存在,但Sora有其独特的优势和强大之处。
01
视频生成
视频生成是Sora的核心功能,但它拥有几个强大的特点,使其能够在竞争激烈的AI视频工具市场中脱颖而出:
生成长达1分钟视频
大多数工具通常只能生成几秒到十几秒的视频。而Sora则可以直接生成长达一分钟的视频,且这一分钟的视频并非单一场景,而是由多个镜头组成。更令人印象深刻的是,Sora能够确保多个镜头之间的人物、场景等保持一致性。理论上讲,Sora可以生成更长的视频,就像使用ChatGPT写文章时能够比以前写更长一样,但这可能受到算力的限制。
上面的视频长达一分钟,但它是有多个镜头组成,不同镜头有不同的景别
可生成不同尺寸的视频
Sora能够生成不同尺寸的视频,包括宽屏的1920x1080p视频、竖屏的1080x1920视频,以及这两者之间的所有尺寸。这意味着Sora可以直接按照不同设备的原生宽高比创建内容。这样做的好处是,无论是手机、电脑还是电视,Sora都能为它们直接制作出完美匹配的视频。
上面的视频有不同的长宽比
更优秀的语义理解
Sora采用了独特的训练方法,使其能够更好地理解语义(即提示词),从而生成更符合需求的视频,后文详细说明。
3D一致性
这个功能也可以理解为对运动相机的支持,比如类似航拍环绕镜头,Sora能随着相机的移动和旋转,人物和场景元素在三维空间中一致地移动,让人有身临其境的感觉。
上面的视频模拟了一个一镜到底的航拍镜头,可以看到随着镜头运动,人物和场景元素并为发生变化。
多镜头之间的角色一致性
Sora可以持续地模拟人物、动物和物体,即使它们被遮挡或离开画面。同样,它能够在单个样本中生成同一角色的多个镜头,并在整个视频中保持他们的外观。
上面的视频中斑点狗有一次被行人遮挡,但再次出现后它的形象仍然可以保持一致。
上面的视频中包含2个镜头,但角色形象在2个镜头中保持了一致。
以下是一些更具体的说明:
可变的视频时长、分辨率、宽高比
以往的视频生成方法通常会将视频调整为标准尺寸,比如裁剪成4秒长、分辨率为256x256。然而,OpenAI发现,直接在视频原始尺寸上进行训练有许多好处。
就好比是,如果我们让孩子总是穿着同一尺码的衣服,可能就无法培养他们选择合适衣服的能力。但如果让他们尝试不同尺码和样式的衣服,他们就能更好地了解什么样的衣服最适合自己,也能更自在地表达自己的风格。
同样地,当我们让电脑处理原始大小的视频时,电脑就能学会更好地理解和生成各种不同尺寸和形式的视频,这样生成的视频也会更加多样化和自然。
可先制作低分辨率视频原型
此外,还可以用Sora在较低分辨率下快速制作原型内容,然后再以全分辨率生成内容,而这一切都能用同一个模型完成。这就像是先用铅笔画出草图,确认了设计之后再用颜料画出精美的画作,既高效又方便。
通过实验发现,直接在视频的原生宽高比上训练,可以改善视频的构图和取景。将Sora与另一个版本的模型进行了比较,后者会将所有训练用的视频裁剪成正方形。结果发现,那些在正方形视频上训练的模型有时会生成画面中主体只部分可见的视频。相比之下,Sora生成的视频在取景上有了明显的改善。
为什么Sora能更好的理解提示词
训练文本到视频生成系统需要大量带有对应文本描述的视频。OpenAI借鉴了在DALL·E 3中介绍的重新标注技术,将其应用于视频。
首先,OpenAI训练了一个能生成高度描述性文本的模型,然后用这个模型训练集中的所有视频生成文本描述。OpenAI发现,在高度描述性的视频描述上训练可以提高文本的准确性以及视频的整体质量。
这就像是给视频配上一本详细的说明书。当电脑在学习如何根据文本生成视频时,如果这些文本描述得越详细,电脑就能更准确地理解和再现文本中描述的场景,从而制作出更高质量的视频。这种方法不仅让视频更贴合文本,还提升了视频的整体观赏性。
与DALL·E 3类似,OpenAI也利用GPT将用户的简短提示转化为更长、更详细的说明,然后这些说明会被送到视频模型中。这样做使得Sora能够根据用户的提示生成高质量的视频,准确地反映用户的要求。
这个过程就像是有一个智能助手,当你告诉它你想看的视频大概是什么样子的时候,它不仅听懂了你的要求,还能扩展你的想法,给出更具体、更丰富的描述。然后,这个描述就像是给Sora的一个详细蓝图,让Sora知道该如何制作出你想要的视频,确保最终的视频既符合你的期待,又有高质量的表现。
图生成视频
Sora能够基于图片和提示生成视频。下面展示了一些例子,这些视频是基于DALL·E 2和DALL·E 3生成的图片制作的。
这意味着Sora不仅仅是一个视频制作工具,它更像是一个全能的创意伙伴,能够帮助你将任何想法变为现实。无论是有一个具体的场景想要动画化,还是想要给一张图片添加故事背景,或者是想看看某个瞬间如果向前或向后延续会是什么样,Sora都能帮你实现。这大大扩展了创作的可能性,让你可以更自由地表达和探索创意。
将图片转成视频
02
视频合成
Sora支持多种视频合成技术,包括扩展视频、视频到视频编辑(替换视频中的场景),以及无缝连接两个视频。这些能力极大地拓展了Sora的适用范围,降低了视频后期处理的门槛。
扩展视频
Sora还能够扩展视频,无论是向前还是向后延伸时间。下面有四个视频,它们都是从一个生成的视频片段开始,向后倒退延伸的。因此,这四个视频的开始各不相同,但都会以同样的场景结束。
可以利用这种方法,将一个视频向前和向后延伸,从而制作出一个无缝的无限循环视频。
通过Sora制作了一个无限循环的视频。
这种能力就像是给视频添加了时间旅行的功能。想象一下,你有一个精彩的瞬间或场景,通过Sora,你不仅可以看到这个场景接下来会发生什么,还可以探索如果时间倒流,这个场景会如何展开。这为创造具有吸引力和创意的内容提供了无限的可能性,比如制作循环播放的背景视频、讲述一个故事的不同开头但相同结局的版本,或者仅仅是为了创造一些美妙且引人入胜的视觉体验。
视频到视频编辑技术
通过扩散模型,已经使得从文本提示编辑图片和视频成为可能。OpenAI还将一种方法——SDEdit——应用到了Sora上。这项技术使得Sora能够零次学习(zero-shot)地转换输入视频的风格和环境。
这就像是给Sora一个魔法棒,让它能够理解你的文字提示,然后按照这些提示改变视频的外观和感觉。比如,你可以让一个晴朗的海滩视频变成雪地里的场景,或者将日间的场景转变为夜晚,甚至更换整个视频的艺术风格,比如从现实风格变为卡通风格,而这一切都不需要重新拍摄视频,仅仅通过输入新的文本提示就可以实现。
上面的视频中展现了将原视频进行场景替换后生成的新视频。
这种技术大大扩展了视频编辑的可能性,让创作者能够轻松实验和创新,将原本平凡的视频转换为全新的视觉体验,增加了内容的创意和多样性。
视频连接
我们还可以利用Sora在两个输入视频之间进行逐渐的插值,创造出完全不同主题和场景组成的视频之间的无缝过渡。在下面的例子中,中间的视频是左右两边对应视频之间的过渡。
上面的视频中展现了将两个视频拼接后的新视频。
这就像是有了一座魔法桥,可以将两个完全不同的世界连接起来。比如,一个视频是在繁忙的城市街道,另一个视频是在宁静的乡村田野,Sora可以创造出一个过渡视频,观众可以看到城市逐渐变成乡村的画面,就像是从一个场景平滑地旅行到另一个场景。
这种能力为视频制作提供了新的创意手段,允许创作者以前所未有的方式来讲故事或展示内容。无论是为了讲述一个跨越不同地点的故事,还是为了创造吸引人的视觉效果,通过Sora连接视频的功能都能让视频内容变得更加丰富和吸引人。
03
图片生成
Sora也具备生成图片的能力。这个模型能够生成不同大小的图片——分辨率最高可达2048x2048。
这种能力使Sora成为一个多才多艺的创意工具,不仅可以制作视频,也能创造出精美的静态图像,适用于各种视觉艺术和设计领域。
涌现能力
Emerging simulation capabilities
02
当在大规模上训练时,视频模型展现出了一些有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性的出现,并不需要对三维、物体等进行明确的引导——它们完全是规模效应的现象。
与世界互动。Sora有时可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下随时间持续存在的新笔触,或者一个人吃汉堡时留下咬痕。
模拟数字世界。Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以在模拟《Minecraft》世界及其动态的同时,用基本策略控制玩家。通过用提及“Minecraft”的字幕提示Sora,可以零次学习地引发这些能力。
这些能力表明,继续扩大视频模型的规模是朝着开发能够高效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路。
Sora训练方法
How training Sora
03
借鉴了ChatGPT的训练思路
虽然Sora是一个视频模型,但其训练方式与诸如ChatGPT这类语言模型相似。不同之处在于,Sora使用的训练数据是视频和图片,而ChatGPT则使用文本数据。
训练过程类似,首先需要对视觉数据(即视频和图片)进行压缩,然后将简化后的视频分解成许多小块(这里称为视觉补丁),每个小块包含视频的一小部分画面和时间,就像是将一段故事分成一幕幕小片段一样。这样的处理有助于使电脑更容易学习和理解视频中的信息。
用于视频生成的缩放转换器
Sora被描述为一种扩散模型,你可以将其想象成一个超级洗衣机。给它一些“脏”衣服块(在我们的例子中,这些带有噪声的视频块),再加上一些清洗指令(比如文字提示),它就能够训练自己预测出这些衣服块原本的干净样子。而且,Sora作为一个扩散变换器,在语言模型、计算机视觉和图像生成等领域都显示出了惊人的扩展能力。
就像变换器在不同领域都表现出色一样,Sora也利用这种能力来学习如何从噪声中恢复出清晰的视频块。这使得Sora在处理视频和图像时变得非常强大和灵活。
在实验中,发现扩散变换器在视频模型方面也能够有效地扩展。进行了一个实验,用固定的种子和输入比较了训练过程中视频样本的质量变化。随着训练计算量的增加,样本质量显著提高。
Sora的局限性
尽管Sora作为一个模拟器展现了许多涌现能力,但它目前还存在许多限制。例如,它不能准确地模拟许多基本互动的物理过程,比如玻璃碎裂。其他互动,比如吃食物,不总是导致物体状态的正确变化。OpenAI在官网上列举了模型的其他常见失败模式——比如在长时间样本中发展的不连贯性或物体的突然出现。(有人竟把它当作Sora翻车视频??)
OpenAI认为,Sora目前所具有的能力表明,继续扩大视频模型的规模是朝着开发能够有效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路。
虽然目前还有许多挑战需要克服,但Sora的发展方向是明确的,未来有潜力成为一个更加精准和多功能的模拟工具。随着技术的进一步发展和改进,OpenAI相信Sora将为科学、艺术和娱乐领域带来更多令人兴奋的应用。
参考
- https://openai.com/research/video-generation-models-as-world-simulators