人人都能看懂的Sora技术报告

时间：2024-02-19 10:01:38 来源：AI范儿作者：

“

本文详解了AI target=_blank class=infotextkey>OpenAI Sora的技术报告，阐述了它的核心功能：视频生成、视频合成、图片生成以及它的强大之处，最后解释了Sora背后的原理、局限等。

首先，让我们来谈谈这个名字。OpenAI所推出的Sora并不仅仅是一个视频生成工具，而是被定位为世界模拟器，这一定位颇具格局。那么，什么是世界模拟器呢？OpenAI认为，这个工具能够有效地模拟物理和数字世界，包括其中的物体、动物和人类等各种元素。

从字里行间可以看出，这个模型是构建元宇宙的一个非常有效的途径。

以往的视频生成模型和算法往往局限于特定类别的视觉数据，比如较短或固定大小的视频。与此不同的是，Sora是一个通用的视觉数据模型——它能够生成持续时间、宽高比和分辨率多样的视频和图像，甚至能够生成长达一分钟的高清视频。

这意味着，Sora超越了以往模型的限制，不仅能够处理更广泛类型的视觉内容，还能生成更长、更高质量的视频。这种能力让Sora在视频生成和图像处理领域展现出更为强大和灵活的潜力，无论是为社交媒体内容创作、电影制作预览、虚拟现实环境构建，还是为科研和教育提供视觉资料，Sora都表现出了巨大的应用前景。

Sora的核心功能

Sora Features

Sora的核心功能可以归纳为三个：视频生成、视频合成以及图片生成。因此，我们不能简单地将其视为一个仅限于视频生成的工具，否则将忽略其许多实用的功能。

尽管视频生成和视频合成在其他AI视频工具中也存在，但Sora有其独特的优势和强大之处。

视频生成

视频生成是Sora的核心功能，但它拥有几个强大的特点，使其能够在竞争激烈的AI视频工具市场中脱颖而出：

生成长达1分钟视频

大多数工具通常只能生成几秒到十几秒的视频。而Sora则可以直接生成长达一分钟的视频，且这一分钟的视频并非单一场景，而是由多个镜头组成。更令人印象深刻的是，Sora能够确保多个镜头之间的人物、场景等保持一致性。理论上讲，Sora可以生成更长的视频，就像使用ChatGPT写文章时能够比以前写更长一样，但这可能受到算力的限制。

上面的视频长达一分钟，但它是有多个镜头组成，不同镜头有不同的景别

可生成不同尺寸的视频

Sora能够生成不同尺寸的视频，包括宽屏的1920x1080p视频、竖屏的1080x1920视频，以及这两者之间的所有尺寸。这意味着Sora可以直接按照不同设备的原生宽高比创建内容。这样做的好处是，无论是手机、电脑还是电视，Sora都能为它们直接制作出完美匹配的视频。

上面的视频有不同的长宽比

更优秀的语义理解

Sora采用了独特的训练方法，使其能够更好地理解语义（即提示词），从而生成更符合需求的视频，后文详细说明。

3D一致性

这个功能也可以理解为对运动相机的支持，比如类似航拍环绕镜头，Sora能随着相机的移动和旋转，人物和场景元素在三维空间中一致地移动，让人有身临其境的感觉。

上面的视频模拟了一个一镜到底的航拍镜头，可以看到随着镜头运动，人物和场景元素并为发生变化。

多镜头之间的角色一致性

Sora可以持续地模拟人物、动物和物体，即使它们被遮挡或离开画面。同样，它能够在单个样本中生成同一角色的多个镜头，并在整个视频中保持他们的外观。

上面的视频中斑点狗有一次被行人遮挡，但再次出现后它的形象仍然可以保持一致。

上面的视频中包含2个镜头，但角色形象在2个镜头中保持了一致。

以下是一些更具体的说明：

可变的视频时长、分辨率、宽高比

以往的视频生成方法通常会将视频调整为标准尺寸，比如裁剪成4秒长、分辨率为256x256。然而，OpenAI发现，直接在视频原始尺寸上进行训练有许多好处。

就好比是，如果我们让孩子总是穿着同一尺码的衣服，可能就无法培养他们选择合适衣服的能力。但如果让他们尝试不同尺码和样式的衣服，他们就能更好地了解什么样的衣服最适合自己，也能更自在地表达自己的风格。

同样地，当我们让电脑处理原始大小的视频时，电脑就能学会更好地理解和生成各种不同尺寸和形式的视频，这样生成的视频也会更加多样化和自然。

可先制作低分辨率视频原型

此外，还可以用Sora在较低分辨率下快速制作原型内容，然后再以全分辨率生成内容，而这一切都能用同一个模型完成。这就像是先用铅笔画出草图，确认了设计之后再用颜料画出精美的画作，既高效又方便。

通过实验发现，直接在视频的原生宽高比上训练，可以改善视频的构图和取景。将Sora与另一个版本的模型进行了比较，后者会将所有训练用的视频裁剪成正方形。结果发现，那些在正方形视频上训练的模型有时会生成画面中主体只部分可见的视频。相比之下，Sora生成的视频在取景上有了明显的改善。

为什么Sora能更好的理解提示词

训练文本到视频生成系统需要大量带有对应文本描述的视频。OpenAI借鉴了在DALL·E 3中介绍的重新标注技术，将其应用于视频。

首先，OpenAI训练了一个能生成高度描述性文本的模型，然后用这个模型训练集中的所有视频生成文本描述。OpenAI发现，在高度描述性的视频描述上训练可以提高文本的准确性以及视频的整体质量。

这就像是给视频配上一本详细的说明书。当电脑在学习如何根据文本生成视频时，如果这些文本描述得越详细，电脑就能更准确地理解和再现文本中描述的场景，从而制作出更高质量的视频。这种方法不仅让视频更贴合文本，还提升了视频的整体观赏性。

与DALL·E 3类似，OpenAI也利用GPT将用户的简短提示转化为更长、更详细的说明，然后这些说明会被送到视频模型中。这样做使得Sora能够根据用户的提示生成高质量的视频，准确地反映用户的要求。

这个过程就像是有一个智能助手，当你告诉它你想看的视频大概是什么样子的时候，它不仅听懂了你的要求，还能扩展你的想法，给出更具体、更丰富的描述。然后，这个描述就像是给Sora的一个详细蓝图，让Sora知道该如何制作出你想要的视频，确保最终的视频既符合你的期待，又有高质量的表现。

图生成视频

Sora能够基于图片和提示生成视频。下面展示了一些例子，这些视频是基于DALL·E 2和DALL·E 3生成的图片制作的。

这意味着Sora不仅仅是一个视频制作工具，它更像是一个全能的创意伙伴，能够帮助你将任何想法变为现实。无论是有一个具体的场景想要动画化，还是想要给一张图片添加故事背景，或者是想看看某个瞬间如果向前或向后延续会是什么样，Sora都能帮你实现。这大大扩展了创作的可能性，让你可以更自由地表达和探索创意。

将图片转成视频

视频合成

Sora支持多种视频合成技术，包括扩展视频、视频到视频编辑（替换视频中的场景），以及无缝连接两个视频。这些能力极大地拓展了Sora的适用范围，降低了视频后期处理的门槛。

扩展视频

Sora还能够扩展视频，无论是向前还是向后延伸时间。下面有四个视频，它们都是从一个生成的视频片段开始，向后倒退延伸的。因此，这四个视频的开始各不相同，但都会以同样的场景结束。

可以利用这种方法，将一个视频向前和向后延伸，从而制作出一个无缝的无限循环视频。

通过Sora制作了一个无限循环的视频。

这种能力就像是给视频添加了时间旅行的功能。想象一下，你有一个精彩的瞬间或场景，通过Sora，你不仅可以看到这个场景接下来会发生什么，还可以探索如果时间倒流，这个场景会如何展开。这为创造具有吸引力和创意的内容提供了无限的可能性，比如制作循环播放的背景视频、讲述一个故事的不同开头但相同结局的版本，或者仅仅是为了创造一些美妙且引人入胜的视觉体验。

视频到视频编辑技术

通过扩散模型，已经使得从文本提示编辑图片和视频成为可能。OpenAI还将一种方法——SDEdit——应用到了Sora上。这项技术使得Sora能够零次学习（zero-shot）地转换输入视频的风格和环境。

这就像是给Sora一个魔法棒，让它能够理解你的文字提示，然后按照这些提示改变视频的外观和感觉。比如，你可以让一个晴朗的海滩视频变成雪地里的场景，或者将日间的场景转变为夜晚，甚至更换整个视频的艺术风格，比如从现实风格变为卡通风格，而这一切都不需要重新拍摄视频，仅仅通过输入新的文本提示就可以实现。

上面的视频中展现了将原视频进行场景替换后生成的新视频。

这种技术大大扩展了视频编辑的可能性，让创作者能够轻松实验和创新，将原本平凡的视频转换为全新的视觉体验，增加了内容的创意和多样性。

视频连接

我们还可以利用Sora在两个输入视频之间进行逐渐的插值，创造出完全不同主题和场景组成的视频之间的无缝过渡。在下面的例子中，中间的视频是左右两边对应视频之间的过渡。

上面的视频中展现了将两个视频拼接后的新视频。

这就像是有了一座魔法桥，可以将两个完全不同的世界连接起来。比如，一个视频是在繁忙的城市街道，另一个视频是在宁静的乡村田野，Sora可以创造出一个过渡视频，观众可以看到城市逐渐变成乡村的画面，就像是从一个场景平滑地旅行到另一个场景。

这种能力为视频制作提供了新的创意手段，允许创作者以前所未有的方式来讲故事或展示内容。无论是为了讲述一个跨越不同地点的故事，还是为了创造吸引人的视觉效果，通过Sora连接视频的功能都能让视频内容变得更加丰富和吸引人。

图片生成

Sora也具备生成图片的能力。这个模型能够生成不同大小的图片——分辨率最高可达2048x2048。

这种能力使Sora成为一个多才多艺的创意工具，不仅可以制作视频，也能创造出精美的静态图像，适用于各种视觉艺术和设计领域。

涌现能力

Emerging simulation capabilities

当在大规模上训练时，视频模型展现出了一些有趣的涌现能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性的出现，并不需要对三维、物体等进行明确的引导——它们完全是规模效应的现象。

与世界互动。Sora有时可以模拟以简单方式影响世界状态的行为。例如，画家可以在画布上留下随时间持续存在的新笔触，或者一个人吃汉堡时留下咬痕。

模拟数字世界。Sora还能够模拟人工过程——一个例子是视频游戏。Sora可以在模拟《Minecraft》世界及其动态的同时，用基本策略控制玩家。通过用提及“Minecraft”的字幕提示Sora，可以零次学习地引发这些能力。

这些能力表明，继续扩大视频模型的规模是朝着开发能够高效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路。

Sora训练方法

How training Sora

借鉴了ChatGPT的训练思路

虽然Sora是一个视频模型，但其训练方式与诸如ChatGPT这类语言模型相似。不同之处在于，Sora使用的训练数据是视频和图片，而ChatGPT则使用文本数据。

训练过程类似，首先需要对视觉数据（即视频和图片）进行压缩，然后将简化后的视频分解成许多小块（这里称为视觉补丁），每个小块包含视频的一小部分画面和时间，就像是将一段故事分成一幕幕小片段一样。这样的处理有助于使电脑更容易学习和理解视频中的信息。

用于视频生成的缩放转换器

Sora被描述为一种扩散模型，你可以将其想象成一个超级洗衣机。给它一些“脏”衣服块（在我们的例子中，这些带有噪声的视频块），再加上一些清洗指令（比如文字提示），它就能够训练自己预测出这些衣服块原本的干净样子。而且，Sora作为一个扩散变换器，在语言模型、计算机视觉和图像生成等领域都显示出了惊人的扩展能力。

就像变换器在不同领域都表现出色一样，Sora也利用这种能力来学习如何从噪声中恢复出清晰的视频块。这使得Sora在处理视频和图像时变得非常强大和灵活。

在实验中，发现扩散变换器在视频模型方面也能够有效地扩展。进行了一个实验，用固定的种子和输入比较了训练过程中视频样本的质量变化。随着训练计算量的增加，样本质量显著提高。

Sora的局限性

尽管Sora作为一个模拟器展现了许多涌现能力，但它目前还存在许多限制。例如，它不能准确地模拟许多基本互动的物理过程，比如玻璃碎裂。其他互动，比如吃食物，不总是导致物体状态的正确变化。OpenAI在官网上列举了模型的其他常见失败模式——比如在长时间样本中发展的不连贯性或物体的突然出现。（有人竟把它当作Sora翻车视频？？）

OpenAI认为，Sora目前所具有的能力表明，继续扩大视频模型的规模是朝着开发能够有效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路。

虽然目前还有许多挑战需要克服，但Sora的发展方向是明确的，未来有潜力成为一个更加精准和多功能的模拟工具。随着技术的进一步发展和改进，OpenAI相信Sora将为科学、艺术和娱乐领域带来更多令人兴奋的应用。

参考

- https：//openai.com/research/video-generation-models-as-world-simulators

Tags：Sora 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Sora开启文生视频新纪元影视游戏产业加速变局求突破

本报记者李豪悦文生视频模型Sora掀起的人工智能浪潮，正席卷全球多个产业链，影视游戏产业首先受到影响。3月26日，Sora母公司OpenAI与合作的部分艺术家发布了利用Sora制作的首部...【详细内容】

2024-03-28　　Search: Sora 点击:(15)　　评论:(0)　　加入收藏

Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

新智元报道编辑：LRS【新智元导读】王炸Sora发布后，想要分辨AI视频和真实视频变得更难了，各行各业都面临新的挑战与危机。&zwj;技术的发展总是伴随着被滥用的风险，从ChatGPT到最...【详细内容】

2024-03-27　　Search: Sora 点击:(19)　　评论:(0)　　加入收藏

8款AI视频生成产品实测，谁将成为中国Sora？

　　©自象限原创　　作者丨罗辑、苏奕　　来源丨自象限　　2024年开年，科技圈没有什么比Sora的出现更让人兴奋。　　如同ChatGPT在2023年初带来的LLM创业潮，Sora的发布也...【详细内容】

2024-03-27　　Search: Sora 点击:(16)　　评论:(0)　　加入收藏

Sora到底怎么样？第一批试用者这样说！

每经编辑：毕陆名OpenAI推出文生视频大模型Sora已有一个多月，现在第一波试用反馈来了！图片来源：OpenAI官网截图当地时间3月25日，OpenAI在官网介绍了该公司与艺术家和电影制片人的...【详细内容】

2024-03-26　　Search: Sora 点击:(15)　　评论:(0)　　加入收藏

开发者再分享 OpenAI Sora 生成的短视频：树叶大象、彩虹瀑布等

IT之家 3 月 19 日消息，OpenAI 今年 2 月推出 Sora 模型之后，迅速成为 AI 圈内头条，能够基于用户的一句话，生成最长 1 分钟的视频，效果接近实拍。OpenAI 目前并未向公众发布 Sora...【详细内容】

2024-03-19　　Search: Sora 点击:(12)　　评论:(0)　　加入收藏

别等OpenAI了，全球首个类Sora抢先开源！所有训练细节/模型权重全公开，成本仅1万美元

【导读】OpenAI Sora还没用上，国产Sora刚刚正式宣布全面开源！「Open-Sora 1.0」所有的训练细节模型权重全面开源，1万美元64块GPU复现，训练成本直降46%。图片来源：由无界AI生成不...【详细内容】

2024-03-18　　Search: Sora 点击:(18)　　评论:(0)　　加入收藏

Sora惊艳出世，AI能否给人类带来新的“视界”？

2月16日，OpenAI公司公布了其首个文生视频大模型Sora，同时展示了多个由Sora生成的最长时间达一分钟的视频，引起科技圈震动。钢铁侠马斯克对其发出“人类愿赌服输”的感叹，360董事...【详细内容】

2024-03-03　　Search: Sora 点击:(23)　　评论:(0)　　加入收藏

Sora杀入Tiktok，短视频营销革命要来了吗？

文 | 增长工场，作者 | 相青，编辑 | 徐伟“我们都知道它会来，但没想到这么快。”自去年AIGC爆火，很多人就开始期待文生视频模型，也的确有一些文生视频模型和公司跑出来，比如国外AI...【详细内容】

2024-02-29　　Search: Sora 点击:(28)　　评论:(0)　　加入收藏

Sora来袭AI换脸门槛降低网络安全公司何以应对新风险？

&ensp;&ensp;&ensp;&ensp;本报记者丁蓉&ensp;&ensp;&ensp;&ensp;近期，中国香港警方披露了一起AI（人工智能）“多人换脸”诈骗案，涉案金额高达2亿港元。一家跨国公司香港分部的职...【详细内容】

2024-02-29　　Search: Sora 点击:(38)　　评论:(0)　　加入收藏

Sora火了，通用人工智能要来了？

2024年开年，Sora的横空出世，给AI界投下一枚重磅炸弹。这个由美国人工智能公司OpenAI发布的文生视频模型，只需要一段提示文本，就能生成具有多个角色和特定动作类型，且主题和背景基...【详细内容】

2024-02-27　　Search: Sora 点击:(32)　　评论:(0)　　加入收藏

▌简易百科推荐

多方热议人工智能产业新机遇

编者按&emsp;&emsp;从前沿科技展会到高层对话平台，从上海、重庆到博鳌，从线上到线下……一场场高规格、大规模的盛会中，人工智能正在成为各界热议的高频词。赋能千...【详细内容】

2024-04-08　　　　中国家电网　　Tags:人工智能　点击:(2)　　评论:(0)　　加入收藏

人形机器人时代来了吗

日前，由中国人形机器人(11.080, -0.05, -0.45%)百人会主办的人形机器人大赛在北京经济技术开发区开赛。工作人员向参观者展示一款人形机器人。参观者与一款陪护型人形机器人...【详细内容】

2024-04-08　　　　中国青年报　　Tags:人形机器人　点击:(3)　　评论:(0)　　加入收藏

AI重塑社交：腾讯与字节跳动的新赛场

文|新火种一号编辑|美美最近，腾讯和字节跳动这两大互联网巨头几乎同步推出了各自的AI社交产品，尽管腾讯和字节跳动在前段时间刚刚“破冰”，但这一举措不仅意味着这两大巨头之...【详细内容】

2024-04-07　　　　蓝鲸财经　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

第一批用 Kimi 做内容的网红已经杀疯了

作者：王东东文章来自：斗战圣佛小组技术信仰派 VS 市场信仰派朱啸虎和月之暗面老板杨植麟在前几天有一场不算 battle 的 battle。battle 的争论点是：大模型有没有戏。技术派...【详细内容】

2024-04-04　　　　斗战圣佛小组　　Tags:Kimi 　点击:(4)　　评论:(0)　　加入收藏

昆仑万维发布面向人工智能时代的六条人才宣言

过去的一年多，是人工智能取得非凡进步的一年。在这充满突破性技术飞跃和备受争议的一年里，我们见证了人工智能的快速发展和广泛的影响，人工智能已经迅速地融入了我们的生活，深刻...【详细内容】

2024-04-03　　　　砍柴网　　Tags:昆仑万维　点击:(7)　　评论:(0)　　加入收藏

AI干掉声优？音频大模型追逐“图灵时刻”

七十年前，“人工智能之父”图灵提出，如果人无法判断屏幕的另一侧究竟是人还是机器，就证明机器具备了人一样的智能。这一经典的图灵测试如同北斗星一般，指引着AI行业的工作者们不...【详细内容】

2024-04-03　　　　第一财经网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

生成式人工智能有哪些新趋势？

相较于去年，当下我们所能体验的人工智能技术的范围已经大幅提升。从搜索引擎、电商平台再到社媒平台，只要是以搜索结果为导向的内容，都会出现它的身影。但其实，人工智能的应用场...【详细内容】

2024-04-03　　品谈教师帮　　　　Tags:人工智能　点击:(6)　　评论:(0)　　加入收藏

AI世界的新难题：互联网的信息不够用了！

高质量数据的紧缺正成为AI发展的重要障碍。4月1日，据媒体报道，随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们...【详细内容】

2024-04-02　　硬AI　　　　Tags:AI 　点击:(6)　　评论:(0)　　加入收藏

今天起，ChatGPT无需注册就能用了！

　来源：量子位　　　　金磊克雷西发自凹非寺　　就在刚刚，OpenAI狠狠地open了一把：从今天起，ChatGPT打开即用，无需再注册帐号和登录了！　　像这样，直接登录网站，然后就可以开启对...【详细内容】

2024-04-02　　　　量子位　　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

AI时代，面对死亡有了第二种选择？

今年春节期间，罗佩玺瞒着妈妈用AI技术“复活”了外婆，她将妈妈现在的模样和外婆留下的老照片合成在一起。时隔60多年，妈妈和外婆终于又“见面”了，这是她送给妈妈的生日礼物。收...【详细内容】

2024-04-02　　　　中国青年报　　Tags:AI时代　点击:(7)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版