Sora到底是如何工作的？

时间：2024-02-22 13:14:43 来源：51CTO 作者：

译者 | 布加迪

审校 | 重楼

上周AI target=_blank class=infotextkey>OpenAI团队推出了Sora这一大规模视频生成模型，展示了模拟物理世界基本方面的新功能。我关注文本生成视频这个领域已有很长一段时间，我认为这个模型代表了质量方面的突飞猛进。

我在Reddit和Twitter上看到许多人在猜测这个模型如何工作，包括一些非主流的说法（Sora是否在名为Unreal的游戏引擎中运行？）。当这个突破性的AI工具发布时，很多人都想显得自己似乎了解相关原理，或者甚至可能欺骗自己，认为基于几个已发布的视频样本就能从微妙的线索略知一二。我发现这方面最糟糕的例子莫过于Jim Fan博士的帖子，他声称“Sora是一个数据驱动的物理引擎”，该帖子在Twitter上被浏览了大约400万人次（Sora根本就不是一个数据驱动的物理引擎）。

幸运的是，OpenAI发布了一篇研究文章，解释了其模型的架构。如果我们读了这篇文章，实际上没有必要猜测。下面我将介绍OpenAI团队提供的技术，这样我们就可以看懂Sora到底是如何工作的。

为什么Sora很了不起？

自人工智能领域问世以来，创建能够建模、理解和模拟现实世界内在复杂性的人工智能一直是一项非常困难的挑战。与静态图像不同，视频本质上涉及呈现一段时间内的变化、3D空间、物理交互和对象连续性等等。过去的视频生成模型很难处理不同的视频持续时间、分辨率和相机角度。更重要的是，这些系统对物理、因果关系和物体持久性缺乏内在的“理解”，而这种理解是进行高保真的现实模拟所必需的。

OpenAI发布的视频展示了一个比我们在这些领域见过的任何模型都更好的模型。坦白地说，这些视频看起来很真实。比如说，一个人的头会挡住标牌，然后越过标牌，而标牌上的文字会保持不变。动物即使在“空闲”时也会逼真地摆动翅膀。风中的花瓣将随风摇摆。大多数视频模型面对这种挑战无能为力，结果往往是一些闪烁、抖动的画面，观众很难厘清头绪，但Sora不存在这个问题。它是如何做到的？

关于模型架构和训练的技术细节

在研究模型和现有的帖子时，我的第一个主要的感悟是，这项研究工作建立在OpenAI的GPT等语言模型之前的工作基础上。

视频表征

研究人员介绍的一个关键创新是Sora如何在训练过程中表示视频。每一帧都被分成了许多小片块（Patch），类似在GPT-4等大语言模型中将单词分解成Token的方式。这种基于片块的方法可以让Sora使用长度、分辨率、方向和宽高比各异的视频加以训练。无论源视频的原始形状如何，从帧中提取的片块都以一模一样的方式加以处理。

图1. OpenAI的研究文章称：“大致来说，我们先将视频压缩到一个较低维度的潜在空间，然后将视频表征分解为时空片块，从而将视频变成片块。”

模型架构

Sora使用与其GPT模型密切相关的变换器（Transformer）架构来处理这些视频块Token的长序列。变换器含有时空自关注层，这些层在对文本、音频和视频等序列中的远程依赖关系建模方面的显示大有好处。

在训练过程中，Sora的变换器模型将扩散过程早期的视频块Token序列作为输入，预测原始的“去噪”Token。通过使用数百万个不同的视频进行训练，Sora慢慢学会了自然视频帧的模式和语义。

图2. 来自OpenAI研究文章的去噪过程图

文本调整

Sora也是有条件的，这意味着它可以根据文本提示可控地生成视频。文本提示被嵌入，并作为附加上下文提供给模型，与当前视频帧对应的片块一起提供。

为了更好地将文本描述与实际的视频内容联系起来，研究人员为每个训练视频使用了高度描述性的字幕，这些字幕是从一个单独的字幕模型生成的。这项技术帮助Sora更紧密地遵循文本提示。

推理过程

在推理过程中，Sora从纯噪声片块开始，并在50多个扩散步骤中反复去噪，直到出现连贯流畅的视频。通过提供不同的文本提示，Sora就能生成与字幕适当匹配的不同视频。

基于片块的视频表征允许Sora在测试时处理任何分辨率、持续时间和方向，只需在开始扩散过程之前将片块排列成所需的形状就行。

功能和限制

通过将训练数据扩展到数百万个视频片段的规模，并使用大量的计算资源，OpenAI团队发现了一些非常有意思的突现行为：

Sora不仅仅是文本生成视频，还可以从输入图像或其他视频生成视频。
Sora似乎对场景有一种强烈的3D“理解”，人物和对象以一种连续的方式逼真地移动。这纯粹源自数据规模，无需任何显式的3D建模或图形代码。
模型显示对象持久性，常常跟踪实体和对象，即使它们暂时离开帧或被遮挡时也跟踪。
Sora展示了模拟一些基本的现实交互的能力——比如说，一个数字画家在画布上留下的笔触在一段时间后精确地流传下来。
它还可以令人信服地生成复杂的虚拟世界和游戏，比如《我的世界》。Sora可以在渲染场景的同时控制在这个生成的环境中移动的代理。
随着额外的算力和数据的增加，视频质量、连贯性和提示遵守大大提高，这表明了它进一步得益于规模。

然而，Sora依然显示出明显的缺陷和局限性：

它常常难以为比较复杂的现实世界物理交互、动态和因果关系准确地建模。简单的物理和对象属性仍然具有挑战性。比如说，一个玻璃杯被打翻并溢出液体，显示玻璃杯融化到桌子上，液体从玻璃杯的侧面流淌下来，却没有任何打碎的效果。
模型往往自发地生成意想不到的对象或实体，在拥挤或混乱的场景中尤其如此。
Sora很容易混淆左右，或者当许多行动发生时，一段时间内事件或活动的精确顺序很容易打乱。
依然很难逼真地模拟多个角色之间的自然互动和环境。比如说，它会生成一个人在跑步机上走错方向的视频。

未来发展方向

尽管一直存在这些缺陷，但Sora预示了未来的潜力，因为研究人员继续扩大视频生成模型的规模。有了足够的数据和算力，视频变换器可能会开始对现实世界的物理、因果关系和物体持久性有更深刻的理解。结合语言理解能力，这有望通过基于视频的现实世界模拟为训练AI系统开辟新思路。

Sora朝着这个目标迈出了头几步。虽然需要做更多的工作来克服它的许多弱点，但它所演示的新兴功能彰显了这一研究方向的前景。使用大量不同的视频数据集训练的巨型变换器最终可能会生成AI系统，能够与我们的物理环境的内在复杂性、丰富度和深度进行智能交互和理解。

结论

因此，与毫无根据的说法相反，Sora不是通过游戏引擎或“数据驱动的物理引擎”来运行，而是通过一种变换器架构来运行，这种架构凭借视频“片块”来运行，尤如GPT-4凭借文本Token来运行。它擅长创建表明理解深度、对象持久性和自然动态的视频。

该模型的关键创新在于将视频帧作为片块序列来处理，类似语言模型中的单词Token，使它能够有效地管理不同的视频方面。这种方法结合文本条件生成，使Sora能够根据文本提示生成与上下文相关、视觉上连贯的视频。

尽管拥有突破性的功能，Sora仍然有局限性，比如为复杂的交互建模和动态场景保持连贯性。这些局限性恰恰表明了需要进一步研究，但无损于其在推进视频生成技术方面取得的重大成就。

我希望Sora能尽快发布给人们试用，因为我已经想到了关于这种技术的众多新颖的应用，不妨让我们拭目以待。

原文标题：How Sora (actually) works，作者：Mike Young

Tags：Sora 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Sora开启文生视频新纪元影视游戏产业加速变局求突破

本报记者李豪悦文生视频模型Sora掀起的人工智能浪潮，正席卷全球多个产业链，影视游戏产业首先受到影响。3月26日，Sora母公司OpenAI与合作的部分艺术家发布了利用Sora制作的首部...【详细内容】

2024-03-28　　Search: Sora 点击:(15)　　评论:(0)　　加入收藏

Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

新智元报道编辑：LRS【新智元导读】王炸Sora发布后，想要分辨AI视频和真实视频变得更难了，各行各业都面临新的挑战与危机。&zwj;技术的发展总是伴随着被滥用的风险，从ChatGPT到最...【详细内容】

2024-03-27　　Search: Sora 点击:(19)　　评论:(0)　　加入收藏

8款AI视频生成产品实测，谁将成为中国Sora？

　　©自象限原创　　作者丨罗辑、苏奕　　来源丨自象限　　2024年开年，科技圈没有什么比Sora的出现更让人兴奋。　　如同ChatGPT在2023年初带来的LLM创业潮，Sora的发布也...【详细内容】

2024-03-27　　Search: Sora 点击:(16)　　评论:(0)　　加入收藏

Sora到底怎么样？第一批试用者这样说！

每经编辑：毕陆名OpenAI推出文生视频大模型Sora已有一个多月，现在第一波试用反馈来了！图片来源：OpenAI官网截图当地时间3月25日，OpenAI在官网介绍了该公司与艺术家和电影制片人的...【详细内容】

2024-03-26　　Search: Sora 点击:(15)　　评论:(0)　　加入收藏

开发者再分享 OpenAI Sora 生成的短视频：树叶大象、彩虹瀑布等

IT之家 3 月 19 日消息，OpenAI 今年 2 月推出 Sora 模型之后，迅速成为 AI 圈内头条，能够基于用户的一句话，生成最长 1 分钟的视频，效果接近实拍。OpenAI 目前并未向公众发布 Sora...【详细内容】

2024-03-19　　Search: Sora 点击:(12)　　评论:(0)　　加入收藏

别等OpenAI了，全球首个类Sora抢先开源！所有训练细节/模型权重全公开，成本仅1万美元

【导读】OpenAI Sora还没用上，国产Sora刚刚正式宣布全面开源！「Open-Sora 1.0」所有的训练细节模型权重全面开源，1万美元64块GPU复现，训练成本直降46%。图片来源：由无界AI生成不...【详细内容】

2024-03-18　　Search: Sora 点击:(18)　　评论:(0)　　加入收藏

Sora惊艳出世，AI能否给人类带来新的“视界”？

2月16日，OpenAI公司公布了其首个文生视频大模型Sora，同时展示了多个由Sora生成的最长时间达一分钟的视频，引起科技圈震动。钢铁侠马斯克对其发出“人类愿赌服输”的感叹，360董事...【详细内容】

2024-03-03　　Search: Sora 点击:(23)　　评论:(0)　　加入收藏

Sora杀入Tiktok，短视频营销革命要来了吗？

文 | 增长工场，作者 | 相青，编辑 | 徐伟“我们都知道它会来，但没想到这么快。”自去年AIGC爆火，很多人就开始期待文生视频模型，也的确有一些文生视频模型和公司跑出来，比如国外AI...【详细内容】

2024-02-29　　Search: Sora 点击:(28)　　评论:(0)　　加入收藏

Sora来袭AI换脸门槛降低网络安全公司何以应对新风险？

&ensp;&ensp;&ensp;&ensp;本报记者丁蓉&ensp;&ensp;&ensp;&ensp;近期，中国香港警方披露了一起AI（人工智能）“多人换脸”诈骗案，涉案金额高达2亿港元。一家跨国公司香港分部的职...【详细内容】

2024-02-29　　Search: Sora 点击:(38)　　评论:(0)　　加入收藏

Sora火了，通用人工智能要来了？

2024年开年，Sora的横空出世，给AI界投下一枚重磅炸弹。这个由美国人工智能公司OpenAI发布的文生视频模型，只需要一段提示文本，就能生成具有多个角色和特定动作类型，且主题和背景基...【详细内容】

2024-02-27　　Search: Sora 点击:(32)　　评论:(0)　　加入收藏

▌简易百科推荐

谷歌搜索史上最大变革！考虑对AI搜索收费

快科技4月7日消息，据国外媒体报道，谷歌正计划对由生成式人工智能驱动的新高级功能收费，这将是谷歌搜索业务历史上最大的一次变革。自2000年以来，谷歌的搜索产品一直依靠广告盈利...【详细内容】

2024-04-08　　　　快科技　　Tags:谷歌搜索　点击:(5)　　评论:(0)　　加入收藏

为训练AI，OpenAI等科技巨头花式淘数据

[环球时报特约记者甄翔]《纽约时报》6日披露了科技公司训练人工智能的秘密——利用语音识别工具转录视频网站YouTube上的视频，形成对话文本数据，供其最新的AI学习...【详细内容】

2024-04-08　　　　环球网　　Tags:AI 　点击:(5)　　评论:(0)　　加入收藏

当“机器人”有了“AI大脑” 人形机器人时代来了吗

数智风向标当“机器人”有了“AI大脑”人形机器人时代来了吗简单明了的口令下达后，机器人便开始搬箱子、运小球，在各类不同的地形行走……这些身上布满芯片和传...【详细内容】

2024-04-08　　　　中国青年报　　Tags:机器人　点击:(2)　　评论:(0)　　加入收藏

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

IT之家 4 月 7 日消息，本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到...【详细内容】

2024-04-07　　　　IT之家　　Tags:OpenAI 　点击:(4)　　评论:(0)　　加入收藏

量子计算会和经典计算一样融入人们的日常生活

作为2024中国网络媒体论坛打造的创新活动之一，“技术赋能·八点见”创新项目发布会于3月30日晚在云南昆明举行。活动现场，本源量子计算科技（合肥）股份有限公司（以下简称“...【详细内容】

2024-04-03　　　　人民网　　Tags:量子计算　点击:(8)　　评论:(0)　　加入收藏

ChatGPT官宣免注册，全球互联网变天！OpenAI将取代谷歌搜索？

新智元报道编辑：编辑部【新智元导读】OpenAI这份愚人节礼物，实在是太大了：今天起，ChatGPT不用注册，可以直接使用。用户狂欢，竞品颤抖，我们仿佛已经听到，谷歌搜索引擎这位巨人轰然倒...【详细内容】

2024-04-02　　　　新智元　　Tags:ChatGPT 　点击:(7)　　评论:(0)　　加入收藏

谷歌为了结集体诉讼，同意删除 Chrome 无痕模式下收集的用户数据

IT之家 4 月 2 日消息，根据华尔街日报报道，谷歌为了结追溯到 2020 年的集体诉讼案，近日同意删除通过 Chrome 浏览器“无痕（Incognito）模式”下收集的用户数据。这起诉讼原告认为，...【详细内容】

2024-04-02　　　　IT之家　　Tags:Chrome 　点击:(7)　　评论:(0)　　加入收藏

哥伦比亚大学华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

【新智元导读】OpenAI 机器人理解力虽强，却无法进行非语言交流。最近，哥伦比亚大学华人团队打造了全新的机器人 Emo，不仅可以提前预测和模拟人类表情，还可以进行眼神交流。此前，...【详细内容】

2024-04-01　　　　IT之家　　Tags:哥伦比亚　点击:(17)　　评论:(0)　　加入收藏

谷歌服务现已支持使用 Windows Hello 人脸和指纹解锁登录

IT之家 3 月 28 日消息，谷歌近日对其账户登录页面进行了重大更新，现在能够在用户登录谷歌账户时，使用 Windows Hello 作为身份验证方法。使用通行密钥，用户将不再局限于使用密码...【详细内容】

2024-03-29　　　　IT之家　　Tags:谷歌服务　点击:(15)　　评论:(0)　　加入收藏

GPT商店热度不尽人意仅用在写论文和炒股票上较受欢迎

财联社3月28日讯（编辑赵昊）今年1月，OpenAI推出了定制聊天机器人商店“GPTs”，以期为业务增添新的动力。但两个多月后，GPTs的吸引力仍然有限，很难达到公司CEO山姆·奥尔特曼...【详细内容】

2024-03-29　　　　财联社　　Tags:GPT 　点击:(13)　　评论:(0)　　加入收藏

推荐资讯

访问网站显示不安全是	掌握独立站SEO策略，提
快手蓝色小钥匙跳转微	微信朋友圈如何置顶
Facebook新用户扩展怎	详解微信里面的分期可
微信表情包更新：原创设	微信朋友圈功能大改版