OpenAI的Sora如何改变游戏规则深入了解其核心技术

OpenAI的Sora如何改变游戏规则深入了解其核心技术-3

2024年2月15日,OpenAI再次以Sora的发布惊艳世界,此前该公司在2022年底发布ChatGPT时已经震惊世界。这一技术可以根据文本提示创建长达一分钟的视频,无疑将成为一项重大突破。

在这篇文章中,我们将根据OpenAI发布的技术报告介绍这项令人惊叹的技术的基础方法和研究。

顺便提一句,“Sora”在日语中意味着“天空”。虽然尚未正式宣布这个名字是否有意义,但有人猜测是这样,因为他们的官方发布的推文包含了一条以东京为主题的视频。

目录

关于Sora

它背后的技术和研究是什么?

这些研究工作为Sora带来的功能

Sora的未来

关于Sora

About Sora

01

Sora是由OpenAI开发的先进文本到视频转换模型,其功能和应用范围揭示了现代人工智能技术的新天地。 这个模型不仅仅能够生成几秒钟的视频; 它可以创建长达一分钟的视频,保持高视觉质量,同时忠实地复制用户的指示。 就像它能够将梦想变成现实一样。

生成基于现实世界的复杂场景

Sora能够理解提示中描述的元素如何存在并在物理世界中运作。这使得该模型能够准确地在视频中表示用户预期的移动和动作。例如,它可以逼真地重新创建一个人奔跑的场景或自然现象的运动。此外,它还可以复制多个角色、运动类型和主题以及背景的精细细节。

以往,使用生成式人工智能进行视频创作一直面临着保持不同场景之间一致性和可再现性的困难挑战。这是因为在单独生成每个场景或帧时完全理解先前的上下文和细节,并将它们适当地传递到下一个场景是有挑战性的。

然而,这个模型通过将对语言的深刻理解与视觉上下文相结合,并准确解释提示,来保持叙事的一致性。它还可以从给定的提示中捕捉角色的情感和个性,并将它们描绘成视频中富有表现力的角色。

它背后的技术和研究是什么?

What kind of technology and research is behind it?

02

OpenAI的Sora如何改变游戏规则深入了解其核心技术-4

Sora建立在先前图像数据生成建模研究的基础之上。以往的研究采用了各种方法,如循环网络、生成对抗网络(GAN)、自回归变换器和扩散模型,但通常集中在狭窄的视觉数据类别、较短的视频或固定尺寸的视频上。

Sora超越了这些限制,并已经显著改进,能够生成跨越不同持续时间、宽高比和分辨率的视频。在本节中,我们将介绍支持这些进步的核心技术。

1. 变换器(Transformer)

OpenAI的Sora如何改变游戏规则深入了解其核心技术-5

Vaswani等人(2017年),“注意力机制就是一切。”

变换器模型是一种彻底改变自然语言处理领域的神经网络架构,最早由Vaswani等人于2017年提出。这个模型在今天支持各种突破性技术方面取得了重大进展,显著克服了传统的循环神经网络(RNNs)和卷积神经网络(CNNs)所面临的挑战。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-6

RNN存在的问题:

- 长期依赖性挑战 :理论上,RNN能够在时间序列中传递信息,但实际上,它们很难捕捉长时间范围内的依赖关系。

- 并行化受限 :由于RNN每一步计算都依赖于前一步的输出,因此必须按顺序处理数据,无法充分利用现代计算机架构的并行计算优势。这使得在大型数据集上的训练效率低下。

CNN存在的问题:

- 固定的感受域(field)大小 :尽管CNN擅长提取局部特征,但其固定的感受野大小限制了其捕获长距离依赖的能力。

- 难以建模自然语言的层次结构 :直接建模语言的层次结构非常具有挑战性,这可能不足以实现对上下文的深入理解。

Transformer的新特点:

- 注意力机制 :允许模型直接建模序列中任何位置的依赖关系,从而能够直接捕捉长期依赖和广泛的上下文。

- 并行化实现 :由于输入数据一次性处理,因此可以高度并行化计算,大大加速了对大型数据集的训练。

- 可变的感受域 :注意力机制允许模型动态调整“感受域(fieled)”的大小,这意味着模型可以根据任务或数据的需要灵活关注局部信息,同时在其他情况下考虑更广泛的上下文。

2. 视觉变换器Vision Transformer(ViT)

Dosovitskiy等人在《一张图值16x16个词:用于大规模图像识别的Transformer》中,将改变自然语言处理(NLP)的Transformer原理应用于图像识别,开创了新的领域。

标记与补丁(Token & Patch)

在原始的Transformer论文中,标记主要代表单词或句子的部分,分析这些标记之间的关系可以深入理解句子的含义。在这项研究中,为了将标记的概念应用于视觉数据,研究者们将图像分割成16x16的小块(补丁),并将每个补丁视为Transformer中的一个“标记”。

这种方法使得模型能够学习整个图像中每个补丁的相关性,从而能够根据此来识别和理解整个图像。它超越了传统CNN模型中用于图像识别的固定感受野大小的限制,使得模型可以灵活地捕获图像中任何位置的关系。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-7

3. 视频视觉变换器(ViViT)

Arnab等人(2021)在《Vivit:一种视频视觉变换器》中提出了ViViT(Video Vision Transformer),它在视觉变换器的基础上进一步发展,将其应用到视频数据的处理上。视频数据更加复杂,因为它不仅包含静态图像信息,还包含随时间变化的动态信息。ViViT将视频分解为时空补丁,并将其视为Transformer模型的标记。通过引入时空补丁,ViViT能够同时捕获视频中的静态和动态元素,并建模它们之间的复杂关系。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-8

4. 掩蔽自动编码器(MAE)

He等人(2022)在《掩蔽自动编码器可扩展的视觉学习器》中提出了MAE(Masked Autoencoders),通过一种自监督的预训练方法显著改善了传统上训练大型数据集时的高计算成本和低效率问题。

该方法通过对输入图像的部分进行遮蔽,使网络能够预测隐藏部分的信息,从而更有效地学习图像中的重要特征和结构,获取丰富的视觉数据表示。这一过程提高了数据的压缩和表示学习效率,降低了计算成本,并增强了处理不同类型的视觉数据和任务的多功能性。

该研究方法也与BERT的发展密切相关。就像BERT通过掩蔽语言建模实现对文本数据的深度理解一样,He等人将类似的掩蔽技术应用于视觉数据,实现了对图像的更深层次理解和表示。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-9

5. 原生分辨率视觉变换器(NaViT)

Dehghani等人(2023)在《Patch n'Pack:NaViT,适用于任何纵横比和分辨率的视觉变换器》中提出了NaViT,这是一种旨在进一步拓展视觉变换器(ViT)适用性的模型,使其能够处理任何纵横比或分辨率的图像。

传统的ViT方法存在一些挑战,主要表现在对特定分辨率或纵横比进行了优化,处理不同大小或形状的图像时需要进行模型调整,这限制了其在实际应用中的灵活性。

NaViT(Native Resolution Vision Transformer)的创新之处在于能够高效处理任何纵横比或分辨率的图像,而无需事先调整。这种灵活性不仅应用于图像,还可以扩展到视频数据(如Sora),使得处理各种大小和形状的视频和图像变得更加便捷和高效。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-10

6. 扩散模型(Diffusion Models)

Sohl-Dickstein等人(2015年)在《深度无监督学习与非平衡热力学》一文中提出的深度无监督学习理论,与Transformer并列,构成了支持Sora的核心技术。这项研究为扩散模型奠定了理论基础,这种模型利用了非平衡热力学的原理。扩散模型的核心思想是通过扩散过程逐渐去除随机噪声,使数据逐渐变得像真实图像或视频。

举个例子,可以想象一下,从一堆随机的点开始,经过逐步变换,最终形成美丽的风景或人物视频。这种方法后来被应用于生成复杂数据,如图像和声音,为高质量生成模型的发展做出了贡献。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-11

基于Sohl-Dickstein等人(2015年)的理论框架,研究人员开发了实际的数据生成模型,即去噪扩散概率模型(DDPM)。这种模型在高质量图像生成方面取得了显著成果,充分展现了扩散模型的有效性。

扩散模型对Sora的影响

通常,训练机器学习模型需要大量标记数据(比如告诉模型“这是一张猫的图片”)。然而,扩散模型不仅可以利用标记数据,还可以从未标记的数据中学习。这使得Sora能够利用互联网上丰富的视觉内容生成各种类型的视频,从而学会“正常视频”的特征。

7. 潜在扩散模型(Latent Diffusion Model)

Rombach等人(2022年)在《使用潜在扩散模型合成高分辨率图像》一文中,提出了一种利用扩散模型进行高分辨率图像合成的方法。该方法通过在潜在空间中利用扩散模型,大大降低了与直接生成高分辨率图像相比的计算成本,同时保持了图像的质量。换句话说,它展示了一种通过对图像进行编码并引入扩散过程,用更少的计算资源实现目标的方法。

Sora将这项技术应用于视频数据,将视频的时空信息压缩到潜在空间中,然后对其进行分解。在潜在空间中进行高效的数据处理和生成,是Sora能够更快地生成高质量视觉内容的关键。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-12

8. 扩散变换器(Diffusion Transformer)(DiT)

Peebles和Xie(2023年)提出了一种新型模型——扩散Transformer(DiT),取代了扩散模型中常用的U-net组件。这种结构通过Transformer对潜在片段的操作实现了潜在扩散模型。这种方法可以更有效地处理图像片段,从而在保证生成图像质量的同时,更有效地利用计算资源。与2022年Stability AI发布的稳定扩散模型不同,这个Transformer的加入被认为能够更自然地生成视频。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-13

此外,该研究的验证结果表明,DiT具有很好的可扩展性,这对于实现Sora至关重要。可扩展性意味着模型的性能会随着Transformer深度/宽度或输入标记数量的增加而提高。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-14

- Gflops(计算性能) :计算机计算速度的单位,表示每秒执行十亿次浮点运算。本文中,网络复杂度通过 Gflops 进行度量。

- FID(Fréchet Inception Distance) :图像生成的评估指标之一,数值越低表示生成图像与真实图像的相似度越高,准确度越高。

这一重要特性,利用了 Transformer 的优势,使 Sora 比传统扩散模型在生成高质量图像时所需的计算资源更少。这也意味着有了更多的计算资源,Sora 可以生成更高质量的图像。Sora 把这项技术用于视频生成。

OpenAI的Sora如何改变游戏规则深入了解其核心技术-15

这些研究为Sora带来的功能

The capabilities enabled by these research efforts for Sora

03

1. 可变的持续时间、分辨率、宽高比 : 可 以根据需要生成不同持续时间、分辨率、长宽比的视频。

2. 通过图像和视频进行提示 : 目前,Sora 生成视频是基于文本提示的,但未来也可以使用图像或视频作为输入,使得生成的视频更加多样化。

3. 3D一致性: Sora 可以生成具有动态摄像机运动的视频,保持场景中物体在三维空间中的一致性移动。

Sora的未来

The future of Sora

04

通过本文我们了解了 OpenAI 的视频生成 AI 技术 Sora,它已经引起了世界的关注。 一旦 Sora 对更多人开放,将会在全球范围内产生更深远的影响。

Sora 的出现预示着视频创作将迈向更广泛的领域,有可能进一步发展成为 3D 建模。如果这一趋势持续,不仅视频创作者,连虚拟空间中的视觉内容也有望被 AI 轻松生成。

未来的可能性

目前,人们普遍认为 Sora 仅仅是一个视频生成模型,但 Nvidia 的 Jim Fan 暗示它可能是一个基于数据的物理引擎。这意味着 AI 可能会从大量真实世界的视频数据中学习,并理解物理定律和现象。如果这一可能性成为现实,那么文本转换成 3D 视频的时代也许已经不远了。

原文:https://towardsdatascience.com/how-openais-sora-is-changing-the-game-an-insight-into-its-core-technologies-bd1ad17170df#e98c

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/474.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>