OpenAI推出的新模型Sora

本技术报告的重点是(1)我们将所有类型的视觉数据转换为统一表示的方法,从而可以对生成模型进行大规模培训, (2)对Sora的功能和局限性进行定性评估。模型和实施细节未包含在本报告中。

先前的许多工作都使用多种方法(包括循环网络)研究了视频数据的生成建模,1,2,3生成对抗网络,4,5,6,7自动回归变压器,8,9和扩散模型。10,11,12这些作品通常侧重于狭窄的视觉数据类别,较短的视频或固定大小的视频。Sora是视觉数据—的通才模型,它可以生成涵盖不同持续时间,纵横比和分辨率的视频和图像,以及长达一整分钟的高清视频。

将视觉数据转换为补丁

我们从大型语言模型中汲取灵感,这些模型通过培训互联网规模的数据来获得通才功能。13,14 LLM范式的成功部分是通过使用令牌来实现的 优雅地统一了文本—代码,数学和各种自然语言的各种方式。在这项工作中,我们考虑了视觉数据的生成模型如何继承这种好处。LLM具有文本令牌,而Sora具有视觉效果 补丁。以前已证明补丁是视觉数据模型的有效表示。15,16,17,18我们发现补丁是一种高度可扩展且有效的表示形式,可用于培训有关各种视频和图像的生成模型。

在高层次上,我们通过首先将视频压缩为低维潜在空间来将视频转换为补丁,19然后将表示分解为时空补丁。

在高层次上,我们通过首先将视频压缩为低维潜在空间来将视频转换为补丁,19然后将表示分解为时空补丁。

视频压缩网络

我们训练一个减少视觉数据维度的网络。20该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示形式。对Sora进行了培训,然后在此压缩的潜在空间内生成视频。我们还训练了相应的解码器模型,该模型将生成的延迟映射回像素空间。

时空潜在补丁

给定压缩的输入视频,我们将提取一系列时空补丁,这些补丁充当变压器令牌。此方案也适用于图像,因为图像只是具有单个帧的视频。我们基于补丁的表示使Sora可以训练分辨率,持续时间和纵横比可变的视频和图像。在推理时间,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的缩放变压器

Sora是扩散模型21,22,23,24,25; 给定输入嘈杂的补丁(以及诸如文本提示之类的调节信息),它经过培训可以预测原始的“干净的”补丁。重要的是,Sora是扩散 变压器26变压器在包括语言建模在内的各种域中都显示出显着的缩放特性,13,14电脑视觉,15,16,17,18和图像生成。27,28,29

在这项工作中,我们发现扩散变压器也可以有效地缩放为视频模型。下面,我们显示了随着培训的进行,视频样本与固定种子和输入的比较。随着训练计算的增加,样品质量显着提高。

来源

https://openai.com/research/video-generation-models-as-world-simulators


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *