OpenAI发布强大的视频生成工具让整个行业哀鸿遍野

OpenAI发布强大的视频生成工具让整个行业哀鸿遍野-3

OpenAI发布了最新产品Sora,能凭文本生成60秒生动视频。Sora融合语言与图像生成技术,实现了连贯的场景转换,包括细节如头发、服装,以及面部表情和声音的同步。模型基于变换器架构,通过逐帧学习文本描述和视觉表现之间的复杂映射,处理各种视觉数据。

OpenAI今日宣布了他们最新的产品——Sora。这一模型令人印象深刻,能够仅凭文本提示生成生动的60秒视频。尽管已经有了Runway和Pika等模型可以生成逼真视频,但据我们所见,Sora很可能是目前最先进的。

Sora在功能和性能上碾压其他产品,令整个行业哀鸿遍野。其令人惊叹的表现引发了业内的震惊,连Runway创始人都说:战斗开始。也有网友说,请为以下公司默哀一分钟:(那几乎是整个AI视频生成行业)

OpenAI发布强大的视频生成工具让整个行业哀鸿遍野-4

Sora不仅能够理解详细的提示,还能通过动作和视觉叙事重新创造出物理世界的动态,这一点令人难以置信。正如官方公告所述,Sora是OpenAI在语言和图像生成领域先前工作的基础上发展而来的。虽然之前的DALLE能够生成静态场景,但Sora引入了流动感和连贯性,能够在不同镜头之间无缝过渡,同时保持上下文和对原始文本提示的保真度。

视频中充满了精细的细节——飘逸的头发和服装、情感丰富的面孔、同步的嘴唇和声音。AI还展示了对光线、物理和摄像工作的深刻理解,自动组合了跨越不同角度、动作和过渡的动态场景,这些都是原始文本中所没有的。

Sora是如何实现的呢?据了解,它使用了类似于Midjourney的扩散模型技术,从噪声开始,逐步完善生成的视频,直到产生充满活力、连贯的场景。这个模型建立在与GPT类似的变换器(Transfomer)架构上,具有出色的可扩展性和效率。它将视频表示为数据块的集合,类似于语言模型中的标记,逐帧学习文本描述和视觉表现之间的复杂映射。这使得Sora能够处理各种持续时间、分辨率和宽高比的视觉数据。

另外,借鉴自DALL-E的图像字幕(Caption)功能,Sora将丰富的文本字幕与其视觉训练数据相关联,从而能够熟练地解释自由形式的自然语言提示,确保用户指令和视频创作之间的忠实度相对于之前的模型更高。此外,Sora还可以扩展现有的视频并填补缺失的帧,对于长格式视频生成至关重要。

在广泛发布之前,OpenAI将向一组精选的红队成员、视觉艺术家、设计师和电影制作人提供访问权限。这样做的目的是评估模型的潜在风险和危害,同时收集有关完善Sora以更好地服务创意社区的宝贵反馈。这种合作对于调整模型以满足各个领域专业人士的微妙需求至关重要,从娱乐到设计。

然而,考虑到风险,OpenAI正在与伦理、政策和内容审查方面的专家密切合作,以预防性地解决围绕虚假信息、偏见和有害内容的危险。这包括对抗性测试、开发检测分类器以识别Sora生成的内容,以及应用为之前的模型(如DALL·E 3)开发的健壮安全协议

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/470.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>