为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-3

2023年是AI视频的突破之年。从无公开文本到视频模型,到十几种视频生成产品,数百万用户使用文本或图像提示创建短片。产品尚有限,质量参差,但仍处于发展初期,迎来了巨大转变。对于AI视频的未来,仍有控制、时间连贯性、长度等核心问题亟待解决。大型科技公司如何介入,训练数据来源,工作流程归属等问题也亟待探讨。

2023 年是人工智能视频的突破之年。年初时,还没有公开的文本转视频模型。仅仅过了 12 个月,全球已有数十种视频生成产品投入使用,数百万用户通过文本或图像提示创作了短视频剪辑。

尽管这些产品还相对有限 — 大多数只能生成 3 到 4 秒的视频,而且质量参差不齐,角色一致性等问题还没有解决。要实现通过简单文本提示(甚至多个提示!)创作出皮克斯级别的短片,我们还有很长的路要走。

然而,过去一年视频生成领域取得的进展表明,我们正处于一场巨大转型的早期阶段 — 类似于图像生成领域所经历的转变。我们看到文本到视频模型以及图像到视频、视频到视频等相关模型不断改进,并逐渐受到关注。

为了更好地理解这一创新潮流,我们追踪了迄今为止的最重要发展,关注了一些值得关注的公司,并且探讨了这一领域中仍然存在的一些根本性问题。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-4

现在人工智能视频生成产品有哪些选择?

产品

今年我们迄今为止追踪了 21 种公开产品。你可能已经听说过 Runway、Pika、Genmo 和 Stable Video Diffusion,但还有很多其他产品等待你去发现。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-5

这些产品大多来自初创公司 — — 其中许多从 Discord 机器人起步,具有几个优势:

- 你无需建立自己的面向消费者的界面,可以专注于提升模型质量

- 你可以利用 Discord 的 1.5 亿月活跃用户基础进行分发 — — 尤其是如果你被推荐到平台的“发现”页面

- 公开频道为新用户提供了一个简单的方式来获取创作灵感(通过观看别人的生成内容),并且为产品提供了社会认可度

然而,我们开始看到越来越多的视频产品建立自己的网站,甚至是移动应用,特别是当它们发展成熟时。虽然 Discord 提供了一个不错的起点,但它在纯生成之上添加工作流程方面受到了限制,团队对消费者体验的控制很少。另外值得注意的是,有很大一部分人不使用 Discord,可能会觉得其界面复杂,或者不常访问。

研究和大型科技公司

Google、Meta 等大公司在哪里?它们在公开产品列表中显然缺失 — — 尽管你可能见过它们发布的 Meta 的 Emu Video、Google 的 VideoPoet 和 Lumiere,以及字节跳动的 MagicVideo。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-6

到目前为止,除了阿里巴巴之外,其他大型科技公司选择不公开发布他们的视频生成产品。 相反,他们在各种形式的视频生成 上发表论文,并发布了演示视频,但没有宣布他们的模型是否或何时会公开。

这些大公司都拥有庞大的用户群体,为什么不发布他们的视频模型呢?他们的演示看起来非常强大,而且他们有机会在这个新兴的领域占据重要的市场份额。

但我们必须牢记这些公司的行动步调较慢。大多数公司甚至还没有发布文本转图像的产品,尽管 Instagram 在去年末推出了用于“故事”的 AI 背景生成器,而 TikTok 则默默地推出了 AI 滤镜。法律、安全和版权问题通常会使得这些公司将研究成果转化为产品并推出市场变得十分困难,这也给了新来者一定的先发优势。

人工智能视频的未来又将如何发展呢?

如果你曾经使用过这些产品,你就会知道在人工智能视频成熟之前还有很多需要改进的地方。虽然有可能会出现“魔法时刻”,即模型生成与你的提示相匹配的精美视频片段,但这样的情况相对罕见。更常见的情况是,你需要多次重新生成,并裁剪或编辑输出,才能得到专业水准的视频片段。

目前这个领域的大多数公司都在致力于解决一些核心问题(目前还未解决):

控制 — — 你能控制场景中发生的事情吗?例如,如果你提示“一个男人向前走”,移动是否如描述的那样?还有“相机”的移动方式?在后一点上,许多产品都加入了功能,可以让你调整相机的缩放、平移,甚至添加特效。前一个问题 — — 移动是否如描述的那样?— — 更难解决。

这涉及到模型理解和执行你的提示的质量问题,尽管一些公司正试图在生成之前给用户更多的控制权。Runway 的运动画笔就是一个很好的例子,它允许你突出显示图像的特定区域,并确定它们的移动方式。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-7

时间一致性 — — 如何让人物、物体和背景在帧之间保持一致,不会变形或扭曲?这是所有公开模型中一个非常普遍的问题。如果你看到的视频在时间上连贯,而且长度超过几秒钟,那么它很可能是视频到视频的处理,它会取一个视频并用类似于 AnimateDiff 的提示进行样式转换。

长度 — — 你能够生成超过几秒钟的视频片段吗?这与时间一致性密切相关。许多公司限制了你可以生成的视频长度,因为他们无法确保几秒钟后的一致性。如果你看到的是一个长篇的人工智能视频(就像下面这个),你会发现它是由许多短片段组成的,并且需要数十个甚至数百个提示!

未解决的问题

人工智能视频似乎还处于 GPT-2 的水平。虽然在过去的一年里我们取得了巨大的进步,但在普通消费者能够每天都使用这些产品之前,我们还有很长的路要走。视频领域的“ChatGPT 时刻”究竟何时会到来呢?在这个领域,研究人员和创业者之间并没有广泛的共识,还有一些问题有待解决:

当前的扩散架构是否适用于视频?

今天的视频模型主要是基于扩散的:它们基本上是生成帧,并尝试在帧之间创建时间上连贯的动画(有多种策略可以实现)。它们并没有固有的对 3D 空间以及物体如何相互作用的理解,这解释了变形和扭曲的原因。例如,在一个视频片段的前半段看到一个人走在街上,然后在后半段融入地面并不罕见 — — 模型没有“硬”表面的概念。由于缺乏对场景的 3D 概念,从不同角度生成相同的剪辑也很困难(甚至不可能)。

一些人认为视频模型不需要对 3D 空间有基本的理解。如果它们在足够的高质量数据上进行训练,它们将能够学习对象之间的关系,以及如何从不同角度呈现场景。而另一些人则坚信,特别是在超过几秒钟的视频中,这些模型将需要 3D 引擎来生成时间上连贯的内容。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-8

优质的训练数据将来自哪里?

与其他内容形式相比,训练视频模型更加困难,主要是因为这些模型所需的高质量标记训练数据较少。语言模型通常是在公开数据集(如 Common Crawl)上训练的,而图像模型则是在带标签的数据集(如 LAION 和 ImageNet)上训练的。然而,视频数据更难获取。

尽管在 YouTube 和 TikTok 等平台上有大量公开视频,但这些视频没有经过标记,可能不够多样化(例如,猫视频和网红道歉视频在数据集中可能过于集中)。理想的视频数据可能来自于制片公司或制作公司,它们拥有长篇视频的多个角度拍摄,并附带脚本和指示。然而,目前尚不清楚它们是否愿意授权这些数据用于训练。

这些用例将如何在不同平台/模型之间分割?

在几乎每个内容形式中,一个模型并不适用于所有用例。例如,Midjourney、Ideogram 和 DALL-E 都具有不同的风格,并擅长生成不同类型的图像。我们预计视频领域也将出现类似的情况。如果你测试今天的文本到视频和图像到视频模型,你会发现它们擅长不同的风格、移动类型和场景构图(我们将在下面展示两个例子)。

基于这些模型构建的产品可能会在工作流程上进一步分化,并为不同的最终市场提供服务。这甚至还不包括一些不是纯文本到视频的相邻产品,而是处理诸如动画人物头像(例如 HeyGen)、视觉特效(例如 Wonder Dynamics)和视频到视频(例如 DomoAI)等内容的产品。

谁将拥有工作流程?

除了纯视频生成之外,制作好的视频片段或电影通常需要编辑,特别是在当前的范式下,许多创作者使用视频模型来将在其他平台上创建的照片变成动画。看到一个视频最初是由 Midjourney 图像开始的,然后在 Runway 或 Pika 上进行了动画处理,最后在 Topaz 上进行了放大并添加了配乐和配音(通常由 Suno 和 ElevenLabs 等其他产品生成)。

这样在多个产品之间来回切换是不合理的。

我们预计视频生成平台将开始自己添加一些这些功能。例如,Pika 现在可以让你在其网站上放大视频。然而,我们对一个 AI 本地化的编辑平台感到乐观,该平台可以方便地在一个地方从不同模型生成跨模态内容,并将这些内容组合在一起。

为什么说2023年是人工智能视频的突破之年以及对2024年可以期待什么-9

本文转自a16z.com

版权声明:
作者:小火箭
链接:https://www.xiaohuojian6.top/449.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>