谷歌推出视频生成大型语言模型VideoPoet

小火箭 • 2026年1月18日 am12:47 • 小火箭, 小火箭加速, 小火箭加速器, 小火箭节点

“

Google推出VideoPoet，一款生成式AI系统，通过文本等输入创建和编辑视频。与竞争模型不同，VideoPoet整合多项功能于单一模型，包括文本转视频、图像转视频、视频风格化等。该模型利用多个标记器跨视频、图像、音频和文本进行训练，可生成可变长度、多样风格的视频。

Google 推出了 VideoPoet，这是一款新型生成式人工智能系统，能够通过文本和其他输入创建和编辑视频。

据 Google 表示，VideoPoet是一款庞大的语言模型，专为各种视频生成任务而设计，包括文本转视频、图像转视频、视频风格化、视频修复与拓展以及视频转音频等。与竞争模型不同，VideoPoet将许多功能集成到一个单一模型中，而不是依赖于为每个任务分别训练的组件。

VideoPoet使用多个标记器（MAGVIT V2 用于视频和图像，SoundStream 用于音频），以训练跨视频、图像、音频和文本多模态的自回归语言模型。一旦模型生成了在某个上下文中有条件的标记，这些标记可以通过标记解码器转换回可视化表示。

VideoPoet能够生成具有可变长度、多种运动和样式的视频，具体取决于文本内容。它还可以接受输入图像并使用提示进行动画处理，为视频风格化预测光流和深度信息，并生成音频。默认情况下，该模型生成以纵向方向为主的视频，以适应短时内容。

通过使用文本提示来描述摄像机运动，可以在视频中控制摄像机的移动。

VideoPoet还可以创建带有声音的视频，就像这只弹钢琴的猫一样。

据Google表示，VideoPoet已经在多个基准测试中进行了评估，生成的视频与其他模型的视频进行了比较。平均而言，参与者更倾向于选择VideoPoet生成的例子，因为它们与提示更匹配，相较于竞争模型如Phenaki、VideoCrafter和Show-1。

Google表示，未来该框架可能支持"任意到任意"的生成，并且可以扩展到文本转音频、音频转视频以及视频字幕等方面，"等等"。

使用Bard作为编剧，Google还通过VideoPoet制作了一部短片：

公司尚未透露是否有计划向公众提供该模型，但在将来可能会将其集成到计划中的Bard Advanced中。在VideoPoet项目页面上可以找到更多完整分辨率的示例。

版权声明：
作者：小火箭
链接：https://www.xiaohuojian6.top/412.html
来源：小火箭官网
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

人工智能可以高精度预测个人的死亡时间

下一篇>>

搜索内容