YannLeCunOpenAI的Sora是死路一条

“
Sora被视为视频模型,但OpenAI的目标是构建世界模拟器。Meta的Yann LeCun认为,Sora不符合该目标,因为像素预测难以应对感官输入的不确定性。相比之下,他提出了基于架构的新模型V-JEPA,专注于预测复杂的相互作用,类似于人类认知图像处理,旨在提高长期预测能力。这一架构允许灵活适应不同任务,是人工智能模型的一大进步。
Sora主要被视为文本和视频到视频模型,然而,OpenAI的研究目标实际上是构建一个世界模拟器。Meta的人工智能部门负责人Yann LeCun表示,Sora并不符合这一目标。LeCun指出,通过生成像素来模拟行动是非常浪费资源的,而且注定会失败。他对OpenAI的模拟器理论提出了质疑,认为生成式方法被认为更加困难且不太有效。
此前,英伟达AI研究员工Jim Fan认为Sora是一款基于数据的物理引擎,能够模拟多种现实或幻想世界。它通过处理数据、学习复杂渲染、物理效应等实现模拟。使用虚幻引擎5生成的合成数据进行训练。OpenAI的视频展示了在一杯咖啡中,两艘海盗船互相交战的逼真场景,包括动画船体、流体动力学、泡沫形成等。引擎考虑了杯子相对海洋的小尺寸,并应用移轴摄影技术。下一步发展是添加更多形式和条件,实现一个完整的数据驱动虚幻引擎。
LeCun认为,对于感官输入的生成模型将会失败,因为高维连续感官输入的预测不确定性太难处理了。他指出,尽管生成式人工智能在处理文本方面表现良好,因为文本是离散的并且符号数量有限,处理不确定性相对容易,但感官输入则产生了更高层次的复杂性。他表示:“如果你的目标是训练一个用于识别或规划的世界模型,使用像素级的预测是一个糟糕的想法。”
在Sora提出几乎同时,LeCun提出了一种新的模型,采用了他自己的架构,即Video Joint Embedding Predictive Architecture(V-JEPA),作为不依赖生成方法的世界模型的一步。这一模型专注于预测复杂的相互作用,并通过向视频中添加隐藏部分来传达对象和相互作用的动态给人工智能。V-JEPA的设计理念类似于人类的认知图像处理,致力于在更广泛的概念空间中进行预测。
LeCun的JEPA架构允许通过添加一个小的、任务特定的层来适应不同的任务,而不必重新训练整个模型,这是传统人工智能模型的一大进步。Meta的人工智能团队计划扩展V-JEPA的功能并改进长期预测,最终发展出用于自主人工智能系统的全面世界模型。

往期推荐
人人都能看懂的Sora技术报告
揭秘OpenAI Sora的关键要素:时空补丁
OpenAI的Sora如何改变游戏规则:深入了解其核心技术
OpenAI发布强大的视频生成工具,让整个行业哀鸿遍野


共有 0 条评论