为什么生成视频系统不能制作完整的电影?

为什么生成视频系统不能制作完整的电影?

生成式人工智能视频的出现和进步促使许多普通观察者预测,机器学习将导致我们所知的电影业的消亡——相反,单个创作者将能够在家里通过本地或基于云端的 GPU 系统创作好莱坞风格的大片。

这有可能吗?即使有可能,它是否如许多人所相信的那样即将发生?

个人最终将能够以我们所知的形式制作出具有一致的角色、叙事连续性和完全的照片真实感的电影,这是完全可能的,甚至是不可避免的。

然而,有几个真正根本的原因导致这种情况不太可能发生在基于潜在扩散模型的视频系统中。

最后一个事实很重要,因为目前,该类别包括所有流行的文本到视频 (T2) 和图像到视频 (I2V) 系统,包括 Minimax、Kling、Sora、Imagen、Luma、Amazon Video Generator、Runway ML、Kaiber(以及据我们所知,Adobe Firefly即将推出的视频功能);等等 。

在这里,我们正在考虑由个人创作的真正的全长版人工智能作品的前景,其角色、电影摄影和视觉效果至少与好莱坞目前的技术水平相当

让我们来看看所涉及的挑战所面临的一些最大的实际障碍。

1:你无法进行准确的后续镜头

叙事不一致是这些障碍中最大的一个。事实上,目前没有可用的视频生成系统可以制作真正准确的“后续”镜头*。

这是因为这些系统的核心的去噪扩散模型依赖于随机噪声,而这个核心原理不适用于两次重新解释完全相同的内容(即从不同角度,或通过将前一个镜头发展为与前一个镜头保持一致的后续镜头)。

当使用文本提示时,单独使用或与上传的“种子”图像(多模式输入)一起使用,从提示中派生出的标记将从模型训练的潜在空间中引出语义上适当的内容。

然而,由于受到“随机噪声”因素的进一步阻碍,它永远不会以相同的方式重复两次

这意味着视频中人物的身份会发生转变,物体和环境也不会与最初的镜头相匹配。

这就是为什么描绘非凡视觉效果和好莱坞级输出的病毒式剪辑往往是单镜头,或者是系统功能的“展示蒙太奇”,其中每个镜头都具有不同的角色和环境。

这些临时视频生成的集合(对于商业系统来说可能是不诚实的)的含义是,底层系统可以创建连续且一致的叙述。

这里所用的比喻是电影预告片,其中只包含一两分钟的电影镜头,但却让观众有理由相信整部电影都是存在的。

目前,唯一能在传播模型中提供叙事一致性的系统是那些生成静态图像的系统。这些系统包括 NVIDIA 的ConsiStory,以及科学文献中的各种项目,例如TheaterGen、DreamStory和StoryDiffusion。

为什么生成视频系统不能制作完整的电影?

理论上,人们可以使用此类系统的更好版本(以上都不是真正一致的)来创建一系列图像到视频的镜头,这些镜头可以串在一起形成一个序列。

在目前的技术水平下,这种方法无法产生合理的后续镜头;并且,无论如何,通过增加一层复杂性,我们已经背离了作者梦。

此外,我们可以使用专门针对角色、事物或环境进行训练的低秩自适应(LoRA) 模型,以在镜头间保持更好的一致性。

然而,如果一个角色希望穿上一套新服装,通常需要训练一个全新的 LoRA,以体现该角色穿着这种服装(尽管诸如“红裙子”之类的子概念可以与恰当的图像一起训练成单独的 LoRA,但它们并不总是容易使用)。

这增加了相当大的复杂性,甚至在电影的开场场景中也是如此:一个人起床,穿上睡袍,打哈欠,看着卧室的窗外,然后去浴室刷牙。

这样的场景大约包含 4-8 个镜头,可以用传统的电影制作程序在一个早上拍摄完成;按照目前生成式人工智能的最新水平,它可能代表着数周的工作、多个经过训练的 LoRA(或其他辅助系统)以及大量的后期处理

或者,可以使用视频到视频,通过文本提示将普通或 CGI 镜头转换为其他解释。例如, Runway就提供了这样的系统。

这里有两个问题:你已经必须创建核心镜头,所以你已经制作了两次电影,即使你使用的是诸如 UnReal 的MetaHuman之类的合成系统。

如果您创建 CGI 模型(如上面的剪辑所示)并将其用于视频到图像的转换,则不能依赖它们在各个镜头中的一致性。

这是因为视频传播模型看不到“大局”,相反,它们会根据前一帧创建新的帧,并且在某些情况下,考虑附近的未来帧;但是,如果将这个过程比作一场象棋比赛,它们无法思考“未来十步”,也无法记住后面十步。

其次,由于本节开头提到的原因,即使您为角色、环境和灯光风格添加了多个 LoRA,扩散模型仍然难以在镜头中保持一致的外观。

2:无法轻松编辑镜头

如果您使用老式 CGI 方法描绘一个在街上行走的角色,并且决定要更改镜头的某些方面,则可以调整模型并再次渲染。

如果是真实拍摄,您只需重新设置并再次拍摄,并进行适当的更改。

然而,如果你制作了一个你很喜欢的人工智能视频镜头,但想要改变它的一个方面,那么你只能通过过去 30-40 年间开发的艰苦的后期制作方法来实现:CGI、转描、建模和抠图——所有这些都是劳动密集型、昂贵且耗时的程序。

扩散模型的工作方式是,只需改变文本提示的一个方面(即使在多模式提示中,您提供完整的源种子图像)就会改变生成的输出的多个方面,从而导致提示“打地鼠”的游戏。

3:你不能依赖物理定律

传统的 CGI 方法提供了多种基于算法物理的模型,可以模拟流体动力学、气体运动、逆运动学(人体运动的精确建模)、布料动力学、爆炸以及其他各种现实世界现象。

然而,正如我们所见,基于扩散的方法记忆时间短,并且可利用的运动先验范围(包括在训练数据集中的此类动作的示例)也有限。

在OpenAI 广受好评的 Sora 生成系统登陆页面的早期版本中,该公司承认 Sora 在这方面存在局限性(尽管此文字现已被删除):

“[Sora] 可能难以模拟复杂场景的物理特性,并且可能无法理解因果关系的具体实例(例如:角色咬饼干后可能不会留下痕迹)。

“模型可能还会混淆提示中包含的空间细节,例如辨别左右,或者难以准确描述随时间展开的事件,例如特定的相机轨迹。”

各种基于 API 的生成视频系统的实际使用表明,它们在描绘精确的物理现象方面存在类似的局限性。不过,某些常见的物理现象(如爆炸)似乎在其训练数据集中得到了更好的表现。

一些动作先验嵌入(无论是训练到生成模型中还是从源视频中输入)需要一段时间才能完成(例如,一个人穿着精致的服装表演复杂且不重复的舞蹈序列),而且,扩散模型的短视注意力窗口可能会在动作播放时改变内容(面部 ID、服装细节等)。但是,LoRA 可以在一定程度上缓解这种情况。

在后期修复

纯“单用户” AI 视频生成还存在其他缺点,例如难以描绘快速动作,以及在输出视频中获得时间一致性的普遍且更为紧迫的问题。

此外,在生成视频中,创建特定的面部表演很大程度上取决于运气,就像对话的口型同步一样。

在这两种情况下,使用诸如LivePortrait和AnimateDiff之类的辅助系统在 VFX 社区中变得非常流行,因为这允许将至少广泛的面部表情和口型同步转置到现有的生成输出中。

此外,通过结合稳定扩散 GUI ComfyUI和专业合成和操作应用程序Nuke等工具以及潜在空间操作等大量复杂的解决方案,AI VFX 从业者可以更好地控制面部表情和情绪。

尽管他将 ComfyUI 中的面部动画制作过程描述为“折磨”,但视觉特效专家 Francisco Contreras 开发了这样一种程序,可以实现唇音和面部/头部描绘的其他方面”

结论

对于单个用户生成连贯且逼真的大片风格的完整电影(具有逼真的对话、口型同步、表演、环境和连续性)的前景来说,这一切都不乐观。

此外,尽管论坛评论和媒体关注都表明了这一点,但本文描述的障碍(至少与基于扩散的生成视频模型有关)现在不一定能“随时”得到解决。所描述的约束似乎是架构所固有的。

在人工智能综合研究中,就像在所有科学研究中一样,一些绝妙的想法会定期以其潜力让我们眼花缭乱,但需要进一步研究才能发掘其根本的局限性。

在生成/合成领域,生成对抗网络 ( GAN ) 和神经辐射场 ( NeRF )已经实现了这一点,尽管多年来学术界一直致力于此,但最终证明这两者都很难融入高性能的商业系统。这些技术现在最常作为替代架构中的附加组件出现。

尽管电影制片厂可能希望通过对合法授权的电影目录进行培训来消除视觉特效艺术家,但人工智能实际上正在为劳动力增加职位。

基于扩散的视频系统是否真的可以转变为具有叙事一致性和真实感的电影生成器,或者整个行业是否只是另一种炼金术追求,应该在未来 12 个月内变得显而易见。

也许我们需要一种全新的方法;又或许,20 世纪 90 年代初开发出来的高斯扩散(GSplat) 方法最近在图像合成领域崭露头角,代表了基于扩散的视频生成的潜在替代方案。

由于 GSplat 花了 34 年的时间才脱颖而出,因此 NeRF 和 GAN 等较老的竞争者——甚至潜在扩散模型——也有可能尚未崭露头角。

*虽然Kaiber 的 AI Storyboard 功能提供了这种功能,但我所看到的结果并不达到生产质量。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-shen-me-sheng-cheng-shi-pin-xi-tong-bu-neng-zhi-zuo-wan

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年9月24日 上午9:00
Next 2024年9月24日 上午11:00

相关推荐

发表回复

Please Login to Comment