为什么生成视频系统不能制作完整的电影？

王浩然 • 2024年9月24日上午10:00 • AI前沿 • 112 views

生成式人工智能视频的出现和进步促使许多普通观察者预测，机器学习将导致我们所知的电影业的消亡——相反，单个创作者将能够在家里通过本地或基于云端的 GPU 系统创作好莱坞风格的大片。

这有可能吗？即使有可能，它是否如许多人所相信的那样即将发生？

个人最终将能够以我们所知的形式制作出具有一致的角色、叙事连续性和完全的照片真实感的电影，这是完全可能的，甚至是不可避免的。

然而，有几个真正根本的原因导致这种情况不太可能发生在基于潜在扩散模型的视频系统中。

最后一个事实很重要，因为目前，该类别包括所有流行的文本到视频 (T2) 和图像到视频 (I2V) 系统，包括 Minimax、Kling、Sora、Imagen、Luma、Amazon Video Generator、Runway ML、Kaiber（以及据我们所知，Adobe Firefly即将推出的视频功能）；等等。

在这里，我们正在考虑由个人创作的真正的全长版人工智能作品的前景，其角色、电影摄影和视觉效果至少与好莱坞目前的技术水平相当。

让我们来看看所涉及的挑战所面临的一些最大的实际障碍。

1：你无法进行准确的后续镜头

叙事不一致是这些障碍中最大的一个。事实上，目前没有可用的视频生成系统可以制作真正准确的“后续”镜头*。

这是因为这些系统的核心的去噪扩散模型依赖于随机噪声，而这个核心原理不适用于两次重新解释完全相同的内容（即从不同角度，或通过将前一个镜头发展为与前一个镜头保持一致的后续镜头）。

当使用文本提示时，单独使用或与上传的“种子”图像（多模式输入）一起使用，从提示中派生出的标记将从模型训练的潜在空间中引出语义上适当的内容。

然而，由于受到“随机噪声”因素的进一步阻碍，它永远不会以相同的方式重复两次。

这意味着视频中人物的身份会发生转变，物体和环境也不会与最初的镜头相匹配。

这就是为什么描绘非凡视觉效果和好莱坞级输出的病毒式剪辑往往是单镜头，或者是系统功能的“展示蒙太奇”，其中每个镜头都具有不同的角色和环境。

这些临时视频生成的集合（对于商业系统来说可能是不诚实的）的含义是，底层系统可以创建连续且一致的叙述。

这里所用的比喻是电影预告片，其中只包含一两分钟的电影镜头，但却让观众有理由相信整部电影都是存在的。

目前，唯一能在传播模型中提供叙事一致性的系统是那些生成静态图像的系统。这些系统包括 NVIDIA 的ConsiStory，以及科学文献中的各种项目，例如TheaterGen、DreamStory和StoryDiffusion。

理论上，人们可以使用此类系统的更好版本（以上都不是真正一致的）来创建一系列图像到视频的镜头，这些镜头可以串在一起形成一个序列。

在目前的技术水平下，这种方法无法产生合理的后续镜头；并且，无论如何，通过增加一层复杂性，我们已经背离了作者梦。

此外，我们可以使用专门针对角色、事物或环境进行训练的低秩自适应(LoRA) 模型，以在镜头间保持更好的一致性。

然而，如果一个角色希望穿上一套新服装，通常需要训练一个全新的 LoRA，以体现该角色穿着这种服装（尽管诸如“红裙子”之类的子概念可以与恰当的图像一起训练成单独的 LoRA，但它们并不总是容易使用）。

这增加了相当大的复杂性，甚至在电影的开场场景中也是如此：一个人起床，穿上睡袍，打哈欠，看着卧室的窗外，然后去浴室刷牙。

这样的场景大约包含 4-8 个镜头，可以用传统的电影制作程序在一个早上拍摄完成；按照目前生成式人工智能的最新水平，它可能代表着数周的工作、多个经过训练的 LoRA（或其他辅助系统）以及大量的后期处理

或者，可以使用视频到视频，通过文本提示将普通或 CGI 镜头转换为其他解释。例如， Runway就提供了这样的系统。

这里有两个问题：你已经必须创建核心镜头，所以你已经制作了两次电影，即使你使用的是诸如 UnReal 的MetaHuman之类的合成系统。

如果您创建 CGI 模型（如上面的剪辑所示）并将其用于视频到图像的转换，则不能依赖它们在各个镜头中的一致性。

这是因为视频传播模型看不到“大局”，相反，它们会根据前一帧创建新的帧，并且在某些情况下，考虑附近的未来帧；但是，如果将这个过程比作一场象棋比赛，它们无法思考“未来十步”，也无法记住后面十步。

其次，由于本节开头提到的原因，即使您为角色、环境和灯光风格添加了多个 LoRA，扩散模型仍然难以在镜头中保持一致的外观。

2：无法轻松编辑镜头

如果您使用老式 CGI 方法描绘一个在街上行走的角色，并且决定要更改镜头的某些方面，则可以调整模型并再次渲染。

如果是真实拍摄，您只需重新设置并再次拍摄，并进行适当的更改。

然而，如果你制作了一个你很喜欢的人工智能视频镜头，但想要改变它的一个方面，那么你只能通过过去 30-40 年间开发的艰苦的后期制作方法来实现：CGI、转描、建模和抠图——所有这些都是劳动密集型、昂贵且耗时的程序。

扩散模型的工作方式是，只需改变文本提示的一个方面（即使在多模式提示中，您提供完整的源种子图像）就会改变生成的输出的多个方面，从而导致提示“打地鼠”的游戏。

3：你不能依赖物理定律

传统的 CGI 方法提供了多种基于算法物理的模型，可以模拟流体动力学、气体运动、逆运动学（人体运动的精确建模）、布料动力学、爆炸以及其他各种现实世界现象。

然而，正如我们所见，基于扩散的方法记忆时间短，并且可利用的运动先验范围（包括在训练数据集中的此类动作的示例）也有限。

在OpenAI 广受好评的 Sora 生成系统登陆页面的早期版本中，该公司承认 Sora 在这方面存在局限性（尽管此文字现已被删除）：

“[Sora] 可能难以模拟复杂场景的物理特性，并且可能无法理解因果关系的具体实例（例如：角色咬饼干后可能不会留下痕迹）。

“模型可能还会混淆提示中包含的空间细节，例如辨别左右，或者难以准确描述随时间展开的事件，例如特定的相机轨迹。”

各种基于 API 的生成视频系统的实际使用表明，它们在描绘精确的物理现象方面存在类似的局限性。不过，某些常见的物理现象（如爆炸）似乎在其训练数据集中得到了更好的表现。

一些动作先验嵌入（无论是训练到生成模型中还是从源视频中输入）需要一段时间才能完成（例如，一个人穿着精致的服装表演复杂且不重复的舞蹈序列），而且，扩散模型的短视注意力窗口可能会在动作播放时改变内容（面部 ID、服装细节等）。但是，LoRA 可以在一定程度上缓解这种情况。

在后期修复

纯“单用户” AI 视频生成还存在其他缺点，例如难以描绘快速动作，以及在输出视频中获得时间一致性的普遍且更为紧迫的问题。

此外，在生成视频中，创建特定的面部表演很大程度上取决于运气，就像对话的口型同步一样。

在这两种情况下，使用诸如LivePortrait和AnimateDiff之类的辅助系统在 VFX 社区中变得非常流行，因为这允许将至少广泛的面部表情和口型同步转置到现有的生成输出中。

此外，通过结合稳定扩散 GUI ComfyUI和专业合成和操作应用程序Nuke等工具以及潜在空间操作等大量复杂的解决方案，AI VFX 从业者可以更好地控制面部表情和情绪。

尽管他将 ComfyUI 中的面部动画制作过程描述为“折磨”，但视觉特效专家 Francisco Contreras 开发了这样一种程序，可以实现唇音和面部/头部描绘的其他方面”

结论

对于单个用户生成连贯且逼真的大片风格的完整电影（具有逼真的对话、口型同步、表演、环境和连续性）的前景来说，这一切都不乐观。

此外，尽管论坛评论和媒体关注都表明了这一点，但本文描述的障碍（至少与基于扩散的生成视频模型有关）现在不一定能“随时”得到解决。所描述的约束似乎是架构所固有的。

在人工智能综合研究中，就像在所有科学研究中一样，一些绝妙的想法会定期以其潜力让我们眼花缭乱，但需要进一步研究才能发掘其根本的局限性。

在生成/合成领域，生成对抗网络 ( GAN ) 和神经辐射场 ( NeRF )已经实现了这一点，尽管多年来学术界一直致力于此，但最终证明这两者都很难融入高性能的商业系统。这些技术现在最常作为替代架构中的附加组件出现。

尽管电影制片厂可能希望通过对合法授权的电影目录进行培训来消除视觉特效艺术家，但人工智能实际上正在为劳动力增加职位。

基于扩散的视频系统是否真的可以转变为具有叙事一致性和真实感的电影生成器，或者整个行业是否只是另一种炼金术追求，应该在未来 12 个月内变得显而易见。

也许我们需要一种全新的方法；又或许，20 世纪 90 年代初开发出来的高斯扩散(GSplat) 方法最近在图像合成领域崭露头角，代表了基于扩散的视频生成的潜在替代方案。

由于 GSplat 花了 34 年的时间才脱颖而出，因此 NeRF 和 GAN 等较老的竞争者——甚至潜在扩散模型——也有可能尚未崭露头角。

*虽然Kaiber 的 AI Storyboard 功能提供了这种功能，但我所看到的结果并不达到生产质量。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-shen-me-sheng-cheng-shi-pin-xi-tong-bu-neng-zhi-zuo-wan

Like (0)

王浩然作者

0 0

超越炒作：揭秘生成式人工智能在药物研发中的真正影响

Previous 2024年9月24日上午9:00

聊天机器人成为老师

Next 2024年9月24日上午11:00

AI前沿

研究表明，人工智能聊天机器人可以检测种族，但种族偏见会降低回应同理心

麻省理工学院、纽约大学和加州大学洛杉矶分校的研究人员开发了一种方法，以帮助评估 GPT-4 等大型语言模型是否足够公平，可以在临床上用于心理健康支持。借助匿名性和陌生人的陪伴，数…

王浩然
2025年1月3日
000
AI前沿

OpenAI谋求估值高达1250亿美元新融资，暂无IPO计划

OpenAI估值到底能攀多高？筹资越来越难或需IPO续命

点点
2024年9月3日
000
AI前沿

冷静一下：DeepSeek-R1 很棒，但 ChatGPT 的产品优势还远未结束

就在一周前——2025 年 1 月 20 日——中国人工智能初创公司 DeepSeek 发布了一个名为 R1 的新开源人工智能模型，该模型最初可能会被误认为是自OpenAI两年多前…

王浩然
2025年1月28日
000
AI前沿

OpenAI CEO对话脱口秀女王：避谈信任危机，自称与政府往来密切，鼓吹AI全能

近日，美国著名女脱口秀主持人奥普拉·温弗瑞（Oprah Winfrey）录制了一档45分钟的AI特别节目，主题为“AI与我们的未来”。嘉宾包括OpenAI联合创始人兼CEO萨姆·阿…

点点
2024年9月16日
000
AI前沿

AI 编码助手 Supermaven 从 OpenAI 和 Perplexity 联合创始人处筹集资金

雅各布·杰克逊 (Jacob Jackson) 在职业生涯早期全身心投入人工智能领域。杰克逊与他人共同创立了Tabnine，这是一款 AI 编码助手，后来筹集了近 6000 万美…

王浩然
2024年9月17日
000
AI前沿

技能组合新高度：威胁情报与逆向工程的完美融合

在网络安全的世界里，威胁情报就像是我们的“眼睛”和“耳朵”。通过收集、分析和共享有关潜在威胁的信息，威胁情报帮助我们提前发现并应对安全风险。

点点
2024年9月7日
000
AI前沿

为 AI 模型评分：Endor Labs 推出评估工具

Endor Labs已开始根据 AI 模型的安全性、受欢迎程度、质量和活跃度对其进行评分。这一独特功能被称为“AI 模型的 Endor 分数”，旨在通过提供直接的分数来简化识别 …

点点
2024年10月17日
000
AI前沿

IBM 量子计算机助力人工智能改善抗生素治疗

克利夫兰诊所的研究人员正在将量子计算与机器学习相结合，以预测尿路感染 (UTI) 最有效的抗生素治疗方法。该计划是首批将量子机器学习应用于医学的计划之一，旨在改善患者的治疗效果并…

王浩然
2025年1月12日
000
AI前沿

Nvidia 首席执行官吹捧印度在自主 AI 方面取得的进步，并培训了超过 10 万名 AI 开发人员

Nvidia CEO黄仁勋在印度Nvidia AI峰会上表示，印度在AI领域取得了长足进步，目前印度已有2000多家Nvidia Inception AI公司，接受过AI培训的开发…

王浩然
2024年10月25日
000
AI前沿

Meta 的 Movie Gen AI 视频生成器能够制作真正的电影，包括音乐

Meta 的 AI 之旅将不可避免地将其带入新兴的 AI 视频领域。现在，马克·扎克伯格领导的这家公司推出了 Movie Gen，这是另一款能够通过简短的文本提示制作出逼真视频的视…

王浩然
2024年10月10日
000
AI前沿

人工智能增强人力资源，但以人为本的方法不可或缺

随着人工智能 (AI) 在人力资源领域不断开辟新天地，其接受度也越来越高。最近的一项研究显示，近一半接受调查的英国和美国员工认为人工智能有助于减少偏见和不公平的招聘待遇；许多人甚至…

王浩然
2025年1月13日
000
AI前沿

人工智能是老年人口更安全、更独立的关键

人工智能正在应用于解决全球范围内的各类问题，其中包括保障老年人年老时的安全。绝大多数老年人都希望独立生活：92% 的老年人表示他们更愿意在目前的家中度过晚年。事实上，能够按照自己…

王浩然
2024年12月27日
000
AI前沿

大学如何利用人工智能数字证据管理系统加速校园调查

近年来，大学越来越需要处理各种事件，从轻微违规行为到严重犯罪活动。随着校园监控、手机和随身摄像机等来源产生的视频证据量不断增加，大学在有效管理和分析这些数据方面面临着新的挑战。然…

点点
2024年10月22日
000
AI前沿

有人声称已经利用人工智能申请了 2,843 个职位

人工智能正在向人们发送大量求职申请。404 Media 的 Jason Koebler写道，有人声称使用免费工具 AI Hawk 在一小时内申请了 17 份工作，直到申请到 2,8…

王浩然
2024年10月12日
000
AI前沿

Mistral全新OCR API：将任何PDF文档转化为AI友好的Markdown文件‌

在数字化转型的浪潮中，Mistral推出了一项创新技术——全新OCR（光学字符识别）API，该技术能够将任何PDF文档高效转化为AI易于处理的Markdown文件。这一突破性进展为…

王浩然
2025年3月7日
000
AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

将人工智能带入实践：LinkedIn 结合 LLM、LangChain 和 Jupyter Notebooks 来提高快速工程水平

对于企业来说，找出正确的提示以从生成式 AI 模型中获得最佳结果并不总是一件容易的事。在某些组织中，这已经落到了新出现的提示工程师的职位上，但LinkedIn的情况并非如此。该专…

王浩然
2025年2月14日
000
AI前沿

用AI找客户，半年怒赚200万美元，AI销售是Agent的下一站

继搜索、抄写、写作、编程之后，销售成为AI Agent的下一个重要落地场景。根据字节跳动推出的《生成式AI商业落地白皮书》，经过590名企业中高层的票选，在“十大生成式AI最有价…

点点
2024年9月12日
000
AI前沿

研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

机器学习模型是如何做到的？它们真的像我们一样“思考”或“推理”吗？这既是一个哲学问题，也是一个实践问题，但周五发表的一篇新论文表明，答案至少就目前而言，是一个相当明确的“不”。苹…

王浩然
2024年10月12日
000
AI前沿

波士顿动力人形机器人将获得新功能

机器人与人工智能研究所合作旨在在过去研究的基础上推进包括 Atlas 在内的人形机器人的发展波士顿动力公司与机器人与人工智能研究所（前身为人工智能研究所）合作，通过强化学习推…

王浩然
2025年2月19日
000