人工智能视频生成模型的数量不断增长,本周推出了一种新的模型Pyramid Flow,它可以提供长达 10 秒的高质量视频片段——速度快,而且全部开源。
Pyramid Flow由北京大学、北京邮电大学和快手科技的研究人员合作开发,后者是广受好评的专有 Kling AI 视频生成器的创造者,它利用一种新技术,其中单个 AI 模型分阶段生成视频,其中大多数是低分辨率的,只在生成过程结束时保存全分辨率版本。
它可以作为原始代码在Hugging Face和Github上下载,并且可以在这里的推理 shell中运行,但需要用户在自己的机器上下载并运行模型代码。
经过推理,该模型可以在短短 56 秒内生成一段 5 秒、384p 的视频——与许多全序列扩散模型相当或更快——尽管Runway 的 Gen 3-Alpha Turbo在 AI 视频生成速度方面仍然占据优势,在我们的测试中,生成时间不到一分钟,通常为 10-20 秒。
我们还没有机会测试 Pyramid Flow,但模型创建者发布的视频看起来非常逼真、分辨率足够高且引人注目——类似于专有产品的视频。您可以在其Github 项目页面上看到各种示例。
事实上,Pyramid Flow 现已可供下载和使用——甚至可用于商业/企业目的——并旨在与 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine、Kling 和 Haulio 等付费专有产品直接竞争,对于不限代订阅的用户来说,这些产品每年可能要花费数百甚至数千美元。
随着各种 AI 视频提供商争夺用户的竞争持续进行,Pyramid Flow 旨在为寻求高级视频生成功能的开发人员、艺术家和创作者带来更高的效率和灵活性。
AI 视频生成是一项计算密集型任务,通常涉及对大型时空空间进行建模。传统方法通常需要针对流程的不同阶段建立单独的模型,这限制了灵活性并增加了训练的复杂性。
Pyramid Flow 建立在金字塔流匹配的概念之上,该方法在保持高视觉质量的同时大幅降低了视频生成的计算成本,将视频生成过程作为一系列“金字塔”阶段完成,其中只有最后阶段以全分辨率运行。
它在 2024 年 10 月 8 日提交给开放获取科学期刊 arXiv 的预先审查的论文“金字塔流匹配以实现高效视频生成建模”中进行了描述。
作者包括金阳、孙志成、李宁远、徐坤、姜浩、庄楠、黄曲哲、宋杨、穆亚东和林周晨。这些研究人员大部分来自北京大学,还有一些来自快手科技。
正如他们所写,在不同阶段压缩和优化视频生成的能力可以加快训练过程中的收敛速度,从而使 Pyramid Flow 能够在每个训练批次中生成更多的样本。
例如,与传统的扩散模型相比,提出的金字塔流将令牌数量减少了四分之一,从而实现了更高效的训练
该模型可以以 768p 分辨率和每秒 24 帧的速度制作 5 到 10 秒的视频,同时在开源数据集上进行训练。具体来说,论文指出 Pyramid Flow 是在以下数据集上进行训练的:
- LAION-5B,一个用于多模式人工智能研究的大型数据集。
- CC-12M,网络爬取的图像文本对数据集。
- SA-1B 具有高质量、无模糊的图像特点。
- WebVid-10M 和 OpenVid-1M 是广泛用于文本到视频生成的视频数据集。
总的来说,作者精选了大约 1000 万个单镜头视频。
然而,近年来,许多此类“公共”或“开源”数据集因未经版权所有者许可或知情同意而包含受版权保护的材料而受到批评,尤其是 LAION-5B 被指控包含儿童性虐待材料。
另外, Runway 是被艺术家集体起诉的公司之一,指控其未经许可、补偿或同意就使用材料进行培训——涉嫌侵犯美国版权。目前,该案仍在法庭审理中。
经过许可,开源,可用于商业用途
Pyramid Flow 在MIT 许可下发布,允许广泛使用,包括商业应用、修改和重新分发,前提是保留版权声明。
这使得 Pyramid Flow 成为希望将模型集成到专有系统中的开发人员和公司的一个有吸引力的选择,并且可能挑战Luma AI和Runway,因为它们都希望为寻求将其专有 AI 视频生成技术集成到面向客户或员工的应用程序的开发人员提供付费应用程序编程接口。
然而,这些专有模型已经作为适合开发人员的推理而存在,虽然 Pyramid Flow 在 Hugging Face 上有一个演示推理,但它并不适合在其上构建完整的应用程序,用户需要托管自己的推理版本,这也可能是昂贵的,尽管模型本身是“免费的”。
此外,Pyramid Flow 可能会吸引那些希望利用人工智能提高效率、削减成本和探索新创意工具的电影制片厂。一家大型电影制片厂狮门影业(拥有《疾速追杀》和《暮光之城》等多部电影的特许经营权)最近与 Runway 签署了一项未指定金额的协议,以训练定制的人工智能视频生成模型。此外,《泰坦尼克号》和《终结者》导演詹姆斯·卡梅隆加入了人工智能视频和图像模型提供商 Stability的董事会(后者也与 Runway 一样受到艺术家的集体诉讼)。
使用 Pyramid Flow,狮门影业或其他任何电影制片厂都可以对开源版本进行微调,而无需向第三方公司付费。但是,他们仍然需要拥有或外包开发人员人才和计算资源,这可能使与 Runway 等知名 AI 提供商合作更具吸引力,因为该公司和其他类似公司已经拥有可供他们支配的 AI 工程人才。
Pyramidal Flow Matching 背后的研究团队也致力于开放性和可访问性。所有代码和模型权重都将通过其官方项目页面免费向公众开放,确保世界各地的研究人员和开发人员都能利用和借鉴这项工作。
尽管 Pyramid Flow 有诸多优势,但它也存在一些局限性。目前,它缺乏 Runway Gen-3 Alpha 等模型中的一些高级微调功能,这些模型可以精确控制摄像机角度、关键帧和人体手势等电影元素。同样,Luma 的 Dream Machine 提供了 Pyramid Flow 仍在追赶的高级摄像机控制选项。
此外,Pyramid Flow 的推出时间相对较晚,这意味着它的生态系统虽然强大,但并不像其竞争对手那样成熟。
展望未来:人工智能视频竞赛没有放缓的迹象
随着 AI 视频生成市场不断发展,Pyramid Flow 的推出标志着向更易于访问的开源解决方案的转变,可以与 Runway 和 Luma 等专有产品竞争。
目前,它为那些希望避免封闭式机型的成本和限制的人提供了一个可靠的替代方案,同时提供了与更商业化的同类产品相当的令人印象深刻的视频质量。
在接下来的几个月里,开发人员和创作者可能会密切关注 Pyramid Flow 的发展。凭借进一步改进和优化的潜力,它很可能成为各地视频内容创作者的必备工具。目前,所有公司和研究人员都在争夺技术霸权和用户。
与此同时, OpenAI 的 Sora 于 2024 年 2 月首次亮相,除了与少数早期 alpha 小型用户的合作外,仍然不见踪影。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/quan-xin-gao-zhi-liang-ai-shi-pin-sheng-cheng-qi-pyramid