全新高质量 AI 视频生成器 Pyramid Flow 推出 — — 而且它是完全开源的！

王浩然 • 2024年10月15日下午1:00 • AI前沿 • 132 views

人工智能视频生成模型的数量不断增长，本周推出了一种新的模型Pyramid Flow，它可以提供长达 10 秒的高质量视频片段——速度快，而且全部开源。

Pyramid Flow由北京大学、北京邮电大学和快手科技的研究人员合作开发，后者是广受好评的专有 Kling AI 视频生成器的创造者，它利用一种新技术，其中单个 AI 模型分阶段生成视频，其中大多数是低分辨率的，只在生成过程结束时保存全分辨率版本。

它可以作为原始代码在Hugging Face和Github上下载，并且可以在这里的推理 shell中运行，但需要用户在自己的机器上下载并运行模型代码。

经过推理，该模型可以在短短 56 秒内生成一段 5 秒、384p 的视频——与许多全序列扩散模型相当或更快——尽管Runway 的 Gen 3-Alpha Turbo在 AI 视频生成速度方面仍然占据优势，在我们的测试中，生成时间不到一分钟，通常为 10-20 秒。

我们还没有机会测试 Pyramid Flow，但模型创建者发布的视频看起来非常逼真、分辨率足够高且引人注目——类似于专有产品的视频。您可以在其Github 项目页面上看到各种示例。

事实上，Pyramid Flow 现已可供下载和使用——甚至可用于商业/企业目的——并旨在与 Runway 的 Gen-3 Alpha、Luma 的 Dream Machine、Kling 和 Haulio 等付费专有产品直接竞争，对于不限代订阅的用户来说，这些产品每年可能要花费数百甚至数千美元。

随着各种 AI 视频提供商争夺用户的竞争持续进行，Pyramid Flow 旨在为寻求高级视频生成功能的开发人员、艺术家和创作者带来更高的效率和灵活性。

AI 视频生成是一项计算密集型任务，通常涉及对大型时空空间进行建模。传统方法通常需要针对流程的不同阶段建立单独的模型，这限制了灵活性并增加了训练的复杂性。

Pyramid Flow 建立在金字塔流匹配的概念之上，该方法在保持高视觉质量的同时大幅降低了视频生成的计算成本，将视频生成过程作为一系列“金字塔”阶段完成，其中只有最后阶段以全分辨率运行。

它在 2024 年 10 月 8 日提交给开放获取科学期刊 arXiv 的预先审查的论文“金字塔流匹配以实现高效视频生成建模”中进行了描述。

作者包括金阳、孙志成、李宁远、徐坤、姜浩、庄楠、黄曲哲、宋杨、穆亚东和林周晨。这些研究人员大部分来自北京大学，还有一些来自快手科技。

正如他们所写，在不同阶段压缩和优化视频生成的能力可以加快训练过程中的收敛速度，从而使 Pyramid Flow 能够在每个训练批次中生成更多的样本。

例如，与传统的扩散模型相比，提出的金字塔流将令牌数量减少了四分之一，从而实现了更高效的训练

该模型可以以 768p 分辨率和每秒 24 帧的速度制作 5 到 10 秒的视频，同时在开源数据集上进行训练。具体来说，论文指出 Pyramid Flow 是在以下数据集上进行训练的：

LAION-5B，一个用于多模式人工智能研究的大型数据集。
CC-12M，网络爬取的图像文本对数据集。
SA-1B 具有高质量、无模糊的图像特点。
WebVid-10M 和 OpenVid-1M 是广泛用于文本到视频生成的视频数据集。

总的来说，作者精选了大约 1000 万个单镜头视频。

另外， Runway 是被艺术家集体起诉的公司之一，指控其未经许可、补偿或同意就使用材料进行培训——涉嫌侵犯美国版权。目前，该案仍在法庭审理中。

经过许可，开源，可用于商业用途

这使得 Pyramid Flow 成为希望将模型集成到专有系统中的开发人员和公司的一个有吸引力的选择，并且可能挑战Luma AI和Runway，因为它们都希望为寻求将其专有 AI 视频生成技术集成到面向客户或员工的应用程序的开发人员提供付费应用程序编程接口。

然而，这些专有模型已经作为适合开发人员的推理而存在，虽然 Pyramid Flow 在 Hugging Face 上有一个演示推理，但它并不适合在其上构建完整的应用程序，用户需要托管自己的推理版本，这也可能是昂贵的，尽管模型本身是“免费的”。

此外，Pyramid Flow 可能会吸引那些希望利用人工智能提高效率、削减成本和探索新创意工具的电影制片厂。一家大型电影制片厂狮门影业（拥有《疾速追杀》和《暮光之城》等多部电影的特许经营权）最近与 Runway 签署了一项未指定金额的协议，以训练定制的人工智能视频生成模型。此外，《泰坦尼克号》和《终结者》导演詹姆斯·卡梅隆加入了人工智能视频和图像模型提供商 Stability的董事会（后者也与 Runway 一样受到艺术家的集体诉讼）。

使用 Pyramid Flow，狮门影业或其他任何电影制片厂都可以对开源版本进行微调，而无需向第三方公司付费。但是，他们仍然需要拥有或外包开发人员人才和计算资源，这可能使与 Runway 等知名 AI 提供商合作更具吸引力，因为该公司和其他类似公司已经拥有可供他们支配的 AI 工程人才。

Pyramidal Flow Matching 背后的研究团队也致力于开放性和可访问性。所有代码和模型权重都将通过其官方项目页面免费向公众开放，确保世界各地的研究人员和开发人员都能利用和借鉴这项工作。

尽管 Pyramid Flow 有诸多优势，但它也存在一些局限性。目前，它缺乏 Runway Gen-3 Alpha 等模型中的一些高级微调功能，这些模型可以精确控制摄像机角度、关键帧和人体手势等电影元素。同样，Luma 的 Dream Machine 提供了 Pyramid Flow 仍在追赶的高级摄像机控制选项。

此外，Pyramid Flow 的推出时间相对较晚，这意味着它的生态系统虽然强大，但并不像其竞争对手那样成熟。

展望未来：人工智能视频竞赛没有放缓的迹象

随着 AI 视频生成市场不断发展，Pyramid Flow 的推出标志着向更易于访问的开源解决方案的转变，可以与 Runway 和 Luma 等专有产品竞争。

目前，它为那些希望避免封闭式机型的成本和限制的人提供了一个可靠的替代方案，同时提供了与更商业化的同类产品相当的令人印象深刻的视频质量。

在接下来的几个月里，开发人员和创作者可能会密切关注 Pyramid Flow 的发展。凭借进一步改进和优化的潜力，它很可能成为各地视频内容创作者的必备工具。目前，所有公司和研究人员都在争夺技术霸权和用户。

与此同时， OpenAI 的 Sora 于 2024 年 2 月首次亮相，除了与少数早期 alpha 小型用户的合作外，仍然不见踪影。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/quan-xin-gao-zhi-liang-ai-shi-pin-sheng-cheng-qi-pyramid

AI 视频 AI视频生成器 GitHub OpenAI Pyramid Flow 人工智能

Like (0)

王浩然作者

0 0

DeepMind 的 Michelangelo 基准测试揭示了长上下文 LLM 的局限性

Previous 2024年10月15日

ApertureData 使用多模式数据为企业提供 10 倍速度提升

Next 2024年10月15日

AI前沿

商业基础设施 AI 的未来：为何 Apple Silicon 驱动的私有裸机解决方案是 IT 部门的理想选择

随着企业（尤其是中小型 IT 部门）寻求将 AI 纳入其运营，他们面临着一个复杂且不断变化的市场。尽管 AI 的前景令人兴奋，但前景充满不确定性。公共 AI 聊天机器人广泛可用，但…

王浩然
2025年1月13日
000
AI前沿

Stability AI优化音频生成模型，使其可在ARM芯片上运行‌

在人工智能领域，模型的优化与适配一直是推动技术发展的关键。近日，Stability AI宣布了一项重要进展：其音频生成模型已成功优化，能够在ARM芯片上高效运行。这一突破性的成就不…

王浩然
2025年3月4日
000
AI前沿

OpenAI 为 DeepSeek 竞赛提供 o3-mini 详细推理轨迹

OpenAI 目前正在展示其最新推理模型 o3-mini 的更多推理过程细节。这一变化是在OpenAI 的 X 账户上宣布的，而此时人工智能实验室正面临来自 DeepSeek-R1…

王浩然
2025年2月9日
000
AI前沿

英国将推出“汉弗莱”公务员助理及其他人工智能计划以减少官僚主义

英国政府宣布了一项大规模投资人工智能的计划，一周后，政府公布了该计划在公共部门的具体实施细节。计划包括：人工智能助手加快公共服务；跨部门数据共享；一套新的人工智能工具——以英国老电…

王浩然
2025年1月21日
000
AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

这一届AI创业者：不敢再谈理想，怕伤钱

ChatGPT引发的人工智能热潮被疯狂追捧一年多后，AI行业开始陷入迷茫。距离OpenAI发布GPT-4已超过一年半，GPT-5还迟迟不见踪影，文生视频大模型Sora也没有全面开…

点点
2024年9月25日
000
AI前沿

人工智能心理健康平台获 82.5 万美元融资

心理健康初创公司 Yung Sidekick 已获得 825,000 美元的种子前资金，用于开发针对心理健康专业人士的人工智能平台。此轮融资由 Altair Capital 和 …

点点
2024年10月8日
000
AI前沿

平台工程：简化现代软件开发

随着我们加速迈向工业 4.0，数字化转型以前所未有的水平重塑了企业。如今，组织面临着更快、更可靠、更大规模地交付软件的巨大压力。云环境的日益复杂以及对无摩擦客户体验的需求不断增加…

点点
2024年11月5日
000
AI前沿

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

就像2024 年在纽约市结束的方式一样，2025 年人工智能新闻周期也以一声雷鸣般的响声开始。 OpenAI 联合创始人兼首席执行官 Sam Altman昨天 (1 月 5 日) …

王浩然
2025年1月7日
000
AI前沿

OpenAI 确认新前沿模型 o3 和 o3-mini

OpenAI 正在慢慢邀请选定的用户测试一整套新的推理模型，名为 o3 和 o3 mini，它们是本月初刚刚全面发布的o1 和 o1-mini 模型的后继者。 OpenAI o3 …

王浩然
2024年12月21日
000
AI前沿

科学家构建推动通用人工智能发展的AI模型

一、引言在人工智能领域，通用人工智能（Artificial General Intelligence, AGI）一直是研究者们追求的终极目标。近日，来自澳大利亚悉尼科技大学的研究…

王浩然
2025年3月14日
000
AI前沿

烟雾、反射和入口：Adobe 的 TransPixar 将 AI VFX 提升到新水平

Adobe Research和香港科技大学(HKUST)的一个团队开发了一种人工智能系统，可以改变电影、游戏和交互式媒体的视觉效果的制作方式。这项名为TransPixar的技术为…

王浩然
2025年1月9日
000
AI前沿

AWS 关闭了用于 AI 音乐的 MIDI 键盘 DeepComposer

AWS 奇怪的人工智能键盘实验DeepComposer不复存在。该公司在今天的一篇博客文章中宣布关闭已有 5 年历史的 DeepComposer，这是一款物理 MIDI 钢琴和 …

王浩然
2024年9月19日
000
AI前沿

微软的新 AI 代理支持 1,800 种模型（并且还在不断增加）

人工智能代理是目前企业热议的话题。但是，企业领导者希望了解切实的成果和相关用例（而不是未来主义的、尚未实现的场景），并且需要易于部署和使用的工具，此外，还要支持他们首选的模型。 …

王浩然
2024年11月21日
000
AI前沿

DeepSeek 的新 AI 模型似乎是迄今为止最好的“公开”挑战者之一

中国的一个实验室创建了迄今为止最强大的“开放式”人工智能模型之一。该模型DeepSeek V3由人工智能公司 DeepSeek 开发，并于周三根据宽松的许可证发布，允许开发人员下…

王浩然
2024年12月28日
000
AI前沿

销售团队如何利用人工智能来优化转化率

如今，在现代销售中保持竞争力实际上意味着要拥抱最新的技术趋势。自 2022 年底以来（得益于 OpenAI 的 ChatGPT，生成式人工智能进入公众视野），人工智能一直走在这一…

点点
2024年9月26日
000
AI前沿

OpenAI推出全新工具套件，助力企业高效构建AI代理

在人工智能（AI）技术日新月异的今天，OpenAI再次走在行业前沿，为帮助企业更好地利用AI技术，推出了全新的工具套件。这一工具套件旨在简化AI代理的构建过程，使更多企业能够轻松驾…

王浩然
2025年3月13日
000
AI前沿

外滩大会揭秘：AI的未来5年，你准备好了吗？

在一些悲观者看来，人工智能的发展似乎变慢了。 2022 年底，ChatGPT 发布，五天用户注册超过百万，两个月后月活用户超过 1 亿，以此为起点，几乎每家…

点点
2024年9月9日
000
AI前沿

ElevenLabs推出新功能：作者可在平台上自创并发布有声书‌

近期，ElevenLabs宣布了一项重大更新，允许作者在其平台上直接创建并发布有声书。这一功能为众多内容创作者提供了一个全新的发布渠道，使得他们能够更加便捷地将文字作品转化为音频形…

王浩然
2025年2月28日
000
AI前沿

随着人工智能的进步，这对用户生成内容意味着什么？

创作者经济的崛起是互联网领域最具颠覆性的力量之一，为独立作家、艺术家、音乐家、播客、YouTube 博主和社交媒体影响者直接与观众联系并从中赚钱铺平了道路。创作者纷纷…

AI News
2024年8月28日
000