OpenAI 研究人员开发新模型，将媒体生成速度提高 50 倍

王浩然 • 2024年10月25日下午7:00 • AI前沿 • 105 views

OpenAI 的两位研究人员发表了一篇论文，描述了一种新型模型——具体来说是一种新型的连续时间一致性模型 (sCM)——与传统扩散模型相比，该模型将人工智能生成图像、视频和音频等多媒体的速度提高了 50 倍，生成图像只需近十分之一秒，而常规扩散则需要 5 秒以上的时间。

通过引入 sCM，OpenAI 仅通过两个采样步骤就实现了相当的样本质量，提供了一种在不影响质量的情况下加速生成过程的解决方案。

该项创新在arXiv.org 上发表的预同行评审论文和今天发布的博客文章中进行了描述，作者是程璐和杨松，该项创新使这些模型仅需两步即可生成高质量样本——比以前需要数百步的基于扩散的模型快得多。

Song 还是OpenAI 研究人员（包括前首席科学家 Ilya Sutskever）于2023 年发表的一篇论文的主要作者，该论文提出了“一致性模型”的概念，即“同一轨迹上的点映射到同一初始点”。

虽然扩散模型在生成逼真的图像、3D 模型、音频和视频方面取得了出色的效果，但其采样效率低下（通常需要数十到数百个连续步骤）使其不太适合实时应用。

从理论上讲，该技术可以为 OpenAI 的近实时 AI 图像生成模型提供基础。正如记者在我们的内部 Slack 频道中沉思的那样，“DALL-E 4 还会远吗？”

保持高质量，同时加快采样速度

传统的扩散模型需要大量的去噪步骤来生成样本，导致其速度较慢。

相比之下，sCM 可在一两步内直接将噪声转换为高质量样本，从而减少了计算成本和时间。

OpenAI 最大的 sCM 模型拥有 15 亿个参数，可以在单个 A100 GPU 上仅用 0.11 秒生成一个样本。

与扩散模型相比，这使得挂钟时间加快了 50 倍，从而使实时生成 AI 应用更加可行。

使用更少的计算资源达到扩散模型质量

sCM 背后的团队在 ImageNet 512×512 上训练了一个连续时间一致性模型，可扩展至 15 亿个参数。

即使在这种规模下，该模型仍能保持与最佳扩散模型相媲美的样本质量，在 ImageNet 512×512 上实现了 1.88 的 Fréchet 初始距离 (FID) 分数。

这使得样本质量与扩散模型的差异在 10% 以内，而扩散模型需要更多的计算工作量才能获得类似的结果。

基准测试显示性能强劲

OpenAI 的新方法已经与其他最先进的生成模型进行了广泛的对比测试。

通过使用 FID 分数和有效采样计算来测量样本质量，研究表明 sCM 能够以更少的计算开销提供顶级结果。

虽然以前的快速采样方法一直受到样本质量下降或训练设置复杂的困扰，但 sCM 成功克服了这些挑战，兼具速度和高保真度。

sCM 的成功还归功于它能够随着从中提炼知识的教师传播模型按比例扩展。

随着 sCM 和教师扩散模型规模的扩大，样本质量的差距进一步缩小，而 sCM 中采样步骤数的增加会进一步缩小质量差异。

应用和未来用途

sCM 模型的快速采样和可扩展性为跨多个领域的实时生成 AI 开辟了新的可能性。

从图像生成到音频和视频合成，sCM 为需要快速、高质量输出的应用程序提供了实用的解决方案。

此外，OpenAI 的研究暗示了进一步系统优化的潜力，可以进一步提高性能，并根据各个行业的特定需求定制这些模型。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-yan-jiu-ren-yuan-kai-fa-xin-mo-xing-jiang-mei-ti

AI 图像生成模型 DALL-E OpenAI sCM 人工智能

Like (0)

王浩然作者

0 0

可区分自适应合并正在加速企业的 SLM

Previous 2024年10月25日

OpenAI 科学家 Noam Brown 震惊 TED AI 大会：“20 秒思考价值 100,000 倍以上数据”

Next 2024年10月25日

AI前沿

AI工作取代：是逐渐发生还是突然到来？‌

人工智能（AI）正在迅速改变我们的工作方式，无论是通过自动化任务、作为辅助工具，还是从普通英语生成文本、图像、视频和软件。然而，尽管关于AI将彻底改变工作的讨论甚嚣尘上，但广泛的工…

王浩然
2025年3月24日
000
AI前沿

为什么人工智能是万事通，却一无所知

每月有超过 5 亿人信任 Gemini 和ChatGPT ，相信它们能让他们了解从意大利面到性或家庭作业等所有信息。但如果人工智能告诉你用汽油煮意大利面，那么你可能也不应该听从它在…

点点
2024年9月30日
000
AI前沿

Lapsi 正在重新启动听诊器作为健康跟踪数据平台

医疗技术消费化正在继续：总部位于阿姆斯特丹的初创公司Lapsi Health刚刚获得 FDA 对其首款临床支持工具——数字听诊器的批准。美国医疗器械监管机构食品药品管理局已将其列为…

王浩然
2024年10月1日
000
AI前沿

微软的 GRIN-MoE AI 模型采用编码和数学，在关键基准测试中击败竞争对手

微软推出了一种突破性的人工智能模型GRIN-MoE（梯度知情混合专家模型），旨在提高编码和数学等复杂任务的可扩展性和性能。该模型有望通过一次选择性地激活一小部分参数来重塑企业应用程…

王浩然
2024年9月22日
000
AI前沿

亚马逊因人类投资避开英国反垄断审查

英国反垄断机构得出结论：由于交易的规模和范围，亚马逊与人工智能初创公司 Anthropic 的合作和股权投资不能根据现行的合并规则进行调查。英国竞争与市场管理局 (CMA) 宣布…

王浩然
2024年9月29日
000
AI前沿

廉价的人工智能“视频抓取”现在可以从任何屏幕录像中提取数据

最近，人工智能研究员 Simon Willison 想要汇总使用云服务的费用，但他需要的付款金额和日期分散在十几封不同的电子邮件中。手动输入这些信息会很繁琐，因此他采用了一种他称之…

点点
2024年10月21日
000
AI前沿

振动编码在企业级AI工具中的应用：全面覆盖开发全生命周期

随着人工智能技术的飞速发展，振动编码（Vibe Coding）现象正逐渐从一个小众概念演变为主流开发方法。开发者们日益依赖AI来生成和辅助编写代码，GitHub Copilot等工…

王浩然
4天前
000
AI前沿

网络防御的NFL战术：安全领袖如何闪电突击、灵活转向并取得胜利

在当今数字化时代，网络安全已成为企业运营的核心要素。面对层出不穷的网络威胁，安全领袖们需要制定一套高效且灵活的防御策略，如同美式足球（橄榄球）比赛中的战术布局一样，既要快速突击，又…

王浩然
2025年2月23日
000
AI前沿

CoreWeave创始人：在40亿美元IPO前夕，已入账4.88亿美元‌

随着科技行业的蓬勃发展，云计算领域再次迎来了一个令人瞩目的里程碑。CoreWeave，这家专注于高性能计算的云计算服务提供商，正站在40亿美元IPO（首次公开募股）的门槛上。而在此…

王浩然
2025年3月8日
000
AI前沿

AI对抗AI：企业自动化网络安全的六种方式以应对AI驱动的攻击

引言在数字化时代，网络安全威胁日益复杂且多变，其中AI驱动的攻击尤为引人注目。为了应对这一挑战，企业正积极采用AI技术来增强自身的防御能力。本文将探讨企业如何通过六种方式自动化网…

王浩然
2025年3月19日
000
AI前沿

Nvidia 容器安全应用程序增强 AI 网络防御

Nvidia 的 AI 网络安全 NIM Blueprint 容器可在几秒钟内提供常见漏洞分析

点点
2024年10月16日
000
AI前沿

DeepSeek 真的在向中国发送数据吗？让我们来解密

上周，中国初创公司DeepSeek发布了性能强大但成本低廉的开源版本 DeepSeek-R1，在人工智能界引起轩然大波。该模型使用纯强化学习 (RL)，在一系列基准测试中与 Ope…

王浩然
2025年1月28日
000
AI前沿

小语言模型如何通过测试时缩放解锁隐藏推理能力并超越大型语言模型‌

根据上海人工智能实验室的一项新研究，非常小的语言模型（SLMs）在推理任务中能够超越领先的大型语言模型（LLMs）。研究人员展示，通过正确的工具和测试时缩放技术，一个具有10亿参数…

王浩然
2025年2月22日
000
AI前沿

OpenAI：每周服务用户量突破4亿

OpenAI，这家引领人工智能领域发展的先锋企业，近期宣布其每周服务用户量已突破4亿大关。这一里程碑式的成就，标志着OpenAI的技术和服务在全球范围内受到了广泛认可和热烈欢迎。 …

王浩然
2025年2月24日
000
AI前沿

幻影数据中心：它们是什么（或不是什么）以及它们为何阻碍人工智能的真正前景

在人工智能时代，公共事业单位正面临一个意想不到的新问题：幻影数据中心。从表面上看，这似乎很荒谬：为什么（以及如何）有人会制造像数据中心这样复杂的东西？但随着人工智能需求以及对更多计…

王浩然
2025年1月6日
000
AI前沿

Gensparks的Super Agent：通用人工智能代理竞赛中的新星‌

在人工智能领域，通用型代理的竞争格局正日益激烈且充满野心。近日，总部位于帕洛阿尔托的初创公司Genspark推出了其名为Super Agent的快速自主系统。该系统旨在跨多个领域处…

王浩然
4天前
000
AI前沿

Vibe编码在企业级应用：AI工具全面覆盖开发周期‌

随着技术的飞速发展，AI在软件开发领域的应用日益广泛，Vibe编码现象——即开发者越来越多地依赖AI来生成和辅助代码——已从一个小众概念迅速演变为主流开发方法。GitHub Cop…

王浩然
5天前
000
AI前沿

D-ID 推出可进行实时对话的全新高质量虚拟形象

AI 视频平台 D-ID 今天宣布推出两种用于内容创作的新类型化身——Express 和 Premium+。各家公司都在追逐创造更像人类的人工智能形象的金蛋，这些形象可能会减轻企…

王浩然
2024年11月2日
000
AI前沿

人工智能不断从新的经验中学习，不会忘记过去

我们的大脑在不断学习。那家新开的三明治熟食店很棒。那家加油站？以后最好别去那里。此类记忆会重新连接大脑中支持新学习的区域。在睡眠期间，前一天的记忆会被转移到大脑的其他部位进行长期…

点点
2024年9月3日
000
AI前沿

xAI 以每月价值 25 美元的 API 积分吸引开发者，并支持 OpenAI、Anthropic SDK

我们已经知道这一点有一段时间了，但现在我们可以确定的是：生成式人工智能竞赛对于开发人员来说就像对于最终用户来说一样是一场竞赛。举个例子：今天，埃隆·马斯克的 xAI（社交网络 X…

王浩然
2024年11月6日
000