OpenAI 的两位研究人员发表了一篇论文,描述了一种新型模型——具体来说是一种新型的连续时间一致性模型 (sCM)——与传统扩散模型相比,该模型将人工智能生成图像、视频和音频等多媒体的速度提高了 50 倍,生成图像只需近十分之一秒,而常规扩散则需要 5 秒以上的时间。
通过引入 sCM,OpenAI 仅通过两个采样步骤就实现了相当的样本质量,提供了一种在不影响质量的情况下加速生成过程的解决方案。
该项创新在arXiv.org 上发表的预同行评审论文和今天发布的博客文章中进行了描述,作者是程璐和杨松,该项创新使这些模型仅需两步即可生成高质量样本——比以前需要数百步的基于扩散的模型快得多。
Song 还是OpenAI 研究人员(包括前首席科学家 Ilya Sutskever)于2023 年发表的一篇论文的主要作者,该论文提出了“一致性模型”的概念,即“同一轨迹上的点映射到同一初始点”。
虽然扩散模型在生成逼真的图像、3D 模型、音频和视频方面取得了出色的效果,但其采样效率低下(通常需要数十到数百个连续步骤)使其不太适合实时应用。
从理论上讲,该技术可以为 OpenAI 的近实时 AI 图像生成模型提供基础。正如记者在我们的内部 Slack 频道中沉思的那样,“DALL-E 4 还会远吗?”
保持高质量,同时加快采样速度
传统的扩散模型需要大量的去噪步骤来生成样本,导致其速度较慢。
相比之下,sCM 可在一两步内直接将噪声转换为高质量样本,从而减少了计算成本和时间。
OpenAI 最大的 sCM 模型拥有 15 亿个参数,可以在单个 A100 GPU 上仅用 0.11 秒生成一个样本。
与扩散模型相比,这使得挂钟时间加快了 50 倍,从而使实时生成 AI 应用更加可行。
使用更少的计算资源达到扩散模型质量
sCM 背后的团队在 ImageNet 512×512 上训练了一个连续时间一致性模型,可扩展至 15 亿个参数。
即使在这种规模下,该模型仍能保持与最佳扩散模型相媲美的样本质量,在 ImageNet 512×512 上实现了 1.88 的 Fréchet 初始距离 (FID) 分数。
这使得样本质量与扩散模型的差异在 10% 以内,而扩散模型需要更多的计算工作量才能获得类似的结果。
基准测试显示性能强劲
OpenAI 的新方法已经与其他最先进的生成模型进行了广泛的对比测试。
通过使用 FID 分数和有效采样计算来测量样本质量,研究表明 sCM 能够以更少的计算开销提供顶级结果。
虽然以前的快速采样方法一直受到样本质量下降或训练设置复杂的困扰,但 sCM 成功克服了这些挑战,兼具速度和高保真度。
sCM 的成功还归功于它能够随着从中提炼知识的教师传播模型按比例扩展。
随着 sCM 和教师扩散模型规模的扩大,样本质量的差距进一步缩小,而 sCM 中采样步骤数的增加会进一步缩小质量差异。
应用和未来用途
sCM 模型的快速采样和可扩展性为跨多个领域的实时生成 AI 开辟了新的可能性。
从图像生成到音频和视频合成,sCM 为需要快速、高质量输出的应用程序提供了实用的解决方案。
此外,OpenAI 的研究暗示了进一步系统优化的潜力,可以进一步提高性能,并根据各个行业的特定需求定制这些模型。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-yan-jiu-ren-yuan-kai-fa-xin-mo-xing-jiang-mei-ti