迪士尼研究提供改进的基于人工智能的图像压缩技术——但它可能会产生幻觉细节

AI评测师 • 2024年11月6日上午10:00 • 技术评测 • 238 views

迪士尼的研究部门正在提供一种新的图像压缩方法，利用开源稳定扩散 V1.2 模型以比竞争方法更低的比特率生成更逼真的图像。

迪士尼压缩方法与之前方法的比较。作者声称细节恢复效果有所改善，同时提供了一种不需要数十万美元训练的模型，并且运行速度比最接近的等效竞争方法更快。来源：https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

新方法（尽管与JPEG和AV1等传统编解码器相比，其复杂性有所增加，但仍被定义为“编解码器” ）可以在任何潜在扩散模型(LDM)上运行。在定量测试中，它在准确性和细节方面优于以前的方法，并且所需的训练和计算成本显著降低。

这项新研究的关键见解是量化误差（所有图像压缩中的核心过程）类似于噪声（扩散模型中的核心过程）。

因此，可以将“传统”量化图像视为原始图像的噪声版本，并在 LDM 的去噪过程中使用它来代替随机噪声，以便以目标比特率重建图像。

进一步比较迪士尼的新方法（以绿色突出显示）与其他方法的对比。

作者认为：

“[我们] 将量化误差的消除作为一项去噪任务，使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程，并且不需要对扩散模型进行架构更改，从而可以使用基础模型作为强大的先验，而无需对主干进行额外的微调。

“我们提出的编解码器在定量真实感指标方面优于以前的方法，并且我们验证了即使其他方法使用两倍的比特率，我们的重建在质量上也更受最终用户的青睐。”

然而，与其他试图利用扩散模型压缩能力的项目一样，输出可能会产生幻觉细节。相比之下，JPEG 等有损方法会产生明显扭曲或过度平滑的细节区域，普通观众可能会认为这是压缩限制。

相反，由于在超大规模数据上训练的典型模型中使用的变分自动编码器(VAE)具有粗糙性，迪士尼的编解码器可能会改变源图像中不存在的上下文细节。

“与其他生成方法类似，我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而，在特定情况下，这可能会导致重建不准确，例如弯曲直线或扭曲小物体的边界。

“这些都是我们所构建的基础模型的众所周知的问题，可以归因于其 VAE 的特征维度相对较低。”

虽然这对于艺术描绘和休闲照片的逼真度有一定影响，但在具有此功能的编解码器普及的情况下，它可能会在小细节构成重要信息的情况下产生更关键的影响，例如法庭案件的证据、面部识别的数据、光学字符识别（OCR）的扫描以及各种其他可能的用例。

在人工智能增强图像压缩技术发展的初期，所有这些可能的情况都还很遥远。然而，图像存储是一项超大规模的全球性挑战，涉及数据存储、流媒体和电力消耗等问题，以及其他问题。因此，基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明，当诸如许可和专有格式的市场占领等问题成为采用的因素时，最好的编解码器并不总是能赢得最广泛的用户群。

迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年，新论文的一位研究人员参与了一个基于 VAE 的改进视频压缩项目。

迪士尼的新论文于 10 月初进行了更新。今天，该公司发布了一段配套的 YouTube 视频。该项目名为《基于基础扩散模型的有损图像压缩》，由苏黎世联邦理工学院（隶属于迪士尼的基于 AI 的项目）和迪士尼研究中心的四名研究人员完成。研究人员还提供了补充论文。

方法

新方法使用 VAE 将图像编码为其压缩的潜在表示。在此阶段，输入图像由派生特征（基于低级向量的表示）组成。然后将潜在嵌入量化回比特流，并量化回像素空间。

然后将该量化图像用作噪声的模板，该噪声通常为基于扩散的图像提供种子，并具有不同数量的去噪步骤（其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡）。

新 Disney 压缩方法的架构。

在新系统中，通过训练神经网络来预测与编码方面相关的相关变量，可以控制量化参数和去噪步骤总数。这个过程称为自适应量化，迪士尼系统使用Entroformer框架作为熵模型来驱动该过程。

作者指出：

“直观地讲，我们的方法学会丢弃在扩散过程中可以合成的信息（通过量化变换）。因为量化过程中引入的误差类似于添加[噪声]，而扩散模型在功能上是去噪模型，所以它们可以用来消除编码过程中引入的量化噪声。”

Stable Diffusion V2.1是该系统的扩散主干，之所以选择它，是因为整个代码和基本权重都是公开的。不过，作者强调，他们的架构适用于更广泛的模型。

该过程的经济性的关键是时间步长预测，它可以评估最佳去噪步骤数——效率和性能之间的平衡行为。

时间步长预测，最佳去噪步长数以红色边框表示。请参阅源 PDF 以获得准确的分辨率。

在预测最佳去噪步骤数时，需要考虑潜在嵌入中的噪声量。

数据和测试

该模型在Vimeo-90k数据集上进行训练。每个时期（即模型训练架构每次完全摄取精炼数据集）的图像都会被随机裁剪为 256x256px 。

该模型针对 300,000 步进行了优化，学习率为 1e-4。这是计算机视觉项目中最常见的，也是最低且最细粒度的一般可行值，作为对数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。

作者对经济而有效的系统的一些后勤考虑进行了评论*：

“在训练期间，通过扩散模型的多次传递来反向传播梯度的成本非常高，因为它在DDIM采样期间运行。因此，我们只执行一次 DDIM 采样迭代，并直接使用 [此] 作为完全去噪的 [数据]。”

用于测试系统的数据集是Kodak；CLIC2022；和COCO 30k 。数据集根据 2023 年 Google 提供的使用 条件生成器的多现实图像压缩中概述的方法进行了预处理。

使用的指标是峰值信噪比(PSNR)；学习感知相似性指标(LPIPS)；多尺度结构相似性指数(MS-SSIM)；和Fréchet 初始距离(FID)。

测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括高保真生成图像压缩(HiFiC)；以及ILLM（在 HiFiC 上进行了一些改进）。

基于扩散的系统是具有条件扩散模型（CDC）的有损图像压缩和具有基于分数的生成模型（HFD）的高保真图像压缩。

与各种数据集上的先前框架相比的定量结果。

对于定量结果（如上图所示），研究人员指出：

“我们的方法在重建图像的真实性方面树立了新的领先水平，在 FID 比特率曲线中超越了所有基线。在某些失真指标（即 LPIPS 和 MS-SSIM）中，我们的表现优于所有基于扩散的编解码器，同时仍与性能最高的生成编解码器保持竞争力。

“正如预期的那样，我们的方法和其他生成方法在以 PSNR 衡量时会受到影响，因为我们更喜欢感知上令人愉悦的重建，而不是精确复制细节。”

在用户研究中，我们采用了强制选择 (2AFC) 方法，在锦标赛环境中，受欢迎的图像将进入后续轮次。该研究使用了最初为国际象棋锦标赛开发的Elo评级系统。

因此，参与者将查看并从各种生成方法中呈现的两张 512x512px 图像中选择最佳图像。还进行了一项附加实验，通过 10,0000 次迭代的蒙特卡洛模拟评估了来自同一用户的所有图像比较，结果中给出了中位数。

针对用户研究估算的 Elo 评分，包含每次比较的 Elo 锦标赛（左）以及每个参与者的 Elo 锦标赛，值越高越好。

以下是作者的评论：

“从 Elo 得分可以看出，我们的方法明显优于其他所有方法，甚至与 CDC 相比也是如此，CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略，情况都是如此。”

在原始论文以及补充 PDF中，作者提供了进一步的视觉比较，其中一个在本文前面展示过。然而，由于样本之间的差异很小，我们请读者参考源 PDF，以便公平地判断这些结果。

论文最后指出，其提出的方法比竞争对手 CDC 的运行速度快两倍（分别为 3.49 秒和 6.87 秒）。论文还指出，ILLM 可以在 0.27 秒内处理图像，但该系统需要繁重的训练。

结论

ETH/Disney 的研究人员在论文的结论中明确指出，他们的系统可能会产生虚假细节。然而，材料中提供的所有样本都没有涉及这个问题。

平心而论，这个问题并不局限于迪士尼的新方法，而是使用扩散模型（一种创造性和解释性的架构）来压缩图像的不可避免的附带影响。

有趣的是，仅在五天前，苏黎世联邦理工学院的另外两名研究人员发表了一篇题为《图像压缩的条件幻觉》的论文，探讨了基于人工智能的压缩系统中实现“最佳水平的幻觉”的可能性。

作者在那里论证了幻觉的可取性，其中领域是足够通用的（并且可以说是“无害的”）：

“对于类似纹理的内容，例如草地、雀斑和石墙，生成与给定纹理真实匹配的像素比重建精确的像素值更重要；从纹理分布生成任何样本通常就足够了。”

因此，第二篇论文主张压缩应具有最佳的“创造性”和代表性，而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。

人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/di-shi-ni-yan-jiu-ti-gong-gai-jin-de-ji-yu-ren-gong-zhi

Like (0)

AI评测师作者

0 0

Level AI 首席执行官兼创始人 Ashish Nagar – 访谈系列

Previous 2024年11月6日

GMI Cloud 获 8200 万美元 A 轮融资，以先进 GPU 解决方案推动全球 AI 基础设施扩张

Next 2024年11月6日

技术评测

原生集成GitHub，让AI成为协作者，Claude企业版馋哭个人开发者

Anthropic推出Claude企业版，集成GitHub和500K上下文长度。

AI评测师
2024年9月6日
000
技术评测

高通正向苹果发起最猛烈的攻击

就在英特尔于IFA 2024上发布 Lunar Lake笔记本电脑 CPU的第二天，高通就推出了一款新的 Snapdragon X Plus 芯片进行反击。这款恰如其名的 Snap…

王浩然
2024年9月5日
000
技术评测

什么是 ChatGPT Plus？订阅前您需要了解以下信息

ChatGPT完全免费使用，但这并不意味着 OpenAI 对赚钱不感兴趣。 ChatGPT Plus 是一项订阅服务，让您可以访问GPT-4o大型语言模型，同时享受更快的速度、更高…

王浩然
2024年9月16日
000
AI前沿

Anais Dotis-Georgiou，InfluxData 开发倡导者 – 访谈系列

Anais Dotis-Georgiou 是 InfluxData 的开发倡导者，热衷于利用数据分析、人工智能和机器学习让数据变得美丽。她收集数据，进行研究、探索和工程设计，将数据…

AI评测师
2024年9月12日
000
技术评测

欧洲居民如何访问新的 AI 视频生成器 Google VEO

谷歌最近推出了一款名为Veo的尖端人工智能工具，它允许用户从文本生成视频。这款创新工具目前处于限量发布阶段，仅供美国用户使用。然而，对于渴望尽早使用 Veo 的欧洲居民来说，可以使…

AI评测师
2024年9月4日
000
技术评测

Google 如何让 Medium.com 的抄袭内容超越原创内容

多年来，Google 一直向网站站长社区强调，原创、高质量的内容是获得良好搜索结果排名的关键。Google 的系统旨在奖励那些展现出EEAT（专业性、经验性、权威性和可信度）的内容…

AI评测师
2024年10月5日
000
技术评测

3 个令人惊艳的 GitHub 项目，诞生了！

最近这段时间，各大互联网公司在 AI 科技圈的各种动作可谓热闹非凡，每隔一段时间就有王炸产品放出！开源图像模型 Flux 重磅来袭，图像生成质量直逼 Midjourney；强大的…

AI评测师
2024年9月2日
000
技术评测

抢先OpenAI，Hume AI发布第二代情感智能AI，支持自定义语音，在线可玩

据VentureBeat今日报道，AI情感创企Hume AI于9月11日发布了Empathic Voice Interface 2（EVI 2）。 EVI被宣称为全球首个具有情商的…

AI评测师
2024年9月22日
000
技术评测

Veed.io 评论：我用过的最简单的 AI 视频编辑器

作为一个花了无数时间在 Premiere Pro 上摸索的人，我知道视频编辑是多么令人难以忍受。所以，当我遇到Veed.io时，我一开始是持怀疑态度的。基于网络的编辑器真的能与之相…

AI评测师
2024年11月5日
000
技术评测

AI这个「狗头军师」，教年轻人说「土味情话」贼油腻

AI伊能静，专治「话题终结者」。娱乐圈中，伊能静绝对是情商王者。她曾在节目现场进行恋爱教学，被网友封为「行走的教科书」。比如，聊天时不要只讲动作，要表达情绪和需求。男生问：…

AI评测师
2024年9月12日
000
技术评测

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

人工智能（AI）硬件有望彻底被颠覆，在计算速度和能效方面实现前所未有的改进。日前，来自印度科学研究所、德克萨斯农工大学和利默里克大学的研究团队，在一篇发表在权威科学期刊 Natu…

点点
2024年9月25日
000
技术评测

10 款最佳 AI 表单生成器

高效的数据收集和用户参与对于企业和组织至关重要。人工智能 (AI) 颠覆了表单创建流程，提供了创新的解决方案，简化了创建过程，增强了用户体验，并提供了有价值的见解。

AI评测师
2024年8月27日
000
AI前沿

利用人工智能节省照片筛选时间

如果您是摄影师，没有什么比在大型活动或拍摄后整理数百张（甚至数千张）照片更耗时的事情了。您是否知道专业摄影师平均每小时拍摄一次，要花 3-4 个小时进行编辑？我最近偶然发现了Af…

AI评测师
2024年10月7日
000
AI前沿

使用 LlamaIndex 和 Gemini 实现 REAcT Agent

在过去的 2-3 年里，我们见证了人工智能领域的非凡发展，主要体现在大型语言模型、扩散模型、多模态模型等方面。我最喜欢的兴趣之一是代理工作流。今年早些时候，Coursera 的创始…

王浩然
2024年10月20日
000
技术评测

Oura Ring 4 推出更纤薄的设计、更多尺寸和更强大的传感功能，起价 349 美元

Oura 周四发布了其广受欢迎的智能戒指的第四代产品。Oura Ring 4 的发布时间距离其前代产品发布不到三年。尽管存在差距，但这款新可穿戴设备在很大程度上改进了体验，而不是重…

王浩然
2024年10月5日
000
技术评测

Phrasly 评论：它真的能让 AI 内容听起来像人类吗？

您是否想过，人工智能生成的内容是否真的听起来像人类？我最近遇到了Phrasly，事实证明，它可以将人工智能的效率与人类写作的真实性融为一体！在这篇 Phrasly 评论中，我将讨…

王浩然
2025年1月14日
000
技术评测

你现在只需 5 张图片就可以微调你自己版本的 AI 图像制作器 Flux

Black Forest Labs 迅速成为首屈一指的高质量开源 AI 图像生成初创公司，甚至超越了Black Forest Labs创始人之前就职的Stability AI 提供…

王浩然
2025年1月19日
000
技术评测

Google Lens 现在可以回答有关视频的问题

谷歌正在升级其视觉搜索应用程序 Lens，使其能够近乎实时地回答有关您周围环境的问题。安装了Google 应用的英语 Android 和 iOS 用户现在可以开始通过 Lens …

王浩然
2024年10月6日
000
技术评测

“还没实现”：Sora 的推出得到了 AI 电影制作人的褒贬不一的反应，理由是结果不一致、内容受限

在通过引人注目、栩栩如生的视频进行预览十个月后，OpenAI 终于在周一向公众发布了其 AI 视频生成器模型 Sora。然而，在此后的两天里，这款产品的首次亮相并不完美：早期采用…

王浩然
2024年12月12日
000
技术评测

社交网络 Buttflies AI 添加了一项功能，可将你变成 AI 角色

Butterflies AI是一个人类与人工智能相互交流的新型社交网络，它正在推出一项新的克隆功能，可以将您变成人工智能角色。此次最新添加的功能建立在 6 月份向公众推出的一项功…

王浩然
2024年8月31日
000