迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源稳定扩散 V1.2 模型以比竞争方法更低的比特率生成更逼真的图像。
新方法(尽管与JPEG和AV1等传统编解码器相比,其复杂性有所增加,但仍被定义为“编解码器” )可以在任何潜在扩散模型(LDM)上运行。在定量测试中,它在准确性和细节方面优于以前的方法,并且所需的训练和计算成本显著降低。
这项新研究的关键见解是量化误差(所有图像压缩中的核心过程)类似于噪声(扩散模型中的核心过程)。
因此,可以将“传统”量化图像视为原始图像的噪声版本,并在 LDM 的去噪过程中使用它来代替随机噪声,以便以目标比特率重建图像。
作者认为:
“[我们] 将量化误差的消除作为一项去噪任务,使用扩散来恢复传输图像潜影中丢失的信息。我们的方法使我们能够执行不到 10% 的完整扩散生成过程,并且不需要对扩散模型进行架构更改,从而可以使用基础模型作为强大的先验,而无需对主干进行额外的微调。
“我们提出的编解码器在定量真实感指标方面优于以前的方法,并且我们验证了即使其他方法使用两倍的比特率,我们的重建在质量上也更受最终用户的青睐。”
然而,与其他试图利用扩散模型压缩能力的项目一样,输出可能会产生幻觉细节。相比之下,JPEG 等有损方法会产生明显扭曲或过度平滑的细节区域,普通观众可能会认为这是压缩限制。
相反,由于在超大规模数据上训练的典型模型中使用的变分自动编码器(VAE)具有粗糙性,迪士尼的编解码器可能会改变源图像中不存在的上下文细节。
“与其他生成方法类似,我们的方法可以在接收端合成类似信息时丢弃某些图像特征。然而,在特定情况下,这可能会导致重建不准确,例如弯曲直线或扭曲小物体的边界。
“这些都是我们所构建的基础模型的众所周知的问题,可以归因于其 VAE 的特征维度相对较低。”
虽然这对于艺术描绘和休闲照片的逼真度有一定影响,但在具有此功能的编解码器普及的情况下,它可能会在小细节构成重要信息的情况下产生更关键的影响,例如法庭案件的证据、面部识别的数据、光学字符识别(OCR)的扫描以及各种其他可能的用例。
在人工智能增强图像压缩技术发展的初期,所有这些可能的情况都还很遥远。然而,图像存储是一项超大规模的全球性挑战,涉及数据存储、流媒体和电力消耗等问题,以及其他问题。因此,基于人工智能的压缩可以在准确性和物流之间提供诱人的权衡。历史表明,当诸如许可和专有格式的市场占领等问题成为采用的因素时,最好的编解码器并不总是能赢得最广泛的用户群。
迪士尼长期以来一直在尝试使用机器学习作为压缩方法。2020 年,新论文的一位研究人员参与了一个基于 VAE 的改进视频压缩项目。
迪士尼的新论文于 10 月初进行了更新。今天,该公司发布了一段配套的 YouTube 视频。该项目名为《基于基础扩散模型的有损图像压缩》,由苏黎世联邦理工学院(隶属于迪士尼的基于 AI 的项目)和迪士尼研究中心的四名研究人员完成。研究人员还提供了补充论文。
方法
新方法使用 VAE 将图像编码为其压缩的潜在表示。在此阶段,输入图像由派生特征(基于低级向量的表示)组成。然后将潜在嵌入量化回比特流,并量化回像素空间。
然后将该量化图像用作噪声的模板,该噪声通常为基于扩散的图像提供种子,并具有不同数量的去噪步骤(其中通常在增加去噪步骤和提高准确性与降低延迟和提高效率之间进行权衡)。
在新系统中,通过训练神经网络来预测与编码方面相关的相关变量,可以控制量化参数和去噪步骤总数。这个过程称为自适应量化,迪士尼系统使用Entroformer框架作为熵模型来驱动该过程。
作者指出:
“直观地讲,我们的方法学会丢弃在扩散过程中可以合成的信息(通过量化变换)。因为量化过程中引入的误差类似于添加[噪声],而扩散模型在功能上是去噪模型,所以它们可以用来消除编码过程中引入的量化噪声。”
Stable Diffusion V2.1是该系统的扩散主干,之所以选择它,是因为整个代码和基本权重都是公开的。不过,作者强调,他们的架构适用于更广泛的模型。
该过程的经济性的关键是时间步长预测,它可以评估最佳去噪步骤数——效率和性能之间的平衡行为。
在预测最佳去噪步骤数时,需要考虑潜在嵌入中的噪声量。
数据和测试
该模型在Vimeo-90k数据集上进行训练。每个时期(即模型训练架构每次完全摄取精炼数据集)的图像都会被随机裁剪为 256x256px 。
该模型针对 300,000 步进行了优化,学习率为 1e-4。这是计算机视觉项目中最常见的,也是最低且最细粒度的一般可行值,作为对数据集概念和特征的广泛概括与精细细节再现能力之间的折衷。
作者对经济而有效的系统的一些后勤考虑进行了评论*:
“在训练期间,通过扩散模型的多次传递来反向传播梯度的成本非常高,因为它在DDIM采样期间运行。因此,我们只执行一次 DDIM 采样迭代,并直接使用 [此] 作为完全去噪的 [数据]。”
用于测试系统的数据集是Kodak;CLIC2022;和COCO 30k 。数据集根据 2023 年 Google提供的使用 条件生成器的多现实图像压缩中概述的方法进行了预处理。
使用的指标是峰值信噪比(PSNR);学习感知相似性指标(LPIPS);多尺度结构相似性指数(MS-SSIM);和Fréchet 初始距离(FID)。
测试的竞争对手先前的框架分为使用生成对抗网络 (GAN) 的旧系统和基于扩散模型的较新系统。测试的 GAN 系统包括高保真生成图像压缩(HiFiC);以及ILLM(在 HiFiC 上进行了一些改进)。
基于扩散的系统是具有条件扩散模型(CDC)的有损图像压缩和具有基于分数的生成模型(HFD)的高保真图像压缩。
对于定量结果(如上图所示),研究人员指出:
“我们的方法在重建图像的真实性方面树立了新的领先水平,在 FID 比特率曲线中超越了所有基线。在某些失真指标(即 LPIPS 和 MS-SSIM)中,我们的表现优于所有基于扩散的编解码器,同时仍与性能最高的生成编解码器保持竞争力。
“正如预期的那样,我们的方法和其他生成方法在以 PSNR 衡量时会受到影响,因为我们更喜欢感知上令人愉悦的重建,而不是精确复制细节。”
在用户研究中,我们采用了强制选择 (2AFC) 方法,在锦标赛环境中,受欢迎的图像将进入后续轮次。该研究使用了最初为国际象棋锦标赛开发的Elo评级系统。
因此,参与者将查看并从各种生成方法中呈现的两张 512x512px 图像中选择最佳图像。还进行了一项附加实验,通过 10,0000 次迭代的蒙特卡洛模拟评估了来自同一用户的所有图像比较,结果中给出了中位数。
以下是作者的评论:
“从 Elo 得分可以看出,我们的方法明显优于其他所有方法,甚至与 CDC 相比也是如此,CDC 平均使用了我们方法的两倍。无论使用哪种 Elo 锦标赛策略,情况都是如此。”
在原始论文以及补充 PDF中,作者提供了进一步的视觉比较,其中一个在本文前面展示过。然而,由于样本之间的差异很小,我们请读者参考源 PDF,以便公平地判断这些结果。
论文最后指出,其提出的方法比竞争对手 CDC 的运行速度快两倍(分别为 3.49 秒和 6.87 秒)。论文还指出,ILLM 可以在 0.27 秒内处理图像,但该系统需要繁重的训练。
结论
ETH/Disney 的研究人员在论文的结论中明确指出,他们的系统可能会产生虚假细节。然而,材料中提供的所有样本都没有涉及这个问题。
平心而论,这个问题并不局限于迪士尼的新方法,而是使用扩散模型(一种创造性和解释性的架构)来压缩图像的不可避免的附带影响。
有趣的是,仅在五天前,苏黎世联邦理工学院的另外两名研究人员发表了一篇题为《图像压缩的条件幻觉》的论文,探讨了基于人工智能的压缩系统中实现“最佳水平的幻觉”的可能性。
作者在那里论证了幻觉的可取性,其中领域是足够通用的(并且可以说是“无害的”):
“对于类似纹理的内容,例如草地、雀斑和石墙,生成与给定纹理真实匹配的像素比重建精确的像素值更重要;从纹理分布生成任何样本通常就足够了。”
因此,第二篇论文主张压缩应具有最佳的“创造性”和代表性,而不是尽可能准确地重现原始未压缩图像的核心特征和轮廓。
人们不禁想知道摄影和创意界会如何看待这种相当激进的“压缩”重新定义。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/di-shi-ni-yan-jiu-ti-gong-gai-jin-de-ji-yu-ren-gong-zhi