加拿大的一篇新研究论文提出了一个框架,该框架有意将 JPEG 压缩引入神经网络的训练方案中,并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。
这是一个相当激进的想法,因为目前的普遍观点是,JPEG 伪影是针对人类观看而不是机器学习而优化的,通常会对在 JPEG 数据上训练的神经网络产生有害影响。
马里兰大学和 Facebook AI 在 2022 年发布的一份报告声称,尽管之前的研究声称神经网络对图像压缩伪影具有相对的弹性,但 JPEG 压缩在神经网络训练中“会显著降低性能”。
一年前,文献中出现了一种新的思路:JPEG 压缩实际上可以用来改善模型训练的结果。
然而,尽管该论文的作者能够在不同质量级别的 JPEG 图像训练中获得更好的结果,但他们提出的模型过于复杂和繁琐,不切实际。此外,系统使用默认的 JPEG 优化设置(量化)也成为训练效果的障碍。
后来的一个项目(2023 年的DNN Vision JPEG 兼容压缩)尝试了一个系统,该系统使用冻结的深度神经网络 (DNN) 模型从 JPEG 压缩的训练图像中获得稍好的结果。然而,在训练期间冻结模型的某些部分往往会降低模型的多功能性,以及其对新数据的更广泛的适应性。
JPEG-DL
相反,这项名为“JPEG 启发的深度学习”的新研究提供了一种更为简单的架构,甚至可以强加于现有模型之上。
滑铁卢大学的研究人员表示:
结果表明,JPEG-DL 在各种 DNN 架构中的表现显著且持续优于标准 DL,而模型复杂度的增加可以忽略不计。
具体来说,JPEG-DL 在某些细粒度分类数据集上将分类准确率提高了 20.9%,同时仅为 DL 管道添加了 128 个可训练参数。此外,学习模型的对抗鲁棒性增强和输入图像的文件大小减小进一步证明了 JPEG-DL 相对于标准 DL 的优势。’
作者认为,最佳 JPEG 压缩质量级别可以帮助神经网络区分图像的中心主体。在下面的示例中,当神经网络获得特征时,我们看到基线结果(左)将鸟融入背景中。相比之下,JPEG-DL(右)成功区分并勾勒出照片的主体。
他们解释说, “这种现象在 [2021] 篇论文中被称为‘压缩有帮助’,其合理性在于压缩可以消除噪音和令人不安的背景特征,从而突出显示图像中的主要对象,这有助于 DNN 做出更好的预测。”
方法
JPEG-DL 引入了可微分软量化器,它取代了标准 JPEG 优化程序中的不可微分量化操作。
这样就可以对图像进行基于梯度的优化。这在传统的 JPEG 编码中是不可能的,因为传统的 JPEG 编码使用均匀量化器,并采用近似最接近系数的舍入运算。
JPEG-DL 架构的可微性允许对训练模型的参数和 JPEG 量化(压缩级别)进行联合优化。联合优化意味着模型和训练数据在端到端过程中相互适应,无需冻结层。
本质上,系统定制(原始)数据集的 JPEG 压缩以适应泛化过程的逻辑。
人们可能会认为原始数据是训练的理想素材;毕竟,当图像分批运行时,它们会被完全解压缩为适当的全长色彩空间;那么原始格式有什么区别呢?
因为 JPEG 压缩是针对人眼观看而优化的,所以它会以与此目标一致的方式丢弃细节或颜色区域。假设有一张蓝天下的湖泊图片,天空将受到更高级别的压缩,因为它不包含“基本”细节。
另一方面,神经网络缺乏偏心滤波器,无法让我们将注意力集中在中心物体上。相反,它可能会将天空中的任何带状伪影视为有效数据,并将其吸收到其潜在空间中。
因此,除非训练数据集代表非常具体的领域,否则 JPEG 压缩的一级压缩不太可能适合整个训练数据集的内容。例如,人群图片所需的压缩比鸟类的窄焦图片要小得多。
作者观察到,那些不熟悉量化挑战但熟悉Transformer架构基础知识的人可以将这些过程广泛地视为“注意力操作”。
数据和测试
JPEG-DL 针对基于 Transformer 的架构和卷积神经网络(CNN) 进行了评估。所用架构包括EfficientFormer-L1、ResNet、VGG、MobileNet和ShuffleNet。
使用的 ResNet 版本特定于CIFAR数据集:ResNet32、ResNet56 和 ResNet110。选择 VGG8 和 VGG13 进行基于 VGG 的测试。
对于 CNN,训练方法源自 2020 年的论文《对比表示蒸馏(CRD)》。对于 EfficientFormer-L1(基于 Transformer),使用了2023 年论文《使用较大的模型初始化模型》中的训练方法。
对于测试中的细粒度任务,使用了四个数据集:斯坦福狗;牛津大学的花卉;CUB-200-2011(加州理工学院鸟类);和宠物(“猫和狗”,牛津大学和印度海得拉巴的合作项目)。
对于 CNN 上的细粒度任务,作者使用了PreAct ResNet-18和DenseNet-BC 。对于 EfficientFormer-L1,使用了前面提到的使用较大模型初始化模型中概述的方法。
在 CIFAR-100 和细粒度任务中, JPEG 压缩方法中离散余弦变换(DCT) 频率的不同幅度由Adam优化器处理,以便在测试的模型中调整 JPEG 层的学习率。
在ImageNet-1K上的测试中,在所有实验中,作者使用了 PyTorch,以SqueezeNet、ResNet-18 和 ResNet-34 作为核心模型。
对于 JPEG 层优化评估,研究人员使用随机梯度下降(SGD) 代替 Adam,以获得更稳定的性能。然而,对于 ImageNet-1K 测试,采用了2019 年论文“学习步长量化”中的方法。
在评论上述初始结果时,作者指出:
“在 CIFAR-100 的所有七个测试模型中,JPEG-DL 持续改进,top-1 准确率最高提升了 1.53%。在细粒度任务中,JPEG-DL 的性能显著提升,使用两种不同模型,所有数据集的性能提升高达 20.90%。”
ImageNet-1K 测试的结果如下所示:
本文指出:
“在复杂度略有增加(增加 128 个参数)的情况下,与使用单轮[量化]操作的基线相比,JPEG-DL 在 SqueezeNetV1.1 的 top-1 准确率上实现了 0.31% 的提升。
“通过将量化轮数增加到五轮,我们观察到额外 0.20% 的改进,从而比基线总增益为 0.51%。”
研究人员还使用对抗性攻击方法快速梯度符号法(FGSM) 和投影梯度下降(PGD)泄露的数据对系统进行了测试。
此次攻击针对的是 CIFAR-100 的两个模型:
作者指出:
“与标准 DNN 模型相比,JPEG-DL 模型显著提高了对抗鲁棒性,FGSM 提高了 15%,PGD 提高了 6%。”
此外,正如文章前面所示,作者使用GradCAM++(一个可以以视觉方式突出显示提取的特征的框架)对提取的特征图进行了比较。
论文指出,JPEG-DL 产生了更好的结果,并且在一个实例中它甚至能够对基线无法识别的图像进行分类。关于之前展示的鸟类图像,作者指出:
“很明显,与基线模型生成的特征图相比,JPEG-DL 模型的特征图在前景信息(鸟)和背景之间显示出明显更好的对比度。
“具体来说,JPEG-DL 特征图中的前景对象被包裹在一个明确的轮廓内,使其在视觉上与背景区分开来。
“相比之下,基线模型的特征图显示出更加混合的结构,其中前景在低频中包含更高的能量,从而导致它与背景更平滑地融合。”
结论
JPEG-DL 旨在用于有原始数据的情况 – 但最有趣的是看看该项目中的一些原则是否可以应用于传统数据集训练,其中内容可能质量较低(就像从互联网上抓取的超大规模数据集经常发生的那样)。
就目前情况而言,这在很大程度上仍然是一个注释问题,尽管它已在基于交通的图像识别和其他地方得到解决。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/shi-yong-jpeg-ya-suo-lai-gai-shan-shen-jing-wang-luo-xun