使用 JPEG 压缩来改善神经网络训练

AI评测师 • 2024年10月11日下午3:00 • 技术评测 • 612 views

加拿大的一篇新研究论文提出了一个框架，该框架有意将 JPEG 压缩引入神经网络的训练方案中，并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。

这是一个相当激进的想法，因为目前的普遍观点是，JPEG 伪影是针对人类观看而不是机器学习而优化的，通常会对在 JPEG 数据上训练的神经网络产生有害影响。

以不同损失值压缩的 JPEG 图像之间的清晰度差异示例（损失值越高，文件大小越小，但会以颜色渐变中的轮廓和条带等其他类型的伪影为代价）。来源：https://forums.jetphotos.com/forum/aviation-photography-videography-forums/digital-photo-processing-forum/1131923-how-to-fix-jpg-compression-artefacts?p=1131937#post1131937

马里兰大学和 Facebook AI 在 2022 年发布的一份报告声称，尽管之前的研究声称神经网络对图像压缩伪影具有相对的弹性，但 JPEG 压缩在神经网络训练中“会显著降低性能”。

一年前，文献中出现了一种新的思路：JPEG 压缩实际上可以用来改善模型训练的结果。

然而，尽管该论文的作者能够在不同质量级别的 JPEG 图像训练中获得更好的结果，但他们提出的模型过于复杂和繁琐，不切实际。此外，系统使用默认的 JPEG 优化设置（量化）也成为训练效果的障碍。

后来的一个项目（2023 年的DNN Vision JPEG 兼容压缩）尝试了一个系统，该系统使用冻结的深度神经网络 (DNN) 模型从 JPEG 压缩的训练图像中获得稍好的结果。然而，在训练期间冻结模型的某些部分往往会降低模型的多功能性，以及其对新数据的更广泛的适应性。

JPEG-DL

相反，这项名为“JPEG 启发的深度学习”的新研究提供了一种更为简单的架构，甚至可以强加于现有模型之上。

滑铁卢大学的研究人员表示：

结果表明，JPEG-DL 在各种 DNN 架构中的表现显著且持续优于标准 DL，而模型复杂度的增加可以忽略不计。

具体来说，JPEG-DL 在某些细粒度分类数据集上将分类准确率提高了 20.9%，同时仅为 DL 管道添加了 128 个可训练参数。此外，学习模型的对抗鲁棒性增强和输入图像的文件大小减小进一步证明了 JPEG-DL 相对于标准 DL 的优势。’

作者认为，最佳 JPEG 压缩质量级别可以帮助神经网络区分图像的中心主体。在下面的示例中，当神经网络获得特征时，我们看到基线结果（左）将鸟融入背景中。相比之下，JPEG-DL（右）成功区分并勾勒出照片的主体。

针对 JPEG-DL 基线方法的测试。来源：https://arxiv.org/pdf/2410.07081

他们解释说， “这种现象在 [2021] 篇论文中被称为‘压缩有帮助’，其合理性在于压缩可以消除噪音和令人不安的背景特征，从而突出显示图像中的主要对象，这有助于 DNN 做出更好的预测。”

方法

JPEG-DL 引入了可微分软量化器，它取代了标准 JPEG 优化程序中的不可微分量化操作。

这样就可以对图像进行基于梯度的优化。这在传统的 JPEG 编码中是不可能的，因为传统的 JPEG 编码使用均匀量化器，并采用近似最接近系数的舍入运算。

JPEG-DL 架构的可微性允许对训练模型的参数和 JPEG 量化（压缩级别）进行联合优化。联合优化意味着模型和训练数据在端到端过程中相互适应，无需冻结层。

本质上，系统定制（原始）数据集的 JPEG 压缩以适应泛化过程的逻辑。

JPEG-DL 的概念模式。

人们可能会认为原始数据是训练的理想素材；毕竟，当图像分批运行时，它们会被完全解压缩为适当的全长色彩空间；那么原始格式有什么区别呢？

因为 JPEG 压缩是针对人眼观看而优化的，所以它会以与此目标一致的方式丢弃细节或颜色区域。假设有一张蓝天下的湖泊图片，天空将受到更高级别的压缩，因为它不包含“基本”细节。

另一方面，神经网络缺乏偏心滤波器，无法让我们将注意力集中在中心物体上。相反，它可能会将天空中的任何带状伪影视为有效数据，并将其吸收到其潜在空间中。

虽然人类会忽略天空中的条带，但在高度压缩的图像（左）中，神经网络并不知道应该丢弃这些内容，因此需要更高质量的图像（右）。来源：https://lensvid.com/post-processing/fix-jpeg-artifacts-in-photoshop/

因此，除非训练数据集代表非常具体的领域，否则 JPEG 压缩的一级压缩不太可能适合整个训练数据集的内容。例如，人群图片所需的压缩比鸟类的窄焦图片要小得多。

作者观察到，那些不熟悉量化挑战但熟悉Transformer架构基础知识的人可以将这些过程广泛地视为“注意力操作”。

数据和测试

JPEG-DL 针对基于 Transformer 的架构和卷积神经网络(CNN) 进行了评估。所用架构包括EfficientFormer-L1、ResNet、VGG、MobileNet和ShuffleNet。

使用的 ResNet 版本特定于CIFAR数据集：ResNet32、ResNet56 和 ResNet110。选择 VGG8 和 VGG13 进行基于 VGG 的测试。

对于 CNN，训练方法源自 2020 年的论文《对比表示蒸馏(CRD)》。对于 EfficientFormer-L1（基于 Transformer），使用了2023 年论文《使用较大的模型初始化模型》中的训练方法。

对于测试中的细粒度任务，使用了四个数据集：斯坦福狗；牛津大学的花卉；CUB-200-2011（加州理工学院鸟类）；和宠物（“猫和狗”，牛津大学和印度海得拉巴的合作项目）。

对于 CNN 上的细粒度任务，作者使用了PreAct ResNet-18和DenseNet-BC 。对于 EfficientFormer-L1，使用了前面提到的使用较大模型初始化模型中概述的方法。

在 CIFAR-100 和细粒度任务中， JPEG 压缩方法中离散余弦变换(DCT) 频率的不同幅度由Adam优化器处理，以便在测试的模型中调整 JPEG 层的学习率。

在ImageNet-1K上的测试中，在所有实验中，作者使用了 PyTorch，以SqueezeNet、ResNet-18 和 ResNet-34 作为核心模型。

对于 JPEG 层优化评估，研究人员使用随机梯度下降(SGD) 代替 Adam，以获得更稳定的性能。然而，对于 ImageNet-1K 测试，采用了2019 年论文“学习步长量化”中的方法。

上图为 CIFAR-100 上基线与 JPEG-DL 的 top-1 验证准确率，标准偏差和平均偏差取三次运行的平均值。下图为各种模型架构中各种细粒度图像分类任务的 top-1 验证准确率，同样取三次运行的平均值。

在评论上述初始结果时，作者指出：

“在 CIFAR-100 的所有七个测试模型中，JPEG-DL 持续改进，top-1 准确率最高提升了 1.53%。在细粒度任务中，JPEG-DL 的性能显著提升，使用两种不同模型，所有数据集的性能提升高达 20.90%。”

ImageNet-1K 测试的结果如下所示：

在不同框架中，ImageNet 上的 Top-1 验证准确率结果。

本文指出：

“在复杂度略有增加（增加 128 个参数）的情况下，与使用单轮[量化]操作的基线相比，JPEG-DL 在 SqueezeNetV1.1 的 top-1 准确率上实现了 0.31% 的提升。

“通过将量化轮数增加到五轮，我们观察到额外 0.20% 的改进，从而比基线总增益为 0.51%。”

研究人员还使用对抗性攻击方法快速梯度符号法(FGSM) 和投影梯度下降(PGD)泄露的数据对系统进行了测试。

此次攻击针对的是 CIFAR-100 的两个模型：

针对两种标准对抗攻击框架的 JPEG-DL 测试结果。

作者指出：

“与标准 DNN 模型相比，JPEG-DL 模型显著提高了对抗鲁棒性，FGSM 提高了 15%，PGD 提高了 6%。”

此外，正如文章前面所示，作者使用GradCAM++（一个可以以视觉方式突出显示提取的特征的框架）对提取的特征图进行了比较。

GradCAM++ 图示用于基线和 JPEG-DL 图像分类，其中突出显示了提取的特征。

论文指出，JPEG-DL 产生了更好的结果，并且在一个实例中它甚至能够对基线无法识别的图像进行分类。关于之前展示的鸟类图像，作者指出：

“很明显，与基线模型生成的特征图相比，JPEG-DL 模型的特征图在前景信息（鸟）和背景之间显示出明显更好的对比度。

“具体来说，JPEG-DL 特征图中的前景对象被包裹在一个明确的轮廓内，使其在视觉上与背景区分开来。

“相比之下，基线模型的特征图显示出更加混合的结构，其中前景在低频中包含更高的能量，从而导致它与背景更平滑地融合。”

结论

JPEG-DL 旨在用于有原始数据的情况 – 但最有趣的是看看该项目中的一些原则是否可以应用于传统数据集训练，其中内容可能质量较低（就像从互联网上抓取的超大规模数据集经常发生的那样）。

就目前情况而言，这在很大程度上仍然是一个注释问题，尽管它已在基于交通的图像识别和其他地方得到解决。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/shi-yong-jpeg-ya-suo-lai-gai-shan-shen-jing-wang-luo-xun

JPEG-DL Transformer 图像识别神经网络

Like (0)

AI评测师作者

0 0

人工智能如何重塑汽车保险从索赔到合规的全过程

Previous 2024年10月11日下午2:00

开放权重模型的兴起：阿里巴巴的 Qwen2 如何重新定义 AI 能力

Next 2024年10月11日下午4:00

技术评测

企业 LLM API：2024 年支持 LLM 应用程序的最佳选择

最近，随着一些重大新闻的出现，企业 AI 领域的竞争正在加速。 OpenAI 的 ChatGPT目前拥有超过2 亿周活跃用户，比一年前增加了 1 亿。这一惊人的增长表明，企业环境中…

AI评测师
2024年9月20日
000
AI前沿

Automattic 为员工提供了另一次辞职机会——这次的遣散费为 9 个月

Automattic 首席执行官马特·穆伦维格 (Matt Mullenweg) 向有意离职的员工提供为期六个月的遣散费，几天后， 159 人接受了这一提议。10 月 16 日晚，…

王浩然
2024年10月24日
000
技术评测

三问AI手机：什么意图？怎么识别？何种框架？

意图识别框架上，正在酝酿一场从“以手机为中心”到“以人为中心”的交互之变

点点
2024年8月21日
010
技术评测

谷歌悄然在 Chrome 地址栏中推出了 Gemini AI 集成

谷歌周二对其Chrome 浏览器进行了重大更新，将其先进的Gemini AI聊天机器人直接集成到地址栏中。此举已广泛向用户开放，标志着人工智能技术民主化的关键时刻，并可能重塑数百万…

王浩然
2024年9月5日
000
技术评测

社交网络 Buttflies AI 添加了一项功能，可将你变成 AI 角色

Butterflies AI是一个人类与人工智能相互交流的新型社交网络，它正在推出一项新的克隆功能，可以将您变成人工智能角色。此次最新添加的功能建立在 6 月份向公众推出的一项功…

王浩然
2024年8月31日
000
技术评测

苹果终于出AI消除功能，相册可以利用起来了

昨天凌晨，苹果推送了 iOS18.1 第三个 beta 版本。目前 18.1 Beta 是苹果专门用来测试 Apple Intelligence 的，只有 iPhone 15 P…

AI评测师
2024年9月2日
000
技术评测

抢先OpenAI，Hume AI发布第二代情感智能AI，支持自定义语音，在线可玩

据VentureBeat今日报道，AI情感创企Hume AI于9月11日发布了Empathic Voice Interface 2（EVI 2）。 EVI被宣称为全球首个具有情商的…

AI评测师
2024年9月22日
000
技术评测

微软终于让 Copilot+ 笔记本电脑可用于人工智能

微软的 Copilot+ PC 计划大获成功，其中许多都跻身最佳笔记本电脑之列，但并非因为其内置的 AI 硬件。现在，微软终于将 Copilot+ PC 中的神经处理单元 (NPU…

王浩然
2024年10月4日
000
AI前沿

利用人类注意力可以改善人工智能生成的图像

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型（LDM）生成的图像质量的方法。该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。新研究发现，显著性图（左…

点点
2024年10月17日
000
技术评测

Google Lens 现在可以回答有关视频的问题

谷歌正在升级其视觉搜索应用程序 Lens，使其能够近乎实时地回答有关您周围环境的问题。安装了Google 应用的英语 Android 和 iOS 用户现在可以开始通过 Lens …

王浩然
2024年10月6日
000
技术评测

TechCrunch 网络词汇表

网络安全是一个充满技术术语和专业术语的世界。在 TechCrunch，我们多年来一直在撰写有关网络安全的文章，有时我们甚至需要复习一下某个特定单词或表达的确切含义。这就是我们创建这…

AI评测师
2024年9月23日
000
技术评测

你现在只需 5 张图片就可以微调你自己版本的 AI 图像制作器 Flux

Black Forest Labs 迅速成为首屈一指的高质量开源 AI 图像生成初创公司，甚至超越了Black Forest Labs创始人之前就职的Stability AI 提供…

王浩然
2025年1月19日
000
技术评测

5 个最佳大型语言模型 (LLM)（2024 年 9 月）

人工智能领域正在以惊人的速度发展，大型语言模型 (LLM) 在自然语言处理和理解领域处于领先地位。随着我们不断探索这一领域，新一代 LLM 应运而生，它们都在不断突破 AI 的极限…

AI评测师
2024年9月19日
000
技术评测

苹果可能会在 2 月 11 日发布新款 iPhone SE 和 PowerBeats Pro 2

据彭博社报道，苹果最早可能在 2 月 11 日推出新款iPhone SE和PowerBeats Pro耳机。鉴于该公司尚未发出线下或线上活动的邀请，此次发布会的规模可能较小。新款…

王浩然
2025年2月10日
000
技术评测

不要错过 Google Gemini 的深度研究模式：8 个信息丰富的报告示例

人工智能和商业领域的许多人都关注OpenAI 和 DeepSeek （从轶事和撰写/发布的文章和消息数量来看），尤其是 OpenAI 的由 o3 驱动的深度研究模式，这是一种新的…

王浩然
2025年2月14日
000
技术评测

苹果宣布推出 M4 Max 芯片，首次亮相 MacBook Pro

苹果公司周三发布了 M 系列芯片的最新成员，结束了为期半周的 Mac 发布会。在发布M4 Pro和新款超薄 Mac mini 的第二天，该公司又展示了即将加入MacBook Pro…

王浩然
2024年10月31日
000
技术评测

什么是 ChatGPT Plus？订阅前您需要了解以下信息

ChatGPT完全免费使用，但这并不意味着 OpenAI 对赚钱不感兴趣。 ChatGPT Plus 是一项订阅服务，让您可以访问GPT-4o大型语言模型，同时享受更快的速度、更高…

王浩然
2024年9月16日
000
技术评测

「AI小说神器」MidReal：网页版互动小说，可互动选择剧情走向，自动配图

📚✨ MidReal AI互动小说神器迎来了重大升级，全新网页版的推出让创作和阅读变得更加便捷！ MidReal简介 MidReal是一款革命性的AI小说生成工具，它通过沉浸式的写…

AI评测师
2024年9月2日
000
技术评测

【深度】OpenAI o1技术原理分析及产业影响

距离OpenAI发布o1模型已经过去一周，其口碑出现了明显的两极分化。一种声音认为o1的出现意味着人类距离AGI只有咫尺之遥，另一种声音认为o1又贵又不好使，其能力表现甚至不如G…

AI评测师
2024年9月25日
000
技术评测

苹果为 MacBook Pro 升级 M4 芯片

周三，苹果公司在 Macweek（Mac 半周）上推出了升级版 MacBook Pro。苹果最高端的笔记本电脑通过增加 M4 芯片赶上其同类产品。Pro 和 Mini 是首批采用新…

王浩然
2024年10月31日
000

发表回复

Please Login to Comment

使用 JPEG 压缩来改善神经网络训练

方法

数据和测试

结论

相关推荐

发表回复

Share To :