从微调稳定扩散模型中提取训练数据

AI评测师 • 2024年10月8日下午4:00 • 技术评测 • 100 views

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。

当艺术家的风格被抄袭，或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时，这可能会提供法律证据。

摘自新论文：上行是原始训练图像，下行是提取的图像。来源：https://arxiv.org/pdf/2410.03039

此类模型在互联网上广泛且免费提供，主要通过 civit.ai 的大量用户贡献档案，其次，在 Hugging Face 存储库平台上也提供。

研究人员开发的新模型名为FineXtract，作者认为它在这个任务中取得了最先进的成果。

本文指出：

“[我们的框架] 有效地解决了从公开可用的 DM 微调检查点中提取微调数据的挑战。通过利用从预训练的 DM 分布到微调数据分布的过渡，FineXtract 准确地引导生成过程朝向微调数据分布的高概率区域，从而实现成功的数据提取。”

最右边是训练中使用的原始图像。从右边数第二张是通过 FineXtract 提取的图像。其他列代表替代的先前方法。请参阅源论文以获得更好的分辨率。

为什么重要

最终用户可以下载并微调文本到图像生成系统的原始训练模型，例如稳定扩散和通量，使用 2022 DreamBooth实现等技术。

更简单的是，用户可以创建一个小得多的LoRA模型，其效果几乎与完全微调的模型一样有效。

这是经过训练的 LORA 示例，可在非常受欢迎的 civitai 域免费下载。爱好者可以使用本地安装的开源软件在几分钟到几小时内创建此类模型，也可以通过一些更宽松的 API 驱动训练系统在线创建。来源：civitai.com

自 2022 年以来，通过仅提供少量（平均 5-50 个）带字幕的图像，并在Kohya ss等开源框架上或使用在线服务在本地训练检查点（或 LoRA），创建针对身份的微调检查点和 LoRA 变得轻而易举。

过去几年来，这种简单的深度伪造方法在媒体上声名狼藉。许多艺术家的作品也被输入到复制其风格的生成模型中。围绕这些问题的争议在过去 18 个月里愈演愈烈。

过去两年来，用户可以轻松创建复制真实艺术家作品的人工智能系统，这引起了轩然大波，并引发了各种抗议活动。来源：https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

很难证明哪些图像是在微调检查点或 LoRA 中使用的，因为泛化过程会从小型训练数据集中“抽象”身份，并且不太可能从训练数据中重现示例（过度拟合的情况除外，在这种情况下可以认为训练失败了）。

这就是 FineXtract 发挥作用的地方。通过将用户下载的“模板”扩散模型的状态与他们随后通过微调或通过 LoRA 创建的模型进行比较，研究人员能够创建高度精确的训练数据重建。

尽管 FineXtract 只能从微调中重现 20% 的数据*，但这已经超过了通常需要提供证据来证明用户在生成模型的制作中使用了受版权保护或受其他保护或被禁止的材料。在大多数提供的示例中，提取的图像与已知的源材料非常接近。

虽然需要标题来提取源图像，但这并不是一个重大障碍，原因有二：a）上传者通常希望促进社区使用该模型，并通常会提供恰当的提示示例；b）研究人员发现，从微调模型中盲目提取关键术语并不那么困难：

通常可以使用超过 1000 次迭代的 L2-PGD 攻击从随机提示中盲目地从微调模型中提取关键关键字。

用户经常避免将他们的训练数据集与“黑盒”式训练模型一起提供。在这项研究中，作者与确实提供数据集的机器学习爱好者合作。

这篇新论文的标题是《揭示看不见的事物：指导个性化扩散模型公开训练数据》，来自卡内基梅隆大学和普渡大学的三位研究人员。

方法

“攻击者”（在本例中为 FineXtract 系统）比较原始模型和微调模型中的估计数据分布，作者将此过程称为“模型指导”。

通过新论文研究人员开发的“模型指导”，可以映射微调特性，从而提取训练数据。

作者解释道：

“在微调过程中，[扩散模型] 逐渐将其学习到的分布从预训练的 DM [分布] 转向微调数据 [分布]。

“因此，我们通过参数近似来估计经过微调的[扩散模型]所学习到的分布。”

这样，核心模型和微调模型之间的差异总和提供了指导过程。

作者进一步评论道：

“通过模型指导，我们可以有效地模拟一个“伪”[降噪器]，它可以用来将采样过程引导至微调数据分布中的高概率区域。”

该指南在一定程度上依赖于与 2023 年从扩散模型中抹去概念类似的时变噪声过程。

获得的去噪预测还提供了可能的无分类器指导(CFG) 尺度。这很重要，因为 CFG 会显著影响图片质量和用户文本提示的保真度。

为了提高提取图像的准确性，FineXtract 借鉴了广受好评的 2023 年合作成果“ 从扩散模型中提取训练数据” 。所用方法是基于自监督描述符(SSCD) 分数定义的阈值来计算每对生成图像的相似度。

通过这种方式，聚类算法帮助 FineXtract 识别符合训练数据的提取图像子集。

在这种情况下，研究人员与提供数据的用户合作。可以合理地说，如果没有这样的数据，就不可能证明任何特定的生成图像实际上在原始训练中使用。然而，现在仅根据图像内容将上传的图像与网络上的实时图像或已知和已发布的数据集中的图像进行匹配相对简单。

数据和测试

为了测试 FineXtract，作者在项目范围内的两种最常见的微调场景中对少量微调模型进行了实验：艺术风格和对象驱动生成（后者有效地涵盖了基于面部的主题）。

他们从WikiArt数据集中随机选择了 20 位艺术家（每人有 10 幅图像），并从DreamBooth 数据集中随机选择了 30 位对象（每人有 5-6 幅图像），以解决相应的场景。

DreamBooth 和 LoRA 是针对性的微调方法，并使用 Stable Diffusion V1/.4 进行测试。

如果聚类算法在三十秒后没有返回结果，则修改阈值直到返回图像。

用于生成图像的两个指标是 SSCD 下的平均相似度 (AS) 和平均提取成功率 (A-ESR) – 该指标与之前的研究大致一致，其中 0.7 的分数代表完全成功提取训练数据的最低分数。

由于以前的方法要么使用直接文本到图像生成，要么使用 CFG，研究人员将 FineXtract 与这两种方法进行了比较。

FineXtract 与之前两种最流行的方法的比较结果。

作者评论：

“结果显示 FineXtract 比以前的方法具有显著优势，AS 提高了约 0.02 到 0.05，大多数情况下 A-ESR 翻了一番。”

为了测试该方法推广到新数据的能力，研究人员进行了进一步的测试，使用稳定扩散（V1.4）、稳定扩散XL和AltDiffusion。

FineXtract 适用于一系列扩散模型。对于 WikiArt 组件，测试重点关注 WikiArt 中的四个类。

如上结果所示，FineXtract 在这次更广泛的测试中也比之前的方法有所改进。

FineXtract 与之前方法提取结果的定性比较。请参阅源论文以获得更好的分辨率。

作者观察到，当在微调模型的数据集中使用更多图像时，聚类算法需要运行更长时间才能保持有效性。

他们还观察到，近年来，在隐私保护的保护下，已经开发出各种旨在阻止此类提取的方法。因此，他们针对通过Cutout和RandAugment方法增强的数据测试了 FineXtract。

FineXtract 对受 Cutout 和 RandAugment 保护的图像的性能。

虽然作者承认这两种保护系统在混淆训练数据源方面表现相当出色，但他们指出，这是以输出质量的下降为代价的，这种下降非常严重，以至于保护变得毫无意义：

在稳定扩散 V1.4 下生成的图像，经过防御措施微调 – 图像质量大幅降低。请参阅源论文以获得更好的分辨率。

本文的结论是：

“我们的实验证明了该方法在各种数据集和真实世界检查点的稳健性，突出了数据泄露的潜在风险并为版权侵权提供了有力证据。”

结论

事实证明，2024 年是企业对“干净”训练数据的兴趣显著增加的一年，因为媒体不断报道人工智能倾向于取代人类，而且企业也热衷于利用生成模型并对其实施法律保护。

声称你的训练数据是干净的很容易，但类似的技术也越来越容易证明它不是干净的——正如 Runway ML、Stability.ai 和 MidJourney（以及其他公司）最近发现的那样。

诸如 FineXtract 之类的项目可以说是人工智能“狂野西部”时代彻底终结的预兆，在这个时代，甚至经过训练的潜在空间的明显神秘性质都可以被解释。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/cong-wei-tiao-wen-ding-kuo-san-mo-xing-zhong-ti-qu-xun-lian

Like (0)

AI评测师作者

0 0

低致幻性人工智能微剂量给药

Previous 2024年10月8日

最推荐的电动汽车充电器公司之一刚刚抛弃了美国用户

Next 2024年10月8日

技术评测

阅读人工智能评论：这款人工智能可以在视频通话中读取情绪

您是否曾在视频通话结束后，疑惑自己的语气如何，或对方对此次对话的真实感受如何？想象一下，如果您能立即理解对方所说的内容及其背后的情感，那该有多好！我最近遇到了Read AI，这是…

AI评测师
2024年10月22日
000
技术评测

助力客户成功的首屈一指的 AI 会议助手

对于埋头于大量会议和客户互动的销售专业人员和业务领导者来说，他们可能觉得永远没有足够的时间来保持一切井然有序和高效。幸运的是，我最近遇到了一款名为Laxis的AI 会议助手，我相信…

AI评测师
2024年9月6日
000
技术评测

通过换脸变身杰克·斯派洛

现在，内容创作者面临着比以往任何时候都更加强烈的快速高效地制作高质量视觉效果的需求。您是否知道，当今营销人员面临的两大内容营销挑战是制作高质量内容和持续生成此类内容？这并不奇怪，…

AI评测师
2024年10月11日
000
AI前沿

Anais Dotis-Georgiou，InfluxData 开发倡导者 – 访谈系列

Anais Dotis-Georgiou 是 InfluxData 的开发倡导者，热衷于利用数据分析、人工智能和机器学习让数据变得美丽。她收集数据，进行研究、探索和工程设计，将数据…

AI评测师
2024年9月12日
000
技术评测

Midjourney 正在推出一款名为“Patchwork”的多人协作世界构建工具

Midjourney是一家流行的 AI 图像生成初创公司，仅在其 Discord 服务器上就有超过 2100 万用户，该公司正在从 AI图像创建和编辑领域拓展业务。拼凑物显露 M…

王浩然
2024年12月12日
000
技术评测

日历工具 Clockwise 增加了名为 Prism 的全新 AI 界面

智能日程安排和日历工具 Clockwise 正在通过一款名为 Prism 的人工智能助手改变其界面，让您可以管理日程安排冲突、批量创建或清除事件，以及将待办事项列表转换为带有文本提…

王浩然
2024年8月28日
000
技术评测

Oura Ring 4 推出更纤薄的设计、更多尺寸和更强大的传感功能，起价 349 美元

Oura 周四发布了其广受欢迎的智能戒指的第四代产品。Oura Ring 4 的发布时间距离其前代产品发布不到三年。尽管存在差距，但这款新可穿戴设备在很大程度上改进了体验，而不是重…

王浩然
2024年10月5日
000
技术评测

10 款最佳 AI 表单生成器

高效的数据收集和用户参与对于企业和组织至关重要。人工智能 (AI) 颠覆了表单创建流程，提供了创新的解决方案，简化了创建过程，增强了用户体验，并提供了有价值的见解。

AI评测师
2024年8月27日
000
技术评测

ChatGPT-4o Canvas 评测：它如何改善我的写作和编码

您是否曾希望有一双额外的手来帮助您编写、编辑或调试代码？想象一下，如果您不再盯着空白页或排除错误，而是拥有一个可以与您一起起草、完善甚至改进工作的工具！这是ChatGPT-4o …

AI评测师
2024年10月27日
000
技术评测

使用 JPEG 压缩来改善神经网络训练

加拿大的一篇新研究论文提出了一个框架，该框架有意将 JPEG 压缩引入神经网络的训练方案中，并设法获得更好的结果以及更好的抵抗对抗性攻击的能力。这是一个相当激进的想法，因为目前的…

AI评测师
2024年10月11日
000
技术评测

Google Lens 现在可以回答有关视频的问题

谷歌正在升级其视觉搜索应用程序 Lens，使其能够近乎实时地回答有关您周围环境的问题。安装了Google 应用的英语 Android 和 iOS 用户现在可以开始通过 Lens …

王浩然
2024年10月6日
000
技术评测

你现在只需 5 张图片就可以微调你自己版本的 AI 图像制作器 Flux

Black Forest Labs 迅速成为首屈一指的高质量开源 AI 图像生成初创公司，甚至超越了Black Forest Labs创始人之前就职的Stability AI 提供…

王浩然
2025年1月19日
000
技术评测

苹果为 MacBook Pro 升级 M4 芯片

周三，苹果公司在 Macweek（Mac 半周）上推出了升级版 MacBook Pro。苹果最高端的笔记本电脑通过增加 M4 芯片赶上其同类产品。Pro 和 Mini 是首批采用新…

王浩然
2024年10月31日
000
技术评测

Perplexity AI 评论：彻底抛弃 Google 和 ChatGPT 吗？

您是否厌倦了无休止地筛选似乎不合时宜的搜索结果？或者您是否对经常无法满足您的研究需求的AI 工具感到失望？人们很容易花费无数的时间浏览搜索结果，并与似乎很少能提供您所需内容的 A…

AI评测师
2024年8月28日
000
技术评测

为什么苹果在 iPhone 16 上又增加了一个按钮

苹果有得有失——尤其是在端口和按钮方面。长期以来，该公司对任何可能破坏其设备风水的细节都采取了“少即是多”的态度。如今，该公司对按钮的态度更加乐观。在 Apple Watch Ul…

王浩然
2024年9月10日
000
AI前沿

使用 LlamaIndex 和 Gemini 实现 REAcT Agent

在过去的 2-3 年里，我们见证了人工智能领域的非凡发展，主要体现在大型语言模型、扩散模型、多模态模型等方面。我最喜欢的兴趣之一是代理工作流。今年早些时候，Coursera 的创始…

王浩然
2024年10月20日
000
技术评测

企业 LLM API：2024 年支持 LLM 应用程序的最佳选择

最近，随着一些重大新闻的出现，企业 AI 领域的竞争正在加速。 OpenAI 的 ChatGPT目前拥有超过2 亿周活跃用户，比一年前增加了 1 亿。这一惊人的增长表明，企业环境中…

AI评测师
2024年9月20日
000
技术评测

如何在 Photoshop 中使用 AI：我喜欢的 3 款令人惊叹的 AI 工具

人工智能彻底改变了数字艺术的世界，而Adobe Photoshop正处于这场变革的前沿。Photoshop 中的这些 AI 功能大大缩短了编辑时间，这真是太神奇了，我很高兴向您…

AI评测师
2024年9月29日
000
技术评测

Pixtral 12B 现已上市：Mistral 的新型多模态 AI 可以无限制地分析图像

Mistral AI 终于进军多模态领域。今天，这家法国 AI 初创公司与 OpenAI 和 Anthropic 等公司展开竞争，发布了 Pixtral 12B，这是其首款同时具备…

王浩然
2024年9月15日
000
技术评测

Google 如何让 Medium.com 的抄袭内容超越原创内容

多年来，Google 一直向网站站长社区强调，原创、高质量的内容是获得良好搜索结果排名的关键。Google 的系统旨在奖励那些展现出EEAT（专业性、经验性、权威性和可信度）的内容…

AI评测师
2024年10月5日
000

发表回复

Please Login to Comment

从微调稳定扩散模型中提取训练数据

为什么重要

方法

数据和测试

结论

相关推荐

发表回复

Share To :