美国的新研究提出了一种从微调模型中提取大量训练数据的方法。
当艺术家的风格被抄袭,或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时,这可能会提供法律证据。
此类模型在互联网上广泛且免费提供,主要通过 civit.ai 的大量用户贡献档案,其次,在 Hugging Face 存储库平台上也提供。
研究人员开发的新模型名为FineXtract,作者认为它在这个任务中取得了最先进的成果。
本文指出:
“[我们的框架] 有效地解决了从公开可用的 DM 微调检查点中提取微调数据的挑战。通过利用从预训练的 DM 分布到微调数据分布的过渡,FineXtract 准确地引导生成过程朝向微调数据分布的高概率区域,从而实现成功的数据提取。”
为什么重要
最终用户可以下载并微调文本到图像生成系统的原始训练模型,例如稳定扩散和通量,使用 2022 DreamBooth实现等技术。
更简单的是,用户可以创建一个小得多的LoRA模型,其效果几乎与完全微调的模型一样有效。
自 2022 年以来,通过仅提供少量(平均 5-50 个)带字幕的图像,并在Kohya ss等开源框架上或使用在线服务在本地训练检查点(或 LoRA),创建针对身份的微调检查点和 LoRA 变得轻而易举。
过去几年来,这种简单的深度伪造方法在媒体上声名狼藉。许多艺术家的作品也被输入到复制其风格的生成模型中。围绕这些问题的争议在过去 18 个月里愈演愈烈。
很难证明哪些图像是在微调检查点或 LoRA 中使用的,因为泛化过程会从小型训练数据集中“抽象”身份,并且不太可能从训练数据中重现示例(过度拟合的情况除外,在这种情况下可以认为训练失败了)。
这就是 FineXtract 发挥作用的地方。通过将用户下载的“模板”扩散模型的状态与他们随后通过微调或通过 LoRA 创建的模型进行比较,研究人员能够创建高度精确的训练数据重建。
尽管 FineXtract 只能从微调中重现 20% 的数据*,但这已经超过了通常需要提供证据来证明用户在生成模型的制作中使用了受版权保护或受其他保护或被禁止的材料。在大多数提供的示例中,提取的图像与已知的源材料非常接近。
虽然需要标题来提取源图像,但这并不是一个重大障碍,原因有二:a)上传者通常希望促进社区使用该模型,并通常会提供恰当的提示示例;b)研究人员发现,从微调模型中盲目提取关键术语并不那么困难:
用户经常避免将他们的训练数据集与“黑盒”式训练模型一起提供。在这项研究中,作者与确实提供数据集的机器学习爱好者合作。
这篇新论文的标题是《揭示看不见的事物:指导个性化扩散模型公开训练数据》,来自卡内基梅隆大学和普渡大学的三位研究人员。
方法
“攻击者”(在本例中为 FineXtract 系统)比较原始模型和微调模型中的估计数据分布,作者将此过程称为“模型指导”。
作者解释道:
“在微调过程中,[扩散模型] 逐渐将其学习到的分布从预训练的 DM [分布] 转向微调数据 [分布]。
“因此,我们通过参数近似来估计经过微调的[扩散模型]所学习到的分布。”
这样,核心模型和微调模型之间的差异总和提供了指导过程。
作者进一步评论道:
“通过模型指导,我们可以有效地模拟一个“伪”[降噪器],它可以用来将采样过程引导至微调数据分布中的高概率区域。”
该指南在一定程度上依赖于与 2023 年从扩散模型中抹去概念类似 的时变噪声过程。
获得的去噪预测还提供了可能的无分类器指导(CFG) 尺度。这很重要,因为 CFG 会显著影响图片质量和用户文本提示的保真度。
为了提高提取图像的准确性,FineXtract 借鉴了广受好评的 2023 年合作成果“ 从扩散模型中提取训练数据” 。所用方法是基于自监督描述符(SSCD) 分数定义的阈值来计算每对生成图像的相似度。
通过这种方式,聚类算法帮助 FineXtract 识别符合训练数据的提取图像子集。
在这种情况下,研究人员与提供数据的用户合作。可以合理地说,如果没有这样的数据,就不可能证明任何特定的生成图像实际上在原始训练中使用。然而,现在仅根据图像内容将上传的图像与网络上的实时图像或已知和已发布的数据集中的图像进行匹配相对简单。
数据和测试
为了测试 FineXtract,作者在项目范围内的两种最常见的微调场景中对少量微调模型进行了实验:艺术风格和对象驱动生成(后者有效地涵盖了基于面部的主题)。
他们从WikiArt数据集中随机选择了 20 位艺术家(每人有 10 幅图像),并从DreamBooth 数据集中随机选择了 30 位对象(每人有 5-6 幅图像) ,以解决相应的场景。
DreamBooth 和 LoRA 是针对性的微调方法,并使用 Stable Diffusion V1/.4 进行测试。
如果聚类算法在三十秒后没有返回结果,则修改阈值直到返回图像。
用于生成图像的两个指标是 SSCD 下的平均相似度 (AS) 和平均提取成功率 (A-ESR) – 该指标与之前的研究大致一致,其中 0.7 的分数代表完全成功提取训练数据的最低分数。
由于以前的方法要么使用直接文本到图像生成,要么使用 CFG,研究人员将 FineXtract 与这两种方法进行了比较。
作者评论:
“结果显示 FineXtract 比以前的方法具有显著优势,AS 提高了约 0.02 到 0.05,大多数情况下 A-ESR 翻了一番。”
为了测试该方法推广到新数据的能力,研究人员进行了进一步的测试,使用稳定扩散(V1.4)、稳定扩散XL和AltDiffusion。
如上结果所示,FineXtract 在这次更广泛的测试中也比之前的方法有所改进。
作者观察到,当在微调模型的数据集中使用更多图像时,聚类算法需要运行更长时间才能保持有效性。
他们还观察到,近年来,在隐私保护的保护下,已经开发出各种旨在阻止此类提取的方法。因此,他们针对通过Cutout和RandAugment方法增强的数据测试了 FineXtract。
虽然作者承认这两种保护系统在混淆训练数据源方面表现相当出色,但他们指出,这是以输出质量的下降为代价的,这种下降非常严重,以至于保护变得毫无意义:
本文的结论是:
“我们的实验证明了该方法在各种数据集和真实世界检查点的稳健性,突出了数据泄露的潜在风险并为版权侵权提供了有力证据。”
结论
事实证明,2024 年是企业对“干净”训练数据的兴趣显著增加的一年,因为媒体不断报道人工智能倾向于取代人类,而且企业也热衷于利用生成模型并对其实施法律保护。
声称你的训练数据是干净的很容易,但类似的技术也越来越容易证明它不是干净的——正如 Runway ML、Stability.ai 和 MidJourney(以及其他公司)最近发现的那样。
诸如 FineXtract 之类的项目可以说是人工智能“狂野西部”时代彻底终结的预兆,在这个时代,甚至经过训练的潜在空间的明显神秘性质都可以被解释。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/cong-wei-tiao-wen-ding-kuo-san-mo-xing-zhong-ti-qu-xun-lian