来自美国的一项新研究表明,根据自己的数据对人工智能基础模型进行微调并不会降低或损害原始模型的功能——而且相对简单的修复不仅可以恢复原始模型的功能,而且实际上还可以提高你试图让(已经训练好的)模型产生的输出的质量。
这一举措意义重大,不仅对于那些关注以“即服务”方式出租生成系统以获取经济回报的科技巨头而言,对于越来越多的“剪线族”爱好者而言也同样意义重大,他们下载并定制开源模型,以便能够以更低的成本、更少的限制访问个性化的人工智能写作和图像/视频生成系统。
该论文的作者并不惧怕展示他们对其方法潜力的热情,该方法显然比 2023 年的提交论文 《整体转移:面向部分目标数据的非破坏性微调》(与新论文的许多贡献者合著)取得了重大进展。
他们表示:
“这一发现令人鼓舞,意义深远!这意味着,简单的后处理校准可以解决微调模型在缺失类别上的准确率较低问题,恢复预训练模型的能力,同时揭示所有类别的特征质量得到改善。”
我们很快就会看一看这项新工作。首先,让我们看看它旨在解决什么问题。
为什么重要
第一波大规模微调发生在 2002 年 8 月 Stability.ai 发布稳定扩散文本到图像模型之后。早期模型是在超大规模LAION数据集的一个子集上训练的,任何人都可以下载。
然而,如果用户想要将特定内容(比如他们自己的身份、艺术风格或名人形象)插入到 Stable Diffusion 非凡的生成特性中,就需要借助DreamBooth之类的技术——这是Google Research 定制方法的延伸,它允许用户通过微调将新数据训练到免费提供的模型中。
通过这种方式,就可以获得一个模型的副本,该模型非常适合创建特定的人物或自定义艺术风格,但现在已被“妥协”以供更普遍使用。
这意味着,如果您想要微调稳定扩散以便它能够准确地描绘三个不同的人,您不可避免地必须创建三个不同的模型,每个模型大约 2-4GB 甚至更多。
任何对这些模型进行第二次微调的尝试不仅会进一步降低模型的整体性能,而且会对上次微调会话的输出产生不利影响。
无论如何,名人 DreamBooth 模型很快就会在互联网上激增,主要在 civit.ai 域中召开。最终,诸如低秩自适应(LoRA) 之类的不太繁琐的方法在流行度上超过了微调(尽管 LoRA 输出是否与完全微调一样有效仍存在争议,而且 NVIDIA 此后开源了一种显然更有效的方法,称为DoRA)。
LoRA 属于参数有效微调(PEFT)类别,它仅影响模型训练参数的子集。
一些用户希望通过对数千张图像进行微调来改变开源稳定扩散检查点的根本性质。
这实际上产生了一个替代的基础模型,专用于用户试图训练的任何领域(例如特定的艺术风格)。为此,LoRA 等“轻量级”方法可能效果较差,因为模型的权重需要对新训练数据产生严重偏差。
本地聊天
随着近年来人们对大型语言模型(LLM)的兴趣高涨,希望避免 ChatGPT 等 API 驱动服务日益增长的渠道(和相关成本)的用户开始下载和微调有效的开源模型,例如 Llama 3等。
在这里,LoRA 也可以用来代替微调完整的检查点。我们之前曾认为,微调是生成适合特定用户需求的 LLM 的更优方法。虽然微调对硬件的要求更高,而且可能需要更长的时间,但它可以更深入地概括用户希望模型吸收的新数据。
微调的问题在于它是一个破坏性的过程,如我们上面提到的那样,以后无法通过额外的数据进行逐步训练。
注入到模型中的特征和偏差显然扰乱了数据集中权重的原始平衡,这意味着该模型要么过于可能反映用户贡献的数据,要么至少整体表现比原始基础模型更差(在与新数据无关的任务上)。
在一定程度上,可以通过在训练期间冻结模型的某些部分来解决这个问题;但这可能会导致通用功能的降低,因为架构的冻结部分可能无法很好地推广到模型潜在空间内新微调的数据。
因此,如果有更简单的方法来保留微调模型的原始功能,同时保留模型基于微调数据产生输出的能力,那就太好了。
这样的发展将使广泛的潜在用户受益,从使用本地 LLM 和其他类型的生成模型的业余爱好者和早期采用者,到 FAANG 级别(其中非常昂贵的 AI 模型可以迭代和非破坏性地改进,而无需花费数百万美元使用额外数据重新开始训练)。
后处理校准
这让我们回到这篇新论文,其标题为《经过校准,微调是好的》,来自俄亥俄州立大学、威斯康星大学麦迪逊分校和伦斯勒理工学院的 11 名研究人员。
研究人员试图找出基础模型在微调时究竟遭到了哪些破坏。他们得出的结论是,“调整前后”模型之间唯一的主要区别是,微调类别与模型中原始类别之间的逻辑尺度存在很大差异。
Logit 链接预测逻辑回归过程的成功概率,将估计值(可能非常精确)转换为零或一。
作者不仅发现这种缺陷几乎可以通过校准技术随意逆转,而且这种事后修复实际上提高了微调数据的输出质量。因此,使用这种技术,您不仅可以获得基础模型的原始功能,还可以更好地集成您自己的微调数据。
(尽管本文没有研究前景,但这种技术意味着模型可以经过多次微调,并保持有效)
在讨论微调后模型损坏的研究结果时,作者指出:
令我们惊讶的是,我们发现微调模型既不会忘记其他类别之间的关系,也不会降低识别这些类别的特征。
“相反,微调模型通常会为这些其他类别产生更具辨别力的特征,即使它们在微调过程中缺失了!
“真正损害准确性的是微调类别与其他类别之间的逻辑尺度差异,这意味着简单的后处理校准将恢复预训练模型的能力,同时揭示所有类别的特征改进。”
作者已经在GitHub 存储库中重现了对该理论的测试结果。
他们经调查发现,基础模型架构中唯一在微调中受损的部分是二元分类器,它将原始模型中不存在的类错误归类为微调类。
论文指出*:
“通过在所有缺失类的 logits 中添加校准偏差因子 [ 4 , 40 ],经过微调的模型可以成功恢复缺失类的准确率,并在下游 [领域] 中获得不错的整体提升。
“最终的性能甚至在许多基准测试中超越了强大的基线 [ Holistic Transfer – 本文所基于的论文 ],包括 ImageNet 及其变体 [ ImageNet 、 ImageNet -R (endition )、ImageNet-S (ketch) ]、Office-Home和VTAB,而且无需复杂的训练和超参数设置。”
作者将后校准微调模型的改进性能归类为“意外的良性行为”,并观察到当使用基本的随机梯度下降(SGD) 优化器时,比使用更流行的当前优化器(例如Adam)获得更好的结果。
“尽管如此,”他们指出,“当学习率和权重衰减足够小的时候,良性行为就会出现并保持。”
小修小补
为了修复微调导致的逻辑差异,作者借用了零样本学习的一项技术,在所有缺失类的逻辑中添加一个常数因子。这产生了一个新的分类规则。
作者指出,该过程将被忽略的缺失类别“提升”到与微调类别相同的预测质量,恢复原始性能并提高推理时“添加”数据的性能。
他们进一步观察到,后处理校准“可能适用于任何模型”,并且通过冻结层(例如分类器和主干)来寻求维持基础模型完整性的方法与他们自己提出的方法相比得分较低。
结论
此次合作的成果意义重大。在超大规模数据集上训练 AI 模型是一项巨大的投入,类似于客机的起飞。虽然可以中断训练,并且可以通过定期保存当前权重(以相当大的存储成本)来减轻任何损害,但为了允许中断训练,在发射后,人们几乎无法改变结果。
这项工作令人印象深刻的是,研究人员似乎发现了通用人工智能模型训练的一个基本原理,而且他们的解决方案出人意料的优雅。
在微调后能够保持基础模型的准确性,其经济意义也十分重大。迄今为止,解决数百万美元模型缺陷的最常见方法是在推理时过滤输出,或控制推理以避免模型中出现任何明显的致命弱点。
此外,从理论上讲,这种技术可以显著提高消费者层面微调生成模型的能力,同时还能提高输出质量。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-fa-xian-wei-tiao-ren-gong-zhi-neng-mo-xing-zao