Sakana AI的研究人员开发了一种资源高效的框架,可以创建数百种专门用于不同任务的语言模型。该技术称为CycleQD,它使用进化算法来结合不同模型的技能,而无需昂贵且缓慢的训练过程。
CycleQD 可以创建大量特定于任务的代理,为当前增加模型尺寸的范式提供更可持续的替代方案。
重新思考模型训练
大型语言模型(LLM) 在各种任务中都表现出了卓越的能力。然而,训练 LLM 以掌握多种技能仍然是一项挑战。在微调模型时,工程师必须平衡来自不同技能的数据,并确保一种技能不会主导其他技能。当前的方法通常涉及训练越来越大的模型,这会导致计算需求和资源需求增加。
Sakana 的研究人员在一篇博客文章中写道:“我们认为,与其致力于开发一个能够在所有任务上表现良好的单一大型模型,不如采用基于群体的方法来发展多样化的小众模型,这可能为扩大具有高级功能的人工智能代理的开发提供一条更可持续的替代途径。”
为了创建模型种群,研究人员从质量多样性 (QD) 中汲取了灵感,这是一种进化计算范式,专注于从初始种群样本中发现一组多样化的解决方案。QD 旨在创建具有各种“行为特征”(BC) 的样本,这些样本代表不同的技能领域。它通过进化算法 (EA) 实现这一目标,该算法选择父示例并使用交叉和变异操作来创建新样本。
循环QD
CycleQD 将 QD 整合到 LLM 的训练后流程中,帮助它们学习新的复杂技能。当您拥有多个针对特定技能(例如编码或执行数据库和操作系统操作)进行微调的小型模型,并且想要创建具有这些技能的不同组合的新变体时,CycleQD 非常有用。
在 CycleQD 框架中,每项技能都被视为下一代模型优化的行为特征或品质。在每一代中,算法都会将一项特定技能作为其质量指标,同时将其他技能作为 BC。
研究人员解释说:“这确保了每项技能都能得到充分的关注,从而使法学硕士的整体发展更加平衡、更加有能力。”
CycleQD 从一组专家 LLM 开始,每个 LLM 都专注于一项技能。然后,该算法应用“交叉”和“变异”操作,将新的更高质量的模型添加到种群中。交叉结合了两个父模型的特征来创建新模型,而变异对模型进行随机更改以探索新的可能性。
交叉操作基于模型合并,这是一种将两个 LLM 的参数组合起来以创建具有组合技能的新模型的技术。这是一种经济高效且快速的方法,无需对模型进行微调即可开发出全面的模型。
变异操作使用奇异值分解(SVD),这是一种将任何矩阵分解为更简单组件的因式分解方法,使其元素更易于理解和操作。CycleQD 使用 SVD 将模型的技能分解为基本组件或子技能。通过调整这些子技能,变异过程可以创建探索超出其父模型的新功能的模型。这有助于模型避免陷入可预测的模式并降低过度拟合的风险。
评估 CycleQD 的性能
研究人员将 CycleQD 应用于一组针对编码、数据库操作和操作系统操作进行了微调的Llama 3-8B专家模型。目标是看看这种进化方法能否结合这三种模型的技能来创建一个更优秀的模型。
结果表明,CycleQD 在评估的任务中表现优于传统的微调和模型合并方法。值得注意的是,尽管在更多数据上进行了训练,但对所有数据集进行微调的模型的表现仅略优于单一技能专家模型。此外,传统的训练过程要慢得多,成本也更高。CycleQD 还能够在目标任务上创建具有不同性能水平的各种模型。
研究人员写道:“这些结果清楚地表明,CycleQD 的表现优于传统方法,证明了其在训练 LLM 在多种技能上脱颖而出方面的有效性。”
研究人员认为,CycleQD 有潜力实现人工智能系统的终身学习,让它们随着时间的推移不断成长、适应和积累知识。这可能对现实世界的应用产生直接影响。例如,CycleQD 可用于不断合并专家模型的技能,而不是从头开始训练大型模型。
另一个令人兴奋的方向是多智能体系统的开发,其中通过 CycleQD 进化的大量专门智能体可以相互协作、竞争和学习。
研究人员写道:“从科学发现到现实世界的问题解决,大量专业代理可以重新定义人工智能的极限。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/sakana-ai-de-cycleqd-you-yu-duo-ji-neng-yu-yan-mo-xing-de