Sakana AI 的 CycleQD 优于多技能语言模型的传统微调方法

王浩然 • 2024年12月7日下午10:00 • AI前沿 • 77 views

Sakana AI的研究人员开发了一种资源高效的框架，可以创建数百种专门用于不同任务的语言模型。该技术称为CycleQD，它使用进化算法来结合不同模型的技能，而无需昂贵且缓慢的训练过程。

CycleQD 可以创建大量特定于任务的代理，为当前增加模型尺寸的范式提供更可持续的替代方案。

重新思考模型训练

大型语言模型(LLM) 在各种任务中都表现出了卓越的能力。然而，训练 LLM 以掌握多种技能仍然是一项挑战。在微调模型时，工程师必须平衡来自不同技能的数据，并确保一种技能不会主导其他技能。当前的方法通常涉及训练越来越大的模型，这会导致计算需求和资源需求增加。

Sakana 的研究人员在一篇博客文章中写道：“我们认为，与其致力于开发一个能够在所有任务上表现良好的单一大型模型，不如采用基于群体的方法来发展多样化的小众模型，这可能为扩大具有高级功能的人工智能代理的开发提供一条更可持续的替代途径。”

为了创建模型种群，研究人员从质量多样性 (QD) 中汲取了灵感，这是一种进化计算范式，专注于从初始种群样本中发现一组多样化的解决方案。QD 旨在创建具有各种“行为特征”(BC) 的样本，这些样本代表不同的技能领域。它通过进化算法 (EA) 实现这一目标，该算法选择父示例并使用交叉和变异操作来创建新样本。

循环QD

CycleQD 将 QD 整合到 LLM 的训练后流程中，帮助它们学习新的复杂技能。当您拥有多个针对特定技能（例如编码或执行数据库和操作系统操作）进行微调的小型模型，并且想要创建具有这些技能的不同组合的新变体时，CycleQD 非常有用。

在 CycleQD 框架中，每项技能都被视为下一代模型优化的行为特征或品质。在每一代中，算法都会将一项特定技能作为其质量指标，同时将其他技能作为 BC。

研究人员解释说：“这确保了每项技能都能得到充分的关注，从而使法学硕士的整体发展更加平衡、更加有能力。”

CycleQD 从一组专家 LLM 开始，每个 LLM 都专注于一项技能。然后，该算法应用“交叉”和“变异”操作，将新的更高质量的模型添加到种群中。交叉结合了两个父模型的特征来创建新模型，而变异对模型进行随机更改以探索新的可能性。

交叉操作基于模型合并，这是一种将两个 LLM 的参数组合起来以创建具有组合技能的新模型的技术。这是一种经济高效且快速的方法，无需对模型进行微调即可开发出全面的模型。

变异操作使用奇异值分解(SVD)，这是一种将任何矩阵分解为更简单组件的因式分解方法，使其元素更易于理解和操作。CycleQD 使用 SVD 将模型的技能分解为基本组件或子技能。通过调整这些子技能，变异过程可以创建探索超出其父模型的新功能的模型。这有助于模型避免陷入可预测的模式并降低过度拟合的风险。

评估 CycleQD 的性能

研究人员将 CycleQD 应用于一组针对编码、数据库操作和操作系统操作进行了微调的Llama 3-8B专家模型。目标是看看这种进化方法能否结合这三种模型的技能来创建一个更优秀的模型。

结果表明，CycleQD 在评估的任务中表现优于传统的微调和模型合并方法。值得注意的是，尽管在更多数据上进行了训练，但对所有数据集进行微调的模型的表现仅略优于单一技能专家模型。此外，传统的训练过程要慢得多，成本也更高。CycleQD 还能够在目标任务上创建具有不同性能水平的各种模型。

研究人员写道：“这些结果清楚地表明，CycleQD 的表现优于传统方法，证明了其在训练 LLM 在多种技能上脱颖而出方面的有效性。”

研究人员认为，CycleQD 有潜力实现人工智能系统的终身学习，让它们随着时间的推移不断成长、适应和积累知识。这可能对现实世界的应用产生直接影响。例如，CycleQD 可用于不断合并专家模型的技能，而不是从头开始训练大型模型。

另一个令人兴奋的方向是多智能体系统的开发，其中通过 CycleQD 进化的大量专门智能体可以相互协作、竞争和学习。

研究人员写道：“从科学发现到现实世界的问题解决，大量专业代理可以重新定义人工智能的极限。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/sakana-ai-de-cycleqd-you-yu-duo-ji-neng-yu-yan-mo-xing-de

Sakana AI

Like (0)

王浩然作者

0 0

Meta 推出开源 Llama 3.3，将强大的大模型缩小到更小的尺寸

Previous 2024年12月7日

这是你永远不应该外包给人工智能模型的事情

Next 2024年12月8日

AI前沿

“先收获，后解密”：黑客为何在等待量子计算

黑客们正在等待量子计算破解密码并大规模解密多年来被盗信息的那一刻。为了做好准备，他们正在收集比平时更多的加密数据。以下是企业可以采取的应对措施。黑客为什么要窃取加密数据？大多数…

王浩然
2024年9月22日
000
AI前沿

【划重点】数字人类对话，让员工培训逼真又高效！

员工培训对于适应职位和吸收公司文化至关重要；同样，它还能让人们学习新技能并在专业上成长。然而，当“员工培训”电子邮件出现在收件箱中时，为新公司工作或晋升到新职位的兴奋感就会消失殆尽…

点点
2024年9月11日
000
AI前沿

亚马逊首席执行官安迪·贾西暗示将推出“代理” Alexa

亚马逊首席执行官安迪·贾西 (Andy Jassy) 周四暗示，该公司的 Alexa 助手将推出改进的“代理”版本，可以代表用户采取行动。 “我认为下一代的这些助手和生成式人工智能…

王浩然
2024年11月2日
000
AI前沿

埃隆马斯克的 X 正在改变其隐私政策，允许第三方在你的帖子上训练人工智能

周三，社交网络 X（前身为 Twitter）更新了其隐私政策，表明它将允许第三方“合作者”使用 X 数据训练他们的 AI 模型，除非用户选择退出。虽然 X 所有者埃隆·马斯克使用 …

王浩然
2024年10月19日
000
AI前沿

解锁医疗保健的未来：探索 AI 环境临床语音和 AI 医疗文书员

医疗保健行业正在迅速进入技术驱动的新时代，而人工智能 (AI) 是其主要加速器。数据显示，75% 的医疗保健提供商和专业人士认为，未来三年内，人工智能相关技术将“普及”。虽然行业领…

点点
2024年9月10日
000
AI前沿

为医生配备人工智能副驾驶

大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…

王浩然
2024年10月20日
000
AI前沿

高通推出用于个人电脑、汽车、智能家居和企业的人工智能芯片

高通在2025 年消费电子展 (CES 2025)上发布了针对个人电脑、汽车、智能家居和企业的人工智能技术和合作。在拉斯维加斯举行的大型科技贸易展上，高通技术公司展示了如何利用其…

王浩然
2025年1月7日
000
AI前沿

Aesthetic 推出“时尚版 Shazam”

Aesthetic 是一家新成立的时尚公司，致力于成为“服装界的 Shazam”。该公司本周成立，利用人工智能帮助人们识别和购买他们在社交媒体上寻找的服装。这款名为 Alma …

王浩然
2024年10月30日
000
AI前沿

OpenAI的GPT 4.5模型向更多ChatGPT用户开放‌

随着人工智能技术的不断进步，OpenAI再次引领行业潮流，宣布将其最新的GPT 4.5模型向更多的ChatGPT用户开放。这一消息无疑为人工智能爱好者及从业者带来了振奋人心的消息，…

王浩然
2025年3月8日
000
AI前沿

引导人工智能投资：平衡创新与可持续性的 5 种策略

随着人工智能领域的快速发展，企业和技术领导者在平衡当前人工智能投资与长期可持续发展目标方面面临着越来越大的挑战。在急于采用人工智能的过程中，许多企业忽视了这种平衡，优先考虑短期收益…

点点
2024年10月5日
000
AI前沿

人形机器人在特斯拉 We Robot 活动上为客人提供饮料和聚会

伊隆·马斯克预测 Optimus 的最终售价将为 2 万至 3 万美元，低于一辆汽车的价格，这样每个家庭都可以买得起一辆

点点
2024年10月14日
011
AI前沿

Perplexity 称其目前每周处理 1 亿次搜索查询

Perplexity 首席执行官 Aravind Srinivas表示，该人工智能搜索引擎目前每周执行 1 亿次查询。按月推算，大约有 4 亿次查询，高于7 月份的 2.5 亿次查…

王浩然
2024年10月26日
000
AI前沿

Salesforce 发现，93% 的 IT 领导者看到了 AI 代理的价值，但难以实现

每个人都在谈论人工智能代理。但到目前为止，很多都还只是说说而已。 Salesforce 表示，这种情况将在 2025 年发生改变——人工智能代理终于成为现实。根据其集成…

王浩然
2025年2月4日
000
AI前沿

雷军 AI 配音骂人在抖音疯传，本人怒了，警惕 Deepfake 泛滥的新时代

请问，长假 7 天，被 AI 用雷军的声音骂了 6 天，是什么体验？雷军本人无辜躺枪，博主们在违法边缘试探或者已经违法，网友短暂地看了热闹然后回归工位，小米法务部两眼一黑，收不回…

点点
2024年10月9日
000
AI前沿

仓库中的机器人经过人工智能训练，可实现更快的分类

Ambi Robotics 最近发布了 Prime-1，该公司称这是第一个用于商业仓库运营中部署的机器人分拣机的 AI 基础模型。 Prime-1 代表可立即投入生产的工业操作专家…

王浩然
2025年1月26日
000
AI前沿

DeepSeek V3 在 Mac Studio 上的惊人表现：每秒 20 个标记，OpenAI 的噩梦？

在人工智能领域，技术的飞速发展正不断推动着边界的拓展。最近，一款名为 DeepSeek V3 的深度学习模型在 Mac Studio 上的表现引发了广泛关注。据悉，DeepSeek…

王浩然
2025年3月25日
000
AI前沿

Atlassian 的 Rovo AI 现已正式发布

六个月前， Atlassian首次展示了 Rovo。Rovo是该公司所谓的“AI 队友”，它将更智能的搜索和基于聊天的 AI 工具与代理相结合，可以帮助用户在 Jira 和 Con…

王浩然
2024年10月10日
000
AI前沿

Writer 的新 AI 模型旨在解决生成内容中的“相同性问题”

Writer是一家快速崛起的企业 AI 初创公司，近期估值达 19 亿美元，该公司推出了Palmyra Creative，这是一种专门的 AI 模型，有望改变企业处理创意任务的方式…

王浩然
2024年12月19日
000
AI前沿

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

2024年9月25日，腾研读书举办了一场对谈，腾讯研究院资深专家袁晓辉对谈前OpenAI研究员，也是《为什么伟大不能被计划》一书的两位作者肯尼斯·斯坦利（Kenneth Stanl…

点点
2024年10月12日
000
AI前沿

Gemini 2.5 Pro 正式发布：无限制使用且价格更亲民

在人工智能领域，谷歌一直以其强大的技术实力和创新能力引领潮流。近日，谷歌宣布其最新研发的Gemini 2.5 Pro模型正式面向公众开放，并且以更加亲民的价格和无限制的使用条件，向…

王浩然
1天前
000

发表回复

Please Login to Comment

Sakana AI 的 CycleQD 优于多技能语言模型的传统微调方法

重新思考模型训练

循环QD

评估 CycleQD 的性能

相关推荐

发表回复

Share To :