有意部署 AI 代理的组织必须首先对其进行微调,尤其是在通常感觉死板的工作流程中。虽然有些组织希望代理只在一个工作流程中执行一种任务,但有时需要将代理带入新环境,希望它们能够适应。
北京邮电大学的研究人员公布了一种新方法 AgentRefine。它教会代理自我纠正,从而产生更通用、更自适应的人工智能代理。
研究人员表示,当前的调整方法将代理限制在与训练数据集相同的任务或“保留”任务中,并且在“保留”或新环境中表现不佳。通过仅遵循通过训练数据制定的规则,使用这些框架训练的代理将难以从错误中“学习”,并且无法成为通用代理并引入新的工作流程。
为了克服这一限制,AgentRefine 旨在创建更通用的代理训练数据集,使模型能够从错误中学习并适应新的工作流程。在一篇新论文中,研究人员表示,AgentRefine 的目标是“开发通用的代理调整数据,并建立代理泛化和自我改进之间的相关性”。如果代理能够自我纠正,它们就不会延续它们学到的任何错误,也不会将这些相同的错误带到它们部署的其他环境中。
研究人员写道:“我们发现,对自我改进数据进行代理调整可以增强代理在遇到不利情况时探索更多可行行动的能力,从而更好地推广到新的代理环境。”
受 D&D 启发的 AI 代理训练
研究人员从桌面角色扮演游戏《龙与地下城》中汲取灵感,创建了角色、供代理遵循的脚本和挑战。没错,还有地下城主 (DM)。
他们将AgentRefine的数据构建分为三个领域:脚本生成、轨迹生成和验证。
在脚本生成中,模型会创建一个脚本或指南,其中包含有关环境、任务和角色可以采取的行动的信息。(研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine)
然后,模型生成有错误的代理数据,并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动,然后查看这些行动是否包含错误。最后一个阶段是验证,检查脚本和轨迹,让其训练的代理具有自我纠正的潜力。
更好、更多样化的任务能力
研究人员发现,使用 AgentRefine 方法和数据集训练的代理在各种任务上表现更好,并且能够适应新场景。这些代理会进行更多的自我修正,以重新调整其行为和决策,避免错误,并在此过程中变得更加稳健。
特别是,AgentRefine 提高了所有模型在执行保留任务时的性能。
企业必须让代理更能适应任务,这样他们就不会只重复他们所学过的内容,从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”,还可以根据用户请求确定代理是否已完成任务。
OpenAI的 o3提供“程序合成”,可以提高任务适应性。其他编排和培训框架(如微软的Magentic-One)为主管代理设置操作,以了解何时将任务转移给不同的代理。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-ren-yuan-li-yong-long-yu-di-xia-cheng-ti-gao-ren