研究人员利用《龙与地下城》提高人工智能代理在陌生任务上的表现

王浩然 • 2025年1月11日下午1:00 • AI前沿 • 60 views

有意部署 AI 代理的组织必须首先对其进行微调，尤其是在通常感觉死板的工作流程中。虽然有些组织希望代理只在一个工作流程中执行一种任务，但有时需要将代理带入新环境，希望它们能够适应。

北京邮电大学的研究人员公布了一种新方法 AgentRefine。它教会代理自我纠正，从而产生更通用、更自适应的人工智能代理。

研究人员表示，当前的调整方法将代理限制在与训练数据集相同的任务或“保留”任务中，并且在“保留”或新环境中表现不佳。通过仅遵循通过训练数据制定的规则，使用这些框架训练的代理将难以从错误中“学习”，并且无法成为通用代理并引入新的工作流程。

为了克服这一限制，AgentRefine 旨在创建更通用的代理训练数据集，使模型能够从错误中学习并适应新的工作流程。在一篇新论文中，研究人员表示，AgentRefine 的目标是“开发通用的代理调整数据，并建立代理泛化和自我改进之间的相关性”。如果代理能够自我纠正，它们就不会延续它们学到的任何错误，也不会将这些相同的错误带到它们部署的其他环境中。

研究人员写道：“我们发现，对自我改进数据进行代理调整可以增强代理在遇到不利情况时探索更多可行行动的能力，从而更好地推广到新的代理环境。”

受 D&D 启发的 AI 代理训练

研究人员从桌面角色扮演游戏《龙与地下城》中汲取灵感，创建了角色、供代理遵循的脚本和挑战。没错，还有地下城主 (DM)。

他们将AgentRefine的数据构建分为三个领域：脚本生成、轨迹生成和验证。

在脚本生成中，模型会创建一个脚本或指南，其中包含有关环境、任务和角色可以采取的行动的信息。（研究人员使用 Llama-3-8B-Instruct、Llama-3-70B-Instruct、Mistral-7B-Instruct-v0.3、GPT-4o-mini 和 GPT-4o 测试了 AgentRefine）

然后，模型生成有错误的代理数据，并在轨迹阶段充当 DM 和玩家。它会评估可以采取的行动，然后查看这些行动是否包含错误。最后一个阶段是验证，检查脚本和轨迹，让其训练的代理具有自我纠正的潜力。

更好、更多样化的任务能力

研究人员发现，使用 AgentRefine 方法和数据集训练的代理在各种任务上表现更好，并且能够适应新场景。这些代理会进行更多的自我修正，以重新调整其行为和决策，避免错误，并在此过程中变得更加稳健。

特别是，AgentRefine 提高了所有模型在执行保留任务时的性能。

企业必须让代理更能适应任务，这样他们就不会只重复他们所学过的内容，从而成为更好的决策者。编排代理不仅可以为多个代理“引导流量”，还可以根据用户请求确定代理是否已完成任务。

OpenAI的 o3提供“程序合成”，可以提高任务适应性。其他编排和培训框架（如微软的Magentic-One）为主管代理设置操作，以了解何时将任务转移给不同的代理。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-ren-yuan-li-yong-long-yu-di-xia-cheng-ti-gao-ren

AgentRefine Magentic-One 人工智能北京邮电大学龙与地下城

Like (0)

王浩然作者

0 0

Google DeepMind 研究人员推出新基准以提高 LLM 真实性并减少幻觉

Previous 2025年1月11日

OpenAI已开始组建其机器人团队

Next 2025年1月11日

AI前沿

为什么黄仁勋和马克·贝尼奥夫认为代理型人工智能有“巨大”机遇

Nvidia创始人兼首席执行官黄仁勋表示，展望未来，人工智能代理的机会将是“巨大的”。黄仁勋本周在 Salesforce 的旗舰活动Dreamforce的炉边谈话中表示，目前…

王浩然
2024年9月22日
000
AI前沿

人类视觉模型的基础

大规模预训练以及随后针对特定任务的语言建模微调取得了巨大成功，这种方法已成为一种标准做法。同样，计算机视觉方法也逐渐采用大规模数据进行预训练。LAION5B、Instagram-3…

点点
2024年9月11日
000
AI前沿

不眠之眼：Hakimo获1050万美元A轮融资，加码自主安防‌

在安防领域，一场由人工智能引领的变革正在悄然进行。近日，一家专注于自主安防监测平台的AI创业公司Hakimo宣布成功获得1050万美元的A轮融资，本轮融资由Vertex Ventu…

王浩然
2025年3月29日
000
AI前沿

亚马逊在测试设施发生坠机事故后暂停美国无人机送货

据彭博社报道，亚马逊暂停了其送货无人机的测试，原因是两款无人机发生坠毁事故。这是亚马逊陷入困境的Prime Air 计划遭遇的最新挫折，该计划的目标是到本世纪末每年向客户运送约 5…

王浩然
2025年1月20日
000
AI前沿

DeepSeek：全面解析这款AI聊天机器人应用

在人工智能飞速发展的今天，一款名为DeepSeek的AI聊天机器人应用正悄然改变着人机交互的方式。DeepSeek凭借其强大的自然语言处理能力、个性化的交互体验以及丰富的功能，迅速…

王浩然
2025年3月3日
000
AI前沿

Patronus AI推出Judge-Image：旨在确保AI诚信，Etsy已率先采用

Patronus AI近日宣布推出业界首款多模态大型语言模型评判工具（MLLM-as-a-Judge），名为Judge-Image。该工具专为评估解释图像并生成文本的AI系统而设计…

王浩然
2025年3月17日
000
AI前沿

MOSEL：推进所有欧洲语言的语音数据收集

人工智能语言模型的发展在很大程度上以英语为主，而许多欧洲语言却没有得到充分重视。这导致人工智能技术在理解和响应不同语言和文化方面存在严重不平衡。MOSEL旨在通过为欧盟 24 种官…

点点
2024年10月8日
000
AI前沿

WP Engine 申请禁令以恢复其 WordPress.org 访问权限

网络托管服务提供商 WP Engine 已向北加州一家法院提交了禁令，要求其介入并恢复其对WordPress.org 开源存储库的访问权限。上个月， WP Engine 对 Wo…

王浩然
2024年10月23日
000
AI前沿

为什么人工智能开发人员对 Claude 3.5 的计算机使用功能赞不绝口

Anthropic 刚刚发布了 Claude 3.5，这是其 LLM 系列的一个功能强大的新版本。虽然这个模型带来了改进的推理和编码技能，但真正令人兴奋的是围绕一项名为“计算机使用…

点点
2024年11月5日
000
AI前沿

DeepSeek 声称其“推理”模型在某些基准上击败了 OpenAI 的 o1

中国人工智能实验室 DeepSeek 发布了其所谓的推理模型 DeepSeek-R1 的开放版本，声称该模型在某些人工智能基准上的表现与 OpenAI 的o1一样好。 R1 可从 …

王浩然
2025年1月21日
000
AI前沿

谷歌地图正在获得由 Gemini 提供支持的全新 AI 功能

Google 地图即将推出由Google 的生成式 AI 模型Gemini提供支持的新功能。周四，该公司宣布即将推出更新，让美国的 Google 地图用户能够利用 AI 帮助他们找…

王浩然
2024年11月2日
000
AI前沿

Fal.Con 2024：CrowdStrike 推出弹性设计框架以加强全球网络安全

CrowdStrike首席执行官乔治·库尔茨 (George Kurtz) 在Fal.Con 2024开幕式上向客户和合作伙伴表示感谢，他表示，如果没有他们的帮助，公司不可能度过今…

王浩然
2024年9月22日
000
AI前沿

临床环境中的人工智能：了解护士的怀疑态度并找到前进的方向

由于普遍的职业倦怠和劳动力短缺，不断变化的医疗保健领域一直在寻找“下一个大事件”来支持劳动力赋能，而人工智能目前是领先的竞争者。人工智能在临床环境中的应用越来越普遍，并且将继续存在…

点点
2024年10月27日
000
AI前沿

沃尔玛推出全新 Wallaby 法学硕士项目，押注多种人工智能模型

零售巨头沃尔玛对人工智能并不陌生，并已开始测试自己的大型语言模型 (LLM)，并可能将其用于其他应用程序。 Wallaby 是一套专注于零售业的 LLM，它基于数十年的沃尔玛数据进…

王浩然
2024年10月15日
000
AI前沿

Pinecone 通过级联检索扩展矢量数据库，将企业 AI 准确率提高高达 48%

近年来，Pinecone 已成为领先的原生矢量数据库平台之一。Pinecone 凭借新功能继续在竞争日益激烈的市场中脱颖而出，帮助解决企业 AI 挑战今天，Pinecone 宣布…

王浩然
2024年12月3日
000
AI前沿

量子计算机助力生成式人工智能

Orca PT-2 有望推动疫苗开发和生物成像等 AI 密集型应用 Orca Computing发布了其最新的光子量子计算机 PT-2，旨在通过与生成式 AI 模型相结合来解决药物…

王浩然
2024年11月5日
000
AI前沿

苹果对iPhone的80%充电限制：一年后，它帮了多大忙？

随着去年推出的iPhone 15机型，苹果增加了一个选择加入的电池设置，将最大电量限制在80%。这个想法是，永远不要将iPhone充电超过80%会延长电池的寿命，所以从2023年9…

free
2024年9月26日
000
AI前沿

OpenAI的GPT 4.5模型向更多ChatGPT用户开放‌

随着人工智能技术的不断进步，OpenAI再次引领行业潮流，宣布将其最新的GPT 4.5模型向更多的ChatGPT用户开放。这一消息无疑为人工智能爱好者及从业者带来了振奋人心的消息，…

王浩然
2025年3月8日
000
AI前沿

据报道，台积电暂停向中国公司发货先进芯片

据路透社报道，在华为处理器中发现台湾半导体制造公司生产的芯片后，美国商务部已下令该公司停止向中国客户出货先进芯片。华为面临美国的严格贸易限制，因此暂停发货是为了让政府确定是否有其…

王浩然
2024年11月12日
000
AI前沿

马斯克对 OpenAI 的修改后诉讼将微软列为被告

埃隆·马斯克对 OpenAI 提起的诉讼指控该公司放弃了非营利使命，该诉讼于 7 月撤回，但8 月又重新提起。现在，在一份修改后的诉状中，该诉讼将微软、LinkedIn 联合创始人…

王浩然
2024年11月16日
000