LangChain 表明,人工智能代理尚未达到人类水平,因为它们被工具所淹没

LangChain 表明,人工智能代理尚未达到人类水平,因为它们被工具所淹没

一旦人工智能代理显示出前景,组织就必须努力弄清楚单个代理是否足够,或者是否应该投资构建一个覆盖组织中更多点的更 广泛的多代理网络。

编排框架公司LangChain试图更接近这个问题的答案。它对 AI 代理进行了几次实验,发现单个代理在性能开始下降之前确实存在上下文和工具限制。这些实验可以让我们更好地理解维护代理和多代理系统所需的架构。 

在一篇博客文章中,LangChain 详细介绍了它使用单个 ReAct 代理进行的一系列实验,并对其性能进行了基准测试。LangChain 希望回答的主要问题是:“在什么时候,单个 ReAct 代理会因为指令和工具而超载,随后性能会下降?”

LangChain 选择使用ReAct 代理框架,因为它是“最基本的代理架构之一”。

虽然对代理性能进行基准测试通常会导致误导性的结果,但 LangChain 选择将测试限制在代理的两个易于量化的任务上:回答问题和安排会议。 

LangChain 写道:“目前有许多工具使用和工具调用的基准,但为了进行这次实验,我们想评估一个我们实际使用的实用代理。这个代理是我们的内部电子邮件助理,负责两个主要工作领域——响应和安排会议请求以及支持客户解决问题。”

LangChain实验参数

LangChain 主要通过其 LangGraph 平台使用预构建的 ReAct 代理。这些代理具有工具调用大型语言模型 (LLM),这些模型成为基准测试的一部分。这些 LLM 包括 Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama-3.3-70B 以及来自 OpenAI 的三个模型:GPT-4o、o1 和o3-mini。 

该公司将测试分为几部分,以便更好地评估电子邮件助手在这两项任务上的表现,并列出了一系列需要遵循的步骤。首先是电子邮件助手的客户支持功能,该功能着眼于代理如何接受来自客户的电子邮件并做出答复。 

LangChain 首先评估了工具调用轨迹,即代理使用的工具。如果代理遵循了正确的顺序,它就通过了测试。接下来,研究人员要求助手回复一封电子邮件,并使用 LLM 来判断其表现。 

LangChain 表明,人工智能代理尚未达到人类水平,因为它们被工具所淹没
LangChain 表明,人工智能代理尚未达到人类水平,因为它们被工具所淹没

对于第二个工作领域,日历调度,LangChain 重点关注代理遵循指令的能力。 

研究人员写道:“换句话说,代理需要记住所提供的具体指令,例如,何时应该安排与不同方的会议。” 

代理过载

一旦他们定义了参数,LangChain 就开始给电子邮件助理代理施加压力并使其不堪重负。 

它为日历安排和客户支持分别设置了 30 项任务。这些任务运行了三次(总共 90 次)。研究人员创建了一个日历安排代理和一个客户支持代理,以更好地评估这些任务。 

“日历调度代理只能访问日历调度域,客户支持代理只能访问客户支持域,”LangChain 解释说。 

广告

研究人员随后为代理添加了更多领域的任务和工具,以增加职责数量。这些职责可能涉及人力资源、技术质量保证、法律和合规性以及许多其他领域。 

单智能体指令降级

经过评估,LangChain 发现,单个代理在接到太多任务指令时往往会不知所措。他们开始忘记调用工具,或者在接到更多指令和上下文时无法响应任务。 

LangChain 发现,使用 GPT-4o 的日历调度代理“在各种上下文大小下的表现都比 Claude-3.5-sonnet、o1 和 o3 差,并且当提供更大的上下文时,性能下降幅度比其他模型更大。”当域增加到至少七个时,GPT-4o 日历调度程序的性能下降到 2%。 

其他模型的表现也好不到哪里去。Llama-3.3-70B 忘记调用 send_email 工具,“因此它无法通过所有测试用例。”

LangChain 表明,人工智能代理尚未达到人类水平,因为它们被工具所淹没

只有 Claude-3.5-sonnet、o1 和 o3-mini 都记得调用该工具,但 Claude-3.5-sonnet 的表现比其他两个 OpenAI 模型更差。然而,一旦将不相关的域添加到调度指令中,o3-mini 的性能就会下降。

客服人员可以调用更多工具,但对于这次测试,LangChain 表示 Claude-3.5-mini 的表现与 o3-mini 和 o1 一样好。当添加更多域时,它的性能下降幅度也较小。然而,当上下文窗口扩展时,Claude 模型的表现更差。 

GPT-4o 也是测试模型中表现最差的。 

“我们发现,随着提供的背景信息越来越多,指令执行情况变得越来越糟糕。我们的一些任务旨在遵循特定指令(例如,不要对欧盟客户执行某些操作),” LangChain 指出。“我们发现,拥有较少域名的代理可以成功遵循这些指令,但随着域名数量的增加,这些指令更容易被遗忘,任务随后失败。”

该公司表示正在探索如何使用相同的领域过载方法来评估多代理架构。 

LangChain 已在代理性能方面投入了大量精力,它引入了“环境代理”的概念,即在后台运行并由特定事件触发的代理。这些实验可以让我们更轻松地找出如何最好地确保代理性能。 

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/langchain-biao-ming-ren-gong-zhi-neng-dai-li-shang-wei-da

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年2月12日
Next 2025年2月12日

相关推荐

发表回复

Please Login to Comment