LangChain 表明，人工智能代理尚未达到人类水平，因为它们被工具所淹没

王浩然 • 2025年2月12日下午7:00 • AI前沿 • 56 views

一旦人工智能代理显示出前景，组织就必须努力弄清楚单个代理是否足够，或者是否应该投资构建一个覆盖组织中更多点的更广泛的多代理网络。

编排框架公司LangChain试图更接近这个问题的答案。它对 AI 代理进行了几次实验，发现单个代理在性能开始下降之前确实存在上下文和工具限制。这些实验可以让我们更好地理解维护代理和多代理系统所需的架构。

在一篇博客文章中，LangChain 详细介绍了它使用单个 ReAct 代理进行的一系列实验，并对其性能进行了基准测试。LangChain 希望回答的主要问题是：“在什么时候，单个 ReAct 代理会因为指令和工具而超载，随后性能会下降？”

LangChain 选择使用ReAct 代理框架，因为它是“最基本的代理架构之一”。

虽然对代理性能进行基准测试通常会导致误导性的结果，但 LangChain 选择将测试限制在代理的两个易于量化的任务上：回答问题和安排会议。

LangChain 写道：“目前有许多工具使用和工具调用的基准，但为了进行这次实验，我们想评估一个我们实际使用的实用代理。这个代理是我们的内部电子邮件助理，负责两个主要工作领域——响应和安排会议请求以及支持客户解决问题。”

LangChain实验参数

LangChain 主要通过其 LangGraph 平台使用预构建的 ReAct 代理。这些代理具有工具调用大型语言模型 (LLM)，这些模型成为基准测试的一部分。这些 LLM 包括 Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama-3.3-70B 以及来自 OpenAI 的三个模型：GPT-4o、o1 和o3-mini。

该公司将测试分为几部分，以便更好地评估电子邮件助手在这两项任务上的表现，并列出了一系列需要遵循的步骤。首先是电子邮件助手的客户支持功能，该功能着眼于代理如何接受来自客户的电子邮件并做出答复。

LangChain 首先评估了工具调用轨迹，即代理使用的工具。如果代理遵循了正确的顺序，它就通过了测试。接下来，研究人员要求助手回复一封电子邮件，并使用 LLM 来判断其表现。

对于第二个工作领域，日历调度，LangChain 重点关注代理遵循指令的能力。

研究人员写道：“换句话说，代理需要记住所提供的具体指令，例如，何时应该安排与不同方的会议。”

代理过载

一旦他们定义了参数，LangChain 就开始给电子邮件助理代理施加压力并使其不堪重负。

它为日历安排和客户支持分别设置了 30 项任务。这些任务运行了三次（总共 90 次）。研究人员创建了一个日历安排代理和一个客户支持代理，以更好地评估这些任务。

“日历调度代理只能访问日历调度域，客户支持代理只能访问客户支持域，”LangChain 解释说。

研究人员随后为代理添加了更多领域的任务和工具，以增加职责数量。这些职责可能涉及人力资源、技术质量保证、法律和合规性以及许多其他领域。

单智能体指令降级

经过评估，LangChain 发现，单个代理在接到太多任务指令时往往会不知所措。他们开始忘记调用工具，或者在接到更多指令和上下文时无法响应任务。

LangChain 发现，使用 GPT-4o 的日历调度代理“在各种上下文大小下的表现都比 Claude-3.5-sonnet、o1 和 o3 差，并且当提供更大的上下文时，性能下降幅度比其他模型更大。”当域增加到至少七个时，GPT-4o 日历调度程序的性能下降到 2%。

其他模型的表现也好不到哪里去。Llama-3.3-70B 忘记调用 send_email 工具，“因此它无法通过所有测试用例。”

只有 Claude-3.5-sonnet、o1 和 o3-mini 都记得调用该工具，但 Claude-3.5-sonnet 的表现比其他两个 OpenAI 模型更差。然而，一旦将不相关的域添加到调度指令中，o3-mini 的性能就会下降。

客服人员可以调用更多工具，但对于这次测试，LangChain 表示 Claude-3.5-mini 的表现与 o3-mini 和 o1 一样好。当添加更多域时，它的性能下降幅度也较小。然而，当上下文窗口扩展时，Claude 模型的表现更差。

GPT-4o 也是测试模型中表现最差的。

“我们发现，随着提供的背景信息越来越多，指令执行情况变得越来越糟糕。我们的一些任务旨在遵循特定指令（例如，不要对欧盟客户执行某些操作），” LangChain 指出。“我们发现，拥有较少域名的代理可以成功遵循这些指令，但随着域名数量的增加，这些指令更容易被遗忘，任务随后失败。”

该公司表示正在探索如何使用相同的领域过载方法来评估多代理架构。

LangChain 已在代理性能方面投入了大量精力，它引入了“环境代理”的概念，即在后台运行并由特定事件触发的代理。这些实验可以让我们更轻松地找出如何最好地确保代理性能。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/langchain-biao-ming-ren-gong-zhi-neng-dai-li-shang-wei-da

LangChain

Like (0)

王浩然作者

0 0

Anthropic 首席执行官 Dario Amodei 警告称：到 2026 年，人工智能将赶上“天才之国”

Previous 2025年2月12日

Cerebras-Perplexity 交易以超快 AI 瞄准 1000 亿美元搜索市场

Next 2025年2月12日

AI前沿

加密货币骗子入侵 OpenAI 在 X 上的新闻账号

OpenAI 在 X 上的官方新闻账号似乎也遭到了加密货币骗子的攻击，前几个月攻击该公司领导层的账号的也是同样的情况。周一下午晚些时候，OpenAI Newsroom（OpenA…

王浩然
2024年9月25日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

可信任的AI Agent是通向智能应用的必经之路

生成式人工智能浪潮下，软件应用正逐渐从以往促进流程、工作流和任务的工具，转变为能够代表终端用户开展工作的智能系统，特别是在企业级市场，软件应用将从仅仅支持业务流程的执行，逐步演变为…

点点
2024年10月17日
000
AI前沿

OpenAI发布迄今最大AI模型GPT 4.5 Orion‌

全球领先的AI研究机构OpenAI，近日正式揭晓了其最新的研究成果——GPT 4.5 Orion。这款AI模型代表了OpenAI在人工智能领域的又一重大突破，是迄今为止规模最大、能…

王浩然
2025年3月2日
000
AI前沿

谷歌云安全主管警告：网络防御必须不断发展以应对人工智能滥用

虽然许多现有的风险和控制可以应用于生成人工智能，但这项突破性的技术也有许多细微差别，需要新的策略。模型容易产生幻觉或产生不准确的内容。其他风险包括通过模型输出泄露敏感数据、模型…

王浩然
2024年11月3日
000
AI前沿

Upwork 产品副总裁 Dave Bottoms – 访谈系列

Dave Bottoms 领导 Upwork 的市场组织，这是一个全球团队，负责核心人才市场、搜索和发现、广告和货币化、核心移动体验以及新产品创新和分析。 Dave 为 Upwor…

点点
2024年10月7日
000
AI前沿

单一标记如何成就或破坏人工智能推理

想象一下，让人工智能解决一个关于偿还贷款的简单数学问题。当人工智能遇到“欠”这个词时，它会结巴，产生错误的计算和错误的逻辑。但是，将这个词改成“付”，人工智能的推理就会突然转变——…

王浩然
2024年12月9日
000
AI前沿

微软刚刚放弃了 Drasi，它可能会改变我们处理大数据的方式

微软推出了一种新的开源数据处理系统Drasi ，旨在简化对复杂基础设施中关键事件的检测和响应。此次发布是继去年推出面向云的开放应用平台Radius之后的又一举措，进一步巩固了微软…

王浩然
2024年10月6日
000
AI前沿

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

就像2024 年在纽约市结束的方式一样，2025 年人工智能新闻周期也以一声雷鸣般的响声开始。 OpenAI 联合创始人兼首席执行官 Sam Altman昨天 (1 月 5 日) …

王浩然
2025年1月7日
000
AI前沿

专家观点：人工智能尚未准备好成为科研合作者‌

随着人工智能技术的飞速发展，关于AI能否胜任科研合作者角色的讨论日益激烈。然而，近期一项调查结果显示，多数专家对此持保留态度，他们认为人工智能目前尚未准备好成为真正的科研合作者。 …

王浩然
2025年3月6日
000
AI前沿

法官允许作者针对Meta提起的AI版权诉讼继续进行‌

近日，一起涉及AI版权纠纷的案件引起了广泛关注。在该案中，一群作家指控Meta公司未经授权使用了他们的作品来训练其AI模型。近日，法官裁定，这起针对Meta的AI版权诉讼可以继续进…

王浩然
2025年3月11日
000
AI前沿

Qodo 融资 4000 万美元，用于增强 AI 驱动的代码完整性和开发人员效率

Qodo （前身为 CodiumAI）最近在由Susa Ventures和Square Peg领投的 A 轮融资中获得了 4000 万美元， Firestreak Ventures…

点点
2024年10月1日
000
AI前沿

心理健康聊天机器人旨在填补人手不足学校的咨询空白

近日，一款专为学校设计的心理健康聊天机器人应运而生，旨在为那些心理咨询师资源匮乏的学校提供强有力的支持。这款机器人通过人工智能技术，能够为学生提供及时、有效的心理咨询服务，帮助他们…

王浩然
2025年2月26日
000
AI前沿

OpenAI 推出具有图像上传和分析功能的完整 o1 模型，并首次推出 ChatGPT Pro

OpenAI 已正式推出其o1 模型，该模型已从预览版过渡到 ChatGPT 平台的核心功能。现在，它还可以分析图像——这是一项非常有用的功能升级，因为它使用户能够上传照片并让 A…

王浩然
2024年12月6日
000
AI前沿

Hugging Face 推出用于机器人命令的自然语言 AI 模型

模型使得构建和部署能够执行复杂任务的人工智能机器人变得更加容易。开源代码库Hugging Face推出了一种机器人基础人工智能模型，可将自然语言命令转化为身体动作。该模型名为…

王浩然
2025年2月19日
000
AI前沿

Artem Rodichev Ex-human 首席执行官兼创始人 – 访谈系列

Artem Rodichev 是Ex-human的创始人兼首席执行官，该公司专注于打造富有同理心的 AI 角色，以进行有趣的对话。在创立 Ex-human 之前，Artem 曾于 …

点点
2024年11月5日
000
AI前沿

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

总部位于伦敦的 AI 超大规模提供商Nscale宣布，计划在未来三年内向英国数据中心行业投资 25 亿美元（20 亿英镑）。这一重大承诺将支持英国政府的 AI 机遇行动计划以及该国…

王浩然
2025年1月14日
000
AI前沿

谷歌推出免费AI编程助手，使用上限极高‌

近日，谷歌公司正式推出了一款免费的AI编程助手，旨在帮助开发者更加高效地进行代码编写和调试。这款AI编程助手不仅功能强大，而且使用上限极高，能够满足大量开发者的需求。这款AI编程…

王浩然
2025年2月27日
000
AI前沿

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

OpenAI o1的近期发布引起了人们对大型推理模型 (LRM) 的极大关注，并启发了旨在解决经典语言模型经常遇到的复杂问题的新模型。基于 o1 的成功和 LRM 的概念，阿里巴巴…

王浩然
2024年11月28日
000
AI前沿

Pika 1.5 再次更新，新增更多 AI 视频效果：碎裂、溶解、缩小、吃惊

Pika又名 Pika Labs 或 Pika AI，是一家总部位于加利福尼亚州帕洛阿尔托的初创公司，已筹集 5500 万美元，利用同名的视频 AI 模型颠覆视频制作领域，目前，该…

王浩然
2024年10月19日
000