ChatGPT 的推出使得大型语言模型(LLM) 在科技和非科技行业中得到广泛应用。这种流行主要归因于两个因素:
- LLM 作为知识库:LLM 在大量互联网数据上进行训练,并定期更新(即 GPT-3、GPT-3.5、GPT-4、GPT-4o 等);
- 新兴能力:随着 LLM 的发展,它们会展现出较小模型中没有的能力。
这是否意味着我们已经达到了人类水平的智能,我们称之为通用人工智能(AGI)?Gartner 将AGI 定义为一种人工智能,它具有理解、学习和在各种任务和领域中应用知识的能力。通往 AGI 的道路很漫长,其中一个关键障碍是 LLM 训练的自回归性质,它根据过去的序列预测单词。作为人工智能研究的先驱之一,Yann LeCun指出,由于 LLM 的自回归性质,它可能会偏离准确的响应。因此,LLM 有几个局限性:
- 知识有限:虽然接受过大量数据的训练,但法学硕士缺乏最新的世界知识。
- 推理能力有限:法学硕士的推理能力有限。正如 Subbarao Kambhampati 指出的那样, 法学硕士善于检索知识,但不是善于推理。
- 没有动态性:LLM 是静态的,无法访问实时信息。
为了克服 LLM 的挑战,需要采取更先进的方法。这时代理人就变得至关重要。
特工前来救援
人工智能中的智能代理概念已经发展了二十多年,其实现方式也随着时间而变化。如今,代理是在法学硕士的背景下讨论的。简而言之,代理就像是法学硕士挑战中的瑞士军刀:它可以帮助我们进行推理,提供从互联网获取最新信息的手段(用法学硕士解决动态问题),并且可以自主完成任务。以法学硕士为骨干,代理正式包括工具、记忆、推理(或计划)和行动组件。
人工智能代理的组成部分
- 工具使代理能够访问外部信息(无论是来自互联网、数据库还是 API),从而让他们收集必要的数据。
- 记忆可以是短期的,也可以是长期的。代理使用暂存存储器来暂时保存来自各种来源的结果,而聊天记录则是长期记忆的一个例子。
- 推理器允许代理有条不紊地思考,将复杂的任务分解为可管理的子任务,以便有效处理。
- 动作:Agent根据环境和推理执行动作,通过反馈迭代地调整和解决任务。ReAct 是迭代执行推理和动作的常用方法之一。
经纪人擅长什么?
代理擅长处理复杂任务,尤其是在角色扮演模式下,这充分利用了 LLM 的增强性能。例如,在写博客时,一个代理可能专注于研究,而另一个代理负责写作——每个代理都处理一个特定的子目标。这种多代理方法适用于许多现实生活中的问题。
角色扮演可以帮助代理专注于特定任务以实现更大的目标,通过明确定义提示的各个部分(例如角色、指令和上下文)来减少幻觉。由于 LLM 性能取决于结构良好的提示,因此各种框架都会将此过程形式化。其中一个框架CrewAI提供了一种定义角色扮演的结构化方法,我们将在下文中讨论。
多代理与单代理
以使用单个代理的检索增强生成 (RAG) 为例。这是一种通过利用索引文档中的信息来使 LLM 能够处理特定领域查询的有效方法。但是,单代理RAG 有其自身的局限性,例如检索性能或文档排名。多代理 RAG 通过使用专门的代理进行文档理解、检索和排名来克服这些限制。
在多代理场景中,代理以不同的方式协作,类似于分布式计算模式:顺序、集中、分散或共享消息池。CrewAI、Autogen 和 langGraph+langChain 等框架支持使用多代理方法解决复杂问题。在本文中,我使用 CrewAI 作为参考框架来探索自主工作流管理。
工作流管理:多代理系统的用例
大多数工业流程都涉及管理工作流,无论是贷款处理、营销活动管理还是 DevOps。需要按顺序或循环执行步骤才能实现特定目标。在传统方法中,每个步骤(例如,贷款申请验证)都需要人工执行繁琐而单调的任务,即手动处理每个申请并验证它们,然后才能进入下一步。
每个步骤都需要该领域专家的输入。在使用 CrewAI 的多代理设置中,每个步骤都由由多个代理组成的团队处理。例如,在贷款申请验证中,一个代理可以通过对驾照等文件进行背景调查来验证用户的身份,而另一个代理则验证用户的财务详细信息。
这就提出了一个问题:一个团队(按顺序或层次结构有多个代理)能否处理所有贷款处理步骤?虽然可能,但这会使团队变得复杂,需要大量的临时记忆,并增加了目标偏差和幻觉的风险。更有效的方法是将每个贷款处理步骤视为一个单独的团队,将整个工作流程视为按顺序或循环操作的团队节点图(使用 langGraph 等工具)。
由于 LLM 仍处于智能化的早期阶段,因此完整的工作流管理无法完全自动化。在最终用户验证的关键阶段需要人为参与。例如,在工作人员完成贷款申请验证步骤后,需要人工监督以验证结果。随着时间的推移,随着对人工智能的信心不断增强,一些步骤可能会完全自动化。目前,基于人工智能的工作流管理起着辅助作用,可以简化繁琐的任务并减少总体处理时间。
生产挑战
将多代理解决方案投入生产可能会带来一些挑战。
- 规模:随着代理数量的增长,协作和管理变得具有挑战性。各种框架都提供可扩展的解决方案 — 例如,Llamaindex 采用事件驱动的工作流来大规模管理多代理。
- 延迟:代理性能通常会导致延迟,因为任务是迭代执行的,需要多次 LLM 调用。托管 LLM(如 GPT-4o)由于隐式护栏和网络延迟而速度较慢。自托管 LLM(具有 GPU 控制)在解决延迟问题方面非常有用。
- 性能和幻觉问题:由于 LLM 的概率性质,代理性能会随着每次执行而变化。输出模板(例如 JSON 格式)和在提示中提供大量示例等技术有助于减少响应变化。通过训练代理可以进一步减少幻觉问题。
最后的想法
正如吴恩达所指出的,代理是人工智能的未来,并将与法学硕士一起不断发展。多代理系统将在处理多模态数据(文本、图像、视频、音频)和处理日益复杂的任务方面取得进展。虽然 AGI 和完全自主系统仍未出现,但多代理将弥合法学硕士和 AGI 之间的当前差距。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-shen-me-duo-zhi-neng-ti-ai-neng-gou-jie-jue-llm-wu-fa