人工智能代理必须解决一系列需要不同速度和不同水平的推理和规划能力的任务。理想情况下,代理应该知道何时使用其直接记忆,何时使用更复杂的推理能力。然而,设计能够根据需求正确处理任务的代理系统仍然是一个挑战。
在一篇新论文中,谷歌 DeepMind的研究人员介绍了 Talker-Reasoner,这是一个受人类认知“双系统”模型启发的代理框架。该框架使 AI 代理能够在不同类型的推理之间找到适当的平衡,并提供更流畅的用户体验。
人类和人工智能中的系统 1、系统 2 思维
双系统理论由诺贝尔奖获得者丹尼尔·卡尼曼首次提出,认为人类思维由两个不同的系统驱动。系统 1 快速、直观、自动。它控制着我们的快速判断,例如对突发事件作出反应或识别熟悉的模式。相比之下,系统 2 缓慢、深思熟虑、善于分析。它使复杂的问题解决、规划和推理成为可能。
虽然这两个系统通常被视为独立的,但它们却不断相互作用。系统 1 会产生印象、直觉和意图。系统 2 会评估这些建议,如果得到认可,则会将它们整合到明确的信念和深思熟虑的选择中。这种相互作用使我们能够无缝地应对各种情况,从日常生活到具有挑战性的问题。
当前的人工智能代理大多以系统 1 模式运行。它们擅长模式识别、快速反应和重复性任务。然而,它们在需要多步骤规划、复杂推理和战略决策(系统 2 思维的标志)的场景中往往表现不佳。
Talker-Reasoner 框架
DeepMind 提出的 Talker-Reasoner 框架旨在让 AI Agent 同时具备系统 1 和系统 2 的能力,将 Agent 划分为两个不同的模块:Talker 和 Reasoner。
Talker 是类似于系统 1 的快速、直观的组件。它处理与用户和环境的实时交互。它感知观察、解释语言、从记忆中检索信息并生成对话响应。Talker 代理通常使用大型语言模型 (LLM) 的上下文学习(ICL) 能力来执行这些功能。
推理者体现了系统 2 的缓慢、深思熟虑的本质。它执行复杂的推理和规划。它准备好执行特定任务,并与工具和外部数据源交互以增强其知识并做出明智的决策。它还会在收集新信息时更新代理的信念。这些信念推动未来的决策,并充当谈话者在对话中使用的记忆。
研究人员写道:“Talker 代理专注于与用户进行自然、连贯的对话并与环境互动,而 Reasoner 代理则专注于根据 Talker 提供的环境信息执行多步骤规划、推理和形成信念。”
这两个模块主要通过共享内存系统进行交互。推理器用其最新的信念和推理结果更新内存,而发话器则检索这些信息来指导其交互。这种异步通信使发话器能够保持连续的对话流,即使推理器在后台执行更耗时的计算。
“这类似于行为科学双系统方法,系统 1 始终处于开启状态,而系统 2 只以一小部分容量运行,”研究人员写道。“同样,说话者始终处于开启状态并与环境交互,而推理者仅在说话者等待或可以从记忆中读取时才更新信念以通知说话者。”
Talker-Reasoner 为人工智能教练提供指导
研究人员在一款睡眠辅导应用中测试了他们的框架。AI 教练通过自然语言与用户互动,为改善睡眠习惯提供个性化指导和支持。这款应用需要结合快速、富有同理心的对话和深思熟虑的基于知识的推理。
睡眠教练的 Talker 组件负责对话方面,提供富有同理心的回应并指导用户完成指导过程的不同阶段。Reasoner 保持对用户睡眠问题、目标、习惯和环境的信念状态。它使用这些信息来生成个性化建议和多步骤计划。相同的框架可以应用于其他应用程序,例如客户服务和个性化教育。
DeepMind 研究人员概述了未来研究的几个方向。其中一个重点领域是优化 Talker 和 Reasoner 之间的交互。理想情况下,Talker 应该自动确定查询何时需要 Reasoner 的干预以及何时可以独立处理这种情况。这将最大限度地减少不必要的计算并提高整体效率。
另一个方向是扩展框架以纳入多个推理器,每个推理器专注于不同类型的推理或知识领域。这将使代理能够处理更复杂的任务并提供更全面的帮助。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepmind-de-talkerreasoner-kuang-jia-wei-ai-dai-li-dai-lai