大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而,它们在处理实际任务时却力不从心。例如,LLM 可以指导您购买夹克,但不能为您下订单。思考与行动之间的差距是一个主要限制。人们不仅需要信息,他们还想要结果。
为了弥补这一差距,微软正在将 LLM转变为以行动为导向的 AI 代理。通过让 LLM 能够规划、分解任务并参与现实世界的互动,它们使 LLM 能够有效地管理实际任务。这种转变有可能重新定义 LLM 的功能,将其转变为自动化复杂工作流程和简化日常任务的工具。让我们看看实现这一目标需要什么,以及微软如何解决这个问题。
法学硕士需要做什么
要想在现实世界中完成任务,法学硕士需要做的不仅仅是理解文本。他们必须与数字和物理环境互动,同时适应不断变化的条件。以下是他们需要的一些能力:
- 了解用户意图
为了有效采取行动,LLM 需要理解用户请求。文本或语音命令等输入通常很模糊或不完整。系统必须利用其知识和请求的上下文来填补空白。多步骤对话可以帮助完善这些意图,确保 AI 在采取行动之前理解。
- 将意图转化为行动
理解任务后,LLM 必须将其转化为可操作的步骤。这可能涉及单击按钮、调用 API 或控制物理设备。LLM 需要根据具体任务修改其操作,适应环境并解决出现的挑战。
- 适应变化
现实世界中的任务并不总是按计划进行。LLM 需要预测问题、调整步骤并在出现问题时寻找替代方案。例如,如果必要的资源不可用,系统应该找到另一种方法来完成任务。这种灵活性可确保当情况发生变化时流程不会停滞。
- 专注于特定任务
虽然 LLM 是为通用而设计的,但专业化使它们更加高效。通过专注于特定任务,这些系统可以用更少的资源提供更好的结果。这对于计算能力有限的设备(如智能手机或嵌入式系统)尤其重要。
通过培养这些技能,法学硕士可以不仅仅处理信息。他们可以采取有意义的行动,为人工智能无缝融入日常工作流程铺平道路。
微软如何改变法学硕士
微软创建面向行动的人工智能的方法遵循结构化流程。主要目标是使 LLM 能够理解命令、有效规划并采取行动。以下是他们的做法:
步骤 1:收集和准备数据
在第一个阶段,他们收集了与其特定用例相关的数据:UFO Agent(如下所述)。数据包括用户查询、环境详细信息和特定于任务的操作。在此阶段收集两种不同类型的数据:首先,他们收集任务计划数据,帮助 LLM 概述完成任务所需的高级步骤。例如,“更改 Word 中的字体大小”可能涉及选择文本和调整工具栏设置等步骤。其次,他们收集任务操作数据,使 LLM 能够将这些步骤转化为精确的指令,例如单击特定按钮或使用键盘快捷键。
这种组合为模型提供了有效执行任务所需的总体情况和详细指令。
第 2 步:训练模型
收集到数据后,LLM 会通过多次训练来完善。第一步,LLM 会接受任务规划训练,教它们如何将用户请求分解为可操作的步骤。然后,使用专家标记的数据教它们如何将这些计划转化为具体行动。为了进一步增强他们的解决问题的能力,LLM 参与了自我提升的探索过程,这使他们能够解决未解决的任务并生成新的示例以进行持续学习。最后,应用强化学习,利用成功和失败的反馈来进一步改善他们的决策。
步骤 3:离线测试
训练后,模型将在受控环境中进行测试,以确保可靠性。任务成功率 (TSR)和步骤成功率 (SSR) 等指标用于衡量性能。例如,测试日历管理代理可能涉及验证其安排会议和发送邀请的能力,而不会出现错误。
步骤 4:集成到实际系统
验证后,模型将集成到代理框架中。这使得它能够与真实环境进行交互,例如单击按钮或浏览菜单。UI 自动化 API 等工具可帮助系统动态识别和操作用户界面元素。
例如,如果任务是突出显示 Word 中的文本,代理会识别突出显示按钮、选择文本并应用格式。记忆组件可以帮助 LLM 跟踪过去的操作,使其能够适应新的场景。
第 5 步:真实世界测试
最后一步是在线评估。在此,系统在真实场景中进行测试,以确保它能够处理意外的变化和错误。例如,客户支持机器人可能会指导用户重置密码,同时适应错误输入或缺失信息。这种测试确保人工智能是强大的,并且可以用于日常使用。
一个实际的例子:UFO 特工
为了展示面向行动的人工智能是如何工作的,微软开发了UFO Agent。该系统旨在在 Windows 环境中执行真实世界的任务,将用户请求转化为完成的操作。
UFO Agent 的核心是使用 LLM 来解释请求并规划操作。例如,如果用户说“突出显示本文档中的‘重要’一词”,则代理会与 Word 交互以完成任务。它会收集上下文信息(例如 UI 控件的位置),并使用这些信息来规划和执行操作。
UFO Agent 依赖于Windows UI Automation (UIA) API 等工具。此 API 扫描应用程序中的控制元素,例如按钮或菜单。对于“将文档另存为 PDF”之类的任务,代理使用 UIA 来识别“文件”按钮,找到“另存为”选项,并执行必要的步骤。通过一致地构造数据,系统可确保从培训到实际应用的顺利运行。
克服挑战
虽然这是一个令人兴奋的发展,但创建面向行动的人工智能也面临挑战。可扩展性是一个主要问题。在不同任务中训练和部署这些模型需要大量资源。确保安全性和可靠性同样重要。模型必须执行任务而不会产生意外后果,尤其是在敏感环境中。由于这些系统与私人数据交互,因此维护隐私和安全方面的道德标准也至关重要。
微软的路线图重点是提高效率、扩大用例和维护道德标准。借助这些进步,法学硕士可以重新定义人工智能与世界的互动方式,使其更加实用、适应性更强、更注重行动。
人工智能的未来
将 LLM 转变为行动导向型代理可能会改变游戏规则。这些系统可以自动执行任务、简化工作流程并使技术更易于访问。微软在行动导向型人工智能和 UFO Agent 等工具方面的工作才刚刚开始。随着人工智能的不断发展,我们可以期待更智能、更强大的系统,它们不仅能与我们互动,还能完成工作。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/cong-yi-tu-dao-zhi-xing-wei-ruan-ru-he-jiang-da-xing-yu-yan