从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

王浩然 • 2025年1月12日下午9:00 • AI前沿 • 125 views

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下订单。思考与行动之间的差距是一个主要限制。人们不仅需要信息，他们还想要结果。

为了弥补这一差距，微软正在将 LLM转变为以行动为导向的 AI 代理。通过让 LLM 能够规划、分解任务并参与现实世界的互动，它们使 LLM 能够有效地管理实际任务。这种转变有可能重新定义 LLM 的功能，将其转变为自动化复杂工作流程和简化日常任务的工具。让我们看看实现这一目标需要什么，以及微软如何解决这个问题。

法学硕士需要做什么

要想在现实世界中完成任务，法学硕士需要做的不仅仅是理解文本。他们必须与数字和物理环境互动，同时适应不断变化的条件。以下是他们需要的一些能力：

了解用户意图

为了有效采取行动，LLM 需要理解用户请求。文本或语音命令等输入通常很模糊或不完整。系统必须利用其知识和请求的上下文来填补空白。多步骤对话可以帮助完善这些意图，确保 AI 在采取行动之前理解。

将意图转化为行动

理解任务后，LLM 必须将其转化为可操作的步骤。这可能涉及单击按钮、调用 API 或控制物理设备。LLM 需要根据具体任务修改其操作，适应环境并解决出现的挑战。

适应变化

现实世界中的任务并不总是按计划进行。LLM 需要预测问题、调整步骤并在出现问题时寻找替代方案。例如，如果必要的资源不可用，系统应该找到另一种方法来完成任务。这种灵活性可确保当情况发生变化时流程不会停滞。

专注于特定任务

虽然 LLM 是为通用而设计的，但专业化使它们更加高效。通过专注于特定任务，这些系统可以用更少的资源提供更好的结果。这对于计算能力有限的设备（如智能手机或嵌入式系统）尤其重要。

通过培养这些技能，法学硕士可以不仅仅处理信息。他们可以采取有意义的行动，为人工智能无缝融入日常工作流程铺平道路。

微软如何改变法学硕士

微软创建面向行动的人工智能的方法遵循结构化流程。主要目标是使 LLM 能够理解命令、有效规划并采取行动。以下是他们的做法：

步骤 1：收集和准备数据

在第一个阶段，他们收集了与其特定用例相关的数据：UFO Agent（如下所述）。数据包括用户查询、环境详细信息和特定于任务的操作。在此阶段收集两种不同类型的数据：首先，他们收集任务计划数据，帮助 LLM 概述完成任务所需的高级步骤。例如，“更改 Word 中的字体大小”可能涉及选择文本和调整工具栏设置等步骤。其次，他们收集任务操作数据，使 LLM 能够将这些步骤转化为精确的指令，例如单击特定按钮或使用键盘快捷键。

这种组合为模型提供了有效执行任务所需的总体情况和详细指令。

第 2 步：训练模型

收集到数据后，LLM 会通过多次训练来完善。第一步，LLM 会接受任务规划训练，教它们如何将用户请求分解为可操作的步骤。然后，使用专家标记的数据教它们如何将这些计划转化为具体行动。为了进一步增强他们的解决问题的能力，LLM 参与了自我提升的探索过程，这使他们能够解决未解决的任务并生成新的示例以进行持续学习。最后，应用强化学习，利用成功和失败的反馈来进一步改善他们的决策。

步骤 3：离线测试

训练后，模型将在受控环境中进行测试，以确保可靠性。任务成功率 (TSR)和步骤成功率 (SSR) 等指标用于衡量性能。例如，测试日历管理代理可能涉及验证其安排会议和发送邀请的能力，而不会出现错误。

步骤 4：集成到实际系统

验证后，模型将集成到代理框架中。这使得它能够与真实环境进行交互，例如单击按钮或浏览菜单。UI 自动化 API 等工具可帮助系统动态识别和操作用户界面元素。

例如，如果任务是突出显示 Word 中的文本，代理会识别突出显示按钮、选择文本并应用格式。记忆组件可以帮助 LLM 跟踪过去的操作，使其能够适应新的场景。

第 5 步：真实世界测试

最后一步是在线评估。在此，系统在真实场景中进行测试，以确保它能够处理意外的变化和错误。例如，客户支持机器人可能会指导用户重置密码，同时适应错误输入或缺失信息。这种测试确保人工智能是强大的，并且可以用于日常使用。

一个实际的例子：UFO 特工

为了展示面向行动的人工智能是如何工作的，微软开发了UFO Agent。该系统旨在在 Windows 环境中执行真实世界的任务，将用户请求转化为完成的操作。

UFO Agent 的核心是使用 LLM 来解释请求并规划操作。例如，如果用户说“突出显示本文档中的‘重要’一词”，则代理会与 Word 交互以完成任务。它会收集上下文信息（例如 UI 控件的位置），并使用这些信息来规划和执行操作。

UFO Agent 依赖于Windows UI Automation (UIA) API 等工具。此 API 扫描应用程序中的控制元素，例如按钮或菜单。对于“将文档另存为 PDF”之类的任务，代理使用 UIA 来识别“文件”按钮，找到“另存为”选项，并执行必要的步骤。通过一致地构造数据，系统可确保从培训到实际应用的顺利运行。

克服挑战

虽然这是一个令人兴奋的发展，但创建面向行动的人工智能也面临挑战。可扩展性是一个主要问题。在不同任务中训练和部署这些模型需要大量资源。确保安全性和可靠性同样重要。模型必须执行任务而不会产生意外后果，尤其是在敏感环境中。由于这些系统与私人数据交互，因此维护隐私和安全方面的道德标准也至关重要。

微软的路线图重点是提高效率、扩大用例和维护道德标准。借助这些进步，法学硕士可以重新定义人工智能与世界的互动方式，使其更加实用、适应性更强、更注重行动。

人工智能的未来

将 LLM 转变为行动导向型代理可能会改变游戏规则。这些系统可以自动执行任务、简化工作流程并使技术更易于访问。微软在行动导向型人工智能和 UFO Agent 等工具方面的工作才刚刚开始。随着人工智能的不断发展，我们可以期待更智能、更强大的系统，它们不仅能与我们互动，还能完成工作。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/cong-yi-tu-dao-zhi-xing-wei-ruan-ru-he-jiang-da-xing-yu-yan

LLM 人工智能微软

Like (0)

王浩然作者

0 0

研究人员开源 Sky-T1，这是一种“推理”人工智能模型，训练成本不到 450 美元

Previous 2025年1月12日

人工定价与人工智能定价：为什么人工智能是零售业成功的未来

Next 2025年1月13日

AI前沿

OpenAI发布GPT-4.1模型，百万标记处理能力引领编码新纪元

OpenAI今日隆重推出了全新的GPT-4.1模型系列，这一举措不仅显著提升了其编码能力，还通过降低成本直接回应了企业级AI市场的激烈竞争。GPT-4.1及其轻量级版本GPT-4.…

王浩然
1天前
000
AI前沿

为什么人工智能无法拼写“草莓”

在“strawberry”这个词中，字母“r”出现了多少次？根据GPT-4o和Claude等强大的 AI 产品的说法，答案是两次。大型语言模型 (LLM) 可以在几秒钟内写出论文…

王浩然
2024年8月28日
000
AI前沿

微软推出定制芯片以提高数据中心安全性和电源效率

在今天的Ignite开发者大会上，微软发布了两款专为其数据中心基础设施设计的新芯片：Azure Integrated HSM和Azure Boost DPU。这些定制设计的芯片…

王浩然
2024年11月22日
000
AI前沿

OpenAI已开始组建其机器人团队

OpenAI 以其人工智能模型而闻名，迄今为止，这些模型主要存在于云服务器、其网站以及适用于 PC 和移动设备的应用程序中。不过，该公司的雄心并不局限于软件领域：今天在 X 上，…

王浩然
2025年1月11日
000
AI前沿

微软刚刚放弃了 Drasi，它可能会改变我们处理大数据的方式

微软推出了一种新的开源数据处理系统Drasi ，旨在简化对复杂基础设施中关键事件的检测和响应。此次发布是继去年推出面向云的开放应用平台Radius之后的又一举措，进一步巩固了微软…

王浩然
2024年10月6日
000
AI前沿

苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

点点
2024年10月16日
000
AI前沿

Simplismart 通过个性化、软件优化的推理引擎增强 AI 性能

企业全力投入 AI。他们希望自己的模型能够在生产环境中顺利运行，并尽可能提高性能，以获得高投资回报。然而，即使市场上有各种先进的模型，团队仍然在部署问题上苦苦挣扎。去年，Ever…

王浩然
2024年10月19日
000
AI前沿

企业现在可以通过 Google Cloud 最先进的虚拟机运行实时数据

几个月前，Google Cloud推出了C4A，这是由其首款基于 Arm 的 CPU Axion 驱动的虚拟机 (VM) 实例。现在，作为这项工作的下一步，它推出了搭载Titani…

王浩然
2025年1月19日
000
AI前沿

Canva 已提高其 Teams 产品的价格

设计平台 Canva 正在大幅提高部分客户的价格。该公司将此举部分归咎于生成式人工智能。在美国，部分使用旧定价计划的 Canva Teams 用户发现，五人计划的标价从每年 11…

王浩然
2024年9月4日
000
AI前沿

WordPress 针对 WP Engine 采取的最新举措：控制 ACF 插件

WordPress 创始人 Matt Mullenweg 与托管服务提供商 WP Engine 之间的争执仍在继续，Mullenweg宣布WordPress 正在“分叉”WP En…

点点
2024年10月13日
000
AI前沿

Figure将于2025年启动家用仿人机器人Alpha测试‌

创新科技公司Figure近日宣布，计划在2025年正式启动其家用仿人机器人的Alpha测试阶段。这一举措标志着Figure在智能机器人领域迈出了重要一步。 ‌一、项目背景‌ 随着人…

王浩然
2025年3月2日
000
AI前沿

D-ID推出AI视频翻译工具

D-ID 的工具与 YouTube 和 Vimeo 等平台竞争，面向个人创作者和企业，通过先进的 AI 技术提供无缝的多语言观看体验。 D-ID 最近推出了一款创新的AI 视频翻译…

王浩然
2024年8月23日
010
AI前沿

OpenAI 将在新加坡、巴黎、布鲁塞尔开设办事处，促进全球扩张

OpenAI在 X 上的一篇文章中表示，作为公司全球扩张战略的一部分，除了现有的旧金山、伦敦、都柏林和东京办事处外，还将在纽约、西雅图、巴黎、布鲁塞尔和新加坡等多个城市开设新办事处…

王浩然
2024年10月10日
000
AI前沿

超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…

王浩然
2025年3月22日
000
AI前沿

“每一毫秒都很重要”：为什么电动方程式车队选择 Cato Networks 来连接其维修站

最近采访了保时捷赛车运动IT 主管 Friedemann Kurz ，他数十年的经验使他成为将技术与高风险赛车相结合的领导者。 Kurz 负责监管泰格豪雅保时捷电动方程式车队的 I…

王浩然
2024年12月1日
000
AI前沿

人工智能在医疗保健领域的应用，用于药物研发、数据和成像

Nvidia 正在帮助促进数字健康代理的采用，以在美国医疗保健系统中部署人工智能

点点
2024年10月16日
000
AI前沿

Anthropic重塑教育AI：Claude学习模式让学生主动思考

在人工智能（AI）迅速发展的今天，其在教育领域的应用引发了广泛关注。然而，大多数现有的教育AI工具往往侧重于提供快速答案，而非培养学生的批判性思维和深度理解能力。为了打破这一局面，…

王浩然
2025年4月4日
000
AI前沿

ServiceNow 开源 Fast-LLM，旨在帮助企业以 20% 的速度训练 AI 模型

训练大型语言模型 (LLM) 是企业最昂贵且最耗时的练习之一。ServiceNow 今天发布的新开源模型可能会带来巨大的改变，有望将训练速度提高 20%，从而为企业节省时间和金钱。…

王浩然
2024年12月11日
000
AI前沿

Meta为LLAMA 4发布辩护，针对质量参差不齐的报道归咎于程序错误

在近期科技界掀起的人工智能浪潮中，Meta公司的LLAMA 4模型发布引发了广泛关注与讨论。然而，随着用户反馈的不断涌现，有关LLAMA 4性能表现褒贬不一的报道也随之而来。面对这…

王浩然
2025年4月8日
000
AI前沿

加州议会通过有争议的人工智能安全法案

加州议会批准了《前沿人工智能模型安全创新法案》（SB 1047）。该法案在硅谷及其他地区引发了激烈争论，旨在对在加州运营的人工智能公司实施一系列安全措施。这些预防措施必须在训练高…

AI News
2024年9月1日
000