为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

王浩然 • 2024年12月1日下午3:00 • AI前沿 • 72 views

微软研究人员和学术合作伙伴进行的一项全面的新调查显示，由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI)，从而有可能改变人类与软件的交互方式。

这项技术本质上让人工智能系统能够像人类一样查看和操作计算机界面——点击按钮、填写表格以及在应用程序之间导航。这些“GUI 代理”无需用户学习复杂的软件命令，它们可以解释自然语言请求并自动执行必要的操作。

研究人员写道： “这些代理代表了一种范式转变，使用户能够通过简单的对话命令执行复杂的多步骤任务。” “它们的应用涵盖网络导航、移动应用程序交互和桌面自动化，提供变革性的用户体验，彻底改变了个人与软件的交互方式。”

想象一下，拥有一位技术精湛的行政助理，可以代表您操作任何软件程序。您只需告诉助理您想要完成的任务，他们就会处理实现该任务的所有技术细节。

企业人工智能助理的崛起改变了一切

各大科技公司已竞相将这些功能融入其产品中。微软的Power Automate使用 LLM 帮助用户在应用程序之间创建自动化工作流程。该公司的Copilot AI 助手可以根据文本命令直接控制软件。Anthropic 为 Claude 开发的Computer Use功能使 AI 能够与 Web 界面交互并执行复杂的任务。据报道，谷歌正在开发Project Jarvis，这是一个 AI 系统，它将使用 Chrome 浏览器执行基于 Web 的任务，如研究、购物和旅行预订，但此功能仍在开发中，尚未公开发布。

论文指出：“大型语言模型，尤其是多模态模型的出现，开启了 GUI 自动化的新时代。它们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。”

BCC Research 分析师表示，随着企业寻求自动化重复性任务并使其软件更易于非技术用户使用，到 2028 年，这意味着潜在的689 亿美元市场机会。预计市场规模将从 2022 年的 83 亿美元增长到这一数字，预测期内的复合年增长率 (CAGR) 为 43.9%。

企业影响：人工智能自动化的挑战和机遇

然而，在这项技术被企业广泛采用之前，仍然存在重大障碍。研究人员确定了几个关键限制，包括代理处理敏感数据时的隐私问题、计算性能限制以及对更好的安全性和可靠性保障的需求。

论文在谈到早期的自动化方法时指出：“虽然它们对于预定义的工作流程有效，但这些方法缺乏动态的实际应用所需的灵活性和适应性。”

研究团队提供了应对这些挑战的详细路线图，强调开发可以在设备本地运行的更高效模型、实施强大的安全措施以及创建标准化评估框架的重要性。

研究人员指出：“通过结合保护措施和可定制的操作，这些代理在处理复杂命令时可确保效率和安全性”，并强调了该技术在企业级应用方面取得的最新进展。

对于企业技术领导者来说，基于 LLM 的 GUI 代理的出现既是机遇，也是战略考虑。虽然该技术有望通过自动化显著提高生产力，但组织需要仔细评估部署这些 AI 系统的安全影响和基础设施要求。

“GUI 代理领域正朝着多代理架构、多模式功能、多样化动作集和新颖的决策策略发展，”该论文解释道。“这些创新标志着朝着创建能够在各种动态环境中发挥高性能的智能、适应性强的代理迈出了重要一步。”

行业专家预测，到 2025 年，至少60% 的大型企业将试行某种形式的 GUI 自动化代理，这可能会大幅提高效率，但也会引发有关数据隐私和工作岗位流失的重要问题。

综合调查表明，我们正处于一个转折点，对话式人工智能界面可能会从根本上改变人类与软件的交互方式——尽管实现这一潜力需要底层技术和企业部署实践的持续进步。

研究人员总结道：“这些发展为能够处理复杂动态环境的更多功能、更强大的代理奠定了基础”，并指出未来人工智能助手将成为我们与计算机协作不可或缺的一部分。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ni-dian-ji-de-ren-gong-zhi-neng-wei-ruan-de-yan-jiu-zhi

Like (0)

王浩然作者

0 0

2 秒规则的影响：为什么网站速度比你想象的更重要

Previous 2024年12月1日

阿里巴巴发布 Qwen with Questions，一种超越 o1-preview 的开放式推理模型

Next 2024年12月1日

AI前沿

利用 IDP 增强医疗保健文档

医疗文档是该行业不可或缺的一部分，可确保提供高质量的护理并保持患者信息的连续性。然而，由于医疗保健提供者必须处理大量数据，管理这些数据可能会让人感到不知所措。随着智能文档处理技术的…

点点
2024年9月27日
000
AI前沿

一种提高人工智能效率的流行技术也有缺点

量化是提高人工智能模型效率的最广泛使用的技术之一，但它也存在局限性，而业界可能很快就会接近这些局限性。在人工智能的背景下，量化是指降低表示信息所需的位数（计算机可以处理的最小单位…

王浩然
2024年12月29日
000
AI前沿

司法部新提案：谷歌仍需剥离Chrome浏览器，但允许AI领域投资‌

近日，美国司法部针对谷歌公司提出了一项新的提案。该提案依旧要求谷歌剥离其Chrome浏览器业务，但同时明确表示，允许谷歌在人工智能（AI）领域进行投资。此提案一出，立即引发了业界…

王浩然
2025年3月11日
000
AI前沿

DeepMind 的 Michelangelo 基准测试揭示了长上下文 LLM 的局限性

具有超长上下文窗口的大型语言模型 (LLM)最近成为头条新闻。将数十万甚至数百万个标记塞入单个提示的能力为开发人员带来了许多可能性。但是这些长上下文法学硕士对于所接收的大量信息…

王浩然
2024年10月15日
000
AI前沿

Zencoder发布“咖啡模式”：一键让AI编写单元测试，引领未来编程潮流

在人工智能（AI）技术日新月异的今天，AI编程助手正逐渐成为软件开发领域不可或缺的一部分。近日，Zencoder公司推出了其革命性的“咖啡模式”功能，这一创新功能允许开发者一键启动…

王浩然
4天前
000
AI前沿

Nous Research 正在使用分布在互联网上的机器训练人工智能模型

名为Nous Research的人工智能研究团队目前正在快速发展的生成人工智能领域做一些独特的事情（至少据我所知）：Nous 正在使用分布在互联网和世界各地的机器对一个新的 150…

王浩然
2024年12月3日
000
AI前沿

南加州大学计算机科学副教授 Sean Ren – 访谈系列

Sean Ren是南加州大学(USC)计算机科学副教授，也是 Andrew and Erna Viterbi 早期职业主席。他领导智能与知识发现 (INK) 研究实验室，并在USC…

点点
2024年10月22日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

DeepSeek宣布重大决策：将开源部分在线服务核心代码

DeepSeek公司近期做出了一项具有深远影响的决策——计划将其部分在线服务的核心代码进行开源。这一举措被视为DeepSeek对技术开放与共享理念的坚定践行，旨在通过代码的全面公开…

王浩然
2025年2月25日
000
AI前沿

薪资初创公司 Warp 与发表白人至上言论的“关联公司”断绝关系

Warp是纽约的一家年轻的薪资初创公司，由于与该公司关联的一个账户发布了一些有争议的帖子而备受关注。周四，一个名为维托里奥 (Vittorio) 的账户在 X 上发帖称，“我更喜…

点点
2024年9月8日
000
AI前沿

阿里巴巴的Qwen2.5-Max挑战美国科技巨头，重塑企业人工智能

阿里云今天发布了Qwen2.5-Max型号，这是中国在不到一周的时间内第二次在人工智能方面取得重大突破，这震动了美国科技市场，并加剧了人们对美国人工智能领导地位逐渐减弱的担忧。新…

王浩然
2025年1月29日
000
AI前沿

人工智能科学家：自动化研究的新时代或才刚刚开始

科学研究是深厚知识和创造性思维的迷人结合，推动着新的见解和创新。最近，生成式人工智能已成为一股变革力量，利用其能力处理大量数据集并创建反映人类创造力的内容。这种能力使生成式人工智能…

点点
2024年9月1日
000
AI前沿

随着代理 AI 编码工具市场加速发展，GitHub Copilot 预览代理模式

Agentic AI 如今在应用程序开发和编码等多个领域风靡一时。今天， GitHub终于加入了代理 AI 阵营，推出了 GitHub Copilot 代理模式。开发中的代理 A…

王浩然
2025年2月7日
000
AI前沿

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度，展示了其安全团队在两个领域的先进能力：多步强化和外部红队演练。OpenAI 最近发布了两篇论文，为在这两种技术及…

王浩然
2025年1月7日
000
AI前沿

借助 Apple Intelligence，iPhone 用户最终将获得更好的 Siri

Siri 最终会变得有用吗？这是苹果今天在“Glowtime”活动上做出的承诺，该公司在活动中推出了iPhone 16 系列——这是首批搭载人工智能功能的新 iPhone，这要归功…

王浩然
2024年9月10日
000
AI前沿

利用量子算法实现更高效的人工智能

新的合作旨在利用量子启发算法来提高人工智能性能，同时降低能源和资源消耗。高性能计算公司 Multiverse Computing 计划利用其量子启发算法来提高人工智能模型的效率。…

王浩然
2025年1月18日
000
AI前沿

OpenAI 和 Anthropic 同意将模型送交美国政府进行安全评估

OpenAI和Anthropic与美国国家标准与技术研究所（NIST）下属的人工智能安全研究所签署协议，合作开展人工智能模型安全研究、测试和评估。该协议为人工智能安全…

王浩然
2024年9月2日
000
AI前沿

DeepSeek-V2.5获赞为新版真正开源AI模型领导者

开源生成式人工智能运动可能很难保持领先地位——即使对于那些在该领域工作或报道该领域的人来说也是如此，比如我们 VenturBeat 的记者。从本质上讲，新的开源人工智能模型的广泛可…

王浩然
2024年9月17日
000
AI前沿

Cohere 的 Rerank 3.5 现已发布，它将彻底改变企业搜索

人工智能公司Cohere今天发布了一种强大的新搜索模型，该模型有望改变全球企业跨语言和复杂系统查找和使用数据的方式。新模型Rerank 3.5的推出正值企业面临日益复杂的数据环境…

王浩然
2024年12月3日
000
AI前沿

使用 LlamaIndex 和 Gemini 实现 REAcT Agent

在过去的 2-3 年里，我们见证了人工智能领域的非凡发展，主要体现在大型语言模型、扩散模型、多模态模型等方面。我最喜欢的兴趣之一是代理工作流。今年早些时候，Coursera 的创始…

王浩然
2024年10月20日
000