微软研究人员和学术合作伙伴进行的一项全面的新调查显示,由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI),从而有可能改变人类与软件的交互方式。
这项技术本质上让人工智能系统能够像人类一样查看和操作计算机界面——点击按钮、填写表格以及在应用程序之间导航。这些“GUI 代理”无需用户学习复杂的软件命令,它们可以解释自然语言请求并自动执行必要的操作。
研究人员写道: “这些代理代表了一种范式转变,使用户能够通过简单的对话命令执行复杂的多步骤任务。” “它们的应用涵盖网络导航、移动应用程序交互和桌面自动化,提供变革性的用户体验,彻底改变了个人与软件的交互方式。”
想象一下,拥有一位技术精湛的行政助理,可以代表您操作任何软件程序。您只需告诉助理您想要完成的任务,他们就会处理实现该任务的所有技术细节。
企业人工智能助理的崛起改变了一切
各大科技公司已竞相将这些功能融入其产品中。微软的Power Automate使用 LLM 帮助用户在应用程序之间创建自动化工作流程。该公司的Copilot AI 助手可以根据文本命令直接控制软件。Anthropic 为 Claude 开发的Computer Use功能使 AI 能够与 Web 界面交互并执行复杂的任务。据报道,谷歌正在开发Project Jarvis,这是一个 AI 系统,它将使用 Chrome 浏览器执行基于 Web 的任务,如研究、购物和旅行预订,但此功能仍在开发中,尚未公开发布。
论文指出:“大型语言模型,尤其是多模态模型的出现,开启了 GUI 自动化的新时代。它们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。”
BCC Research 分析师表示,随着企业寻求自动化重复性任务并使其软件更易于非技术用户使用,到 2028 年,这意味着潜在的689 亿美元市场机会。预计市场规模将从 2022 年的 83 亿美元增长到这一数字,预测期内的复合年增长率 (CAGR) 为 43.9%。
企业影响:人工智能自动化的挑战和机遇
然而,在这项技术被企业广泛采用之前,仍然存在重大障碍。研究人员确定了几个关键限制,包括代理处理敏感数据时的隐私问题、计算性能限制以及对更好的安全性和可靠性保障的需求。
论文在谈到早期的自动化方法时指出:“虽然它们对于预定义的工作流程有效,但这些方法缺乏动态的实际应用所需的灵活性和适应性。”
研究团队提供了应对这些挑战的详细路线图,强调开发可以在设备本地运行的更高效模型、实施强大的安全措施以及创建标准化评估框架的重要性。
研究人员指出:“通过结合保护措施和可定制的操作,这些代理在处理复杂命令时可确保效率和安全性”,并强调了该技术在企业级应用方面取得的最新进展。
对于企业技术领导者来说,基于 LLM 的 GUI 代理的出现既是机遇,也是战略考虑。虽然该技术有望通过自动化显著提高生产力,但组织需要仔细评估部署这些 AI 系统的安全影响和基础设施要求。
“GUI 代理领域正朝着多代理架构、多模式功能、多样化动作集和新颖的决策策略发展,”该论文解释道。“这些创新标志着朝着创建能够在各种动态环境中发挥高性能的智能、适应性强的代理迈出了重要一步。”
行业专家预测,到 2025 年,至少60% 的大型企业将试行某种形式的 GUI 自动化代理,这可能会大幅提高效率,但也会引发有关数据隐私和工作岗位流失的重要问题。
综合调查表明,我们正处于一个转折点,对话式人工智能界面可能会从根本上改变人类与软件的交互方式——尽管实现这一潜力需要底层技术和企业部署实践的持续进步。
研究人员总结道:“这些发展为能够处理复杂动态环境的更多功能、更强大的代理奠定了基础”,并指出未来人工智能助手将成为我们与计算机协作不可或缺的一部分。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ni-dian-ji-de-ren-gong-zhi-neng-wei-ruan-de-yan-jiu-zhi