自从Anthropic于 10 月为 Claude发布了“计算机使用”功能以来,人们对人工智能代理在被赋予模仿人类互动的能力后能做什么感到非常兴奋。新加坡国立大学Show Lab的一项新研究概述了我们对当前一代图形用户界面 (GUI) 代理的期望。
Claude 是第一个可以作为 GUI 代理通过与人类相同的界面与设备交互的前沿模型。该模型仅访问桌面屏幕截图并通过触发键盘和鼠标操作进行交互。该功能有望使用户能够通过简单的指令自动执行任务,而无需访问应用程序的 API。
研究人员对 Claude 进行了各种任务测试,包括网页搜索、工作流程完成、办公效率和视频游戏。网页搜索任务涉及浏览和与网站交互,例如搜索和购买商品或订阅新闻服务。工作流程任务涉及多应用程序交互,例如从网站提取信息并将其插入电子表格。办公效率任务测试代理执行常见操作的能力,例如格式化文档、发送电子邮件和创建演示文稿。视频游戏任务评估代理执行多步骤任务的能力,这些任务需要理解游戏逻辑和规划行动。
每项任务都从三个维度测试模型的能力:规划、行动和批评。首先,模型必须想出一个连贯的计划来完成任务。然后,它必须能够通过将每个步骤转化为行动(例如打开浏览器、单击元素和键入文本)来执行计划。最后,批评元素决定了模型是否能够评估其完成任务的进度和成功程度。模型应该能够了解自己在此过程中是否犯了错误并纠正方向。如果任务无法完成,它应该给出合理的解释。研究人员根据这三个组件创建了一个框架,并由人工审查和评分所有测试。
总体而言,Claude 在执行复杂任务方面表现非常出色。它能够推理和规划执行任务所需的多个步骤,执行操作并评估每一步的进度。它还可以协调不同的应用程序,例如从网页复制信息并将其粘贴到电子表格中。此外,在某些情况下,它会在任务结束时重新查看结果,以确保一切都与目标一致。该模型的推理轨迹表明,它对不同工具和应用程序的工作原理有大致的了解,并能有效地协调它们。
然而,它也容易犯一些普通人类用户很容易避免的琐碎错误。例如,在一项任务中,模型未能完成订阅,因为它没有向下滚动网页来找到相应的按钮。在其他情况下,它在非常简单和明确的任务中失败,例如选择和替换文本或将项目符号更改为数字。此外,该模型要么没有意识到自己的错误,要么对为什么无法实现预期目标做出了错误的假设。
研究人员表示,模型对自身进展的错误判断凸显了“模型自我评估机制的不足”,并表示“要彻底解决这个问题,可能仍需要改进 GUI 代理框架,比如内化的严格批评模块。”从结果中也可以清楚地看出,GUI 代理无法复制人类使用计算机的所有基本细微差别。
对于企业来说意味着什么?
使用基本文本描述来自动化任务的前景非常吸引人。但至少目前,该技术尚未准备好大规模部署。模型的行为不稳定,可能导致不可预测的结果,这可能会对敏感应用造成破坏性后果。通过为人类设计的界面执行操作也不是完成可以通过 API 完成的任务的最快方法。
我们还有很多关于让大型语言模型 (LLM) 控制鼠标和键盘的安全风险需要了解。例如,一项研究表明,网络代理很容易成为人类容易忽视的对抗性攻击的受害者。
大规模自动化任务仍然需要强大的基础设施,包括可以安全连接并大规模提供的 API 和微服务。但是,Claude Computer Use 等工具可以帮助产品团队探索想法并迭代问题的不同解决方案,而无需投入时间和金钱来开发新功能或服务来自动化任务。一旦发现可行的解决方案,团队就可以专注于开发高效可靠地交付所需的代码和组件。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/anthropic-de-ji-suan-ji-shi-yong-mo-shi-zai-xin-yan-jiu