Anthropic 的计算机使用模式在新研究中显示出优势和局限性

王浩然 • 2024年11月24日下午5:00 • AI前沿 • 114 views

自从Anthropic于 10 月为 Claude发布了“计算机使用”功能以来，人们对人工智能代理在被赋予模仿人类互动的能力后能做什么感到非常兴奋。新加坡国立大学Show Lab的一项新研究概述了我们对当前一代图形用户界面 (GUI) 代理的期望。

Claude 是第一个可以作为 GUI 代理通过与人类相同的界面与设备交互的前沿模型。该模型仅访问桌面屏幕截图并通过触发键盘和鼠标操作进行交互。该功能有望使用户能够通过简单的指令自动执行任务，而无需访问应用程序的 API。

研究人员对 Claude 进行了各种任务测试，包括网页搜索、工作流程完成、办公效率和视频游戏。网页搜索任务涉及浏览和与网站交互，例如搜索和购买商品或订阅新闻服务。工作流程任务涉及多应用程序交互，例如从网站提取信息并将其插入电子表格。办公效率任务测试代理执行常见操作的能力，例如格式化文档、发送电子邮件和创建演示文稿。视频游戏任务评估代理执行多步骤任务的能力，这些任务需要理解游戏逻辑和规划行动。

每项任务都从三个维度测试模型的能力：规划、行动和批评。首先，模型必须想出一个连贯的计划来完成任务。然后，它必须能够通过将每个步骤转化为行动（例如打开浏览器、单击元素和键入文本）来执行计划。最后，批评元素决定了模型是否能够评估其完成任务的进度和成功程度。模型应该能够了解自己在此过程中是否犯了错误并纠正方向。如果任务无法完成，它应该给出合理的解释。研究人员根据这三个组件创建了一个框架，并由人工审查和评分所有测试。

总体而言，Claude 在执行复杂任务方面表现非常出色。它能够推理和规划执行任务所需的多个步骤，执行操作并评估每一步的进度。它还可以协调不同的应用程序，例如从网页复制信息并将其粘贴到电子表格中。此外，在某些情况下，它会在任务结束时重新查看结果，以确保一切都与目标一致。该模型的推理轨迹表明，它对不同工具和应用程序的工作原理有大致的了解，并能有效地协调它们。

然而，它也容易犯一些普通人类用户很容易避免的琐碎错误。例如，在一项任务中，模型未能完成订阅，因为它没有向下滚动网页来找到相应的按钮。在其他情况下，它在非常简单和明确的任务中失败，例如选择和替换文本或将项目符号更改为数字。此外，该模型要么没有意识到自己的错误，要么对为什么无法实现预期目标做出了错误的假设。

研究人员表示，模型对自身进展的错误判断凸显了“模型自我评估机制的不足”，并表示“要彻底解决这个问题，可能仍需要改进 GUI 代理框架，比如内化的严格批评模块。”从结果中也可以清楚地看出，GUI 代理无法复制人类使用计算机的所有基本细微差别。

对于企业来说意味着什么？

使用基本文本描述来自动化任务的前景非常吸引人。但至少目前，该技术尚未准备好大规模部署。模型的行为不稳定，可能导致不可预测的结果，这可能会对敏感应用造成破坏性后果。通过为人类设计的界面执行操作也不是完成可以通过 API 完成的任务的最快方法。

我们还有很多关于让大型语言模型 (LLM) 控制鼠标和键盘的安全风险需要了解。例如，一项研究表明，网络代理很容易成为人类容易忽视的对抗性攻击的受害者。

大规模自动化任务仍然需要强大的基础设施，包括可以安全连接并大规模提供的 API 和微服务。但是，Claude Computer Use 等工具可以帮助产品团队探索想法并迭代问题的不同解决方案，而无需投入时间和金钱来开发新功能或服务来自动化任务。一旦发现可行的解决方案，团队就可以专注于开发高效可靠地交付所需的代码和组件。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/anthropic-de-ji-suan-ji-shi-yong-mo-shi-zai-xin-yan-jiu

Like (0)

王浩然作者

0 0

Snowflake 击败 Databricks，直接集成 Claude 3.5

Previous 2024年11月24日

xpander.ai 的 Agent Graph System 使 AI 代理更加可靠，并逐步为其提供信息

Next 2024年11月25日

AI前沿

“未来的你”人工智能让你遇见未来的自己

该系统使用大型语言模型，根据信息生成可关联的虚拟版本

点点
2024年10月8日
000
AI前沿

研究发现法学硕士可以识别自己的错误

大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出，通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误，但由以色列理工学院、谷歌研究院…

王浩然
2024年11月1日
000
AI前沿

Agentic AI 需要编排：ServiceNow 的 AI 编排器如何自动化复杂的企业工作流程

Agentic AI 不仅仅是最新的 AI 炒作周期，它还是一项能够为企业工作流程带来巨大改变的真正技术。这是ServiceNow一直在下的大赌注，现在它正在加倍下注，以期为企业 …

王浩然
2025年2月4日
000
AI前沿

超越Transformer：NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉

引言‌ 在人工智能（AI）的广阔领域中，计算机视觉一直是推动技术进步和应用创新的关键力量。然而，传统的基于Transformer的计算机视觉模型虽然性能卓越，但计算成本高昂，限制了…

王浩然
2025年3月26日
000
AI前沿

微软刚刚放弃了 Drasi，它可能会改变我们处理大数据的方式

微软推出了一种新的开源数据处理系统Drasi ，旨在简化对复杂基础设施中关键事件的检测和响应。此次发布是继去年推出面向云的开放应用平台Radius之后的又一举措，进一步巩固了微软…

王浩然
2024年10月6日
000
AI前沿

ConverzAI 获 1600 万美元融资，为企业带来 30% 效率提升

总部位于华盛顿州雷德蒙德的初创公司ConverzAI是一家人工智能招聘自动化提供商，该公司在A 轮融资中筹集了 1600 万美元，以帮助其推动产品创新并扩大市场范围。此轮融资由 …

王浩然
2025年2月12日
000
AI前沿

中国人工智能公司 MiniMax 发布新模型，声称可与业内最佳模型相媲美

中国公司不断发布可与 OpenAI 和其他美国人工智能公司开发的系统相媲美的人工智能模型。本周，由阿里巴巴和腾讯支持的初创公司MiniMax推出了三款新模型：MiniMax-Te…

王浩然
2025年1月16日
000
AI前沿

Anthropics的Claude代码工具现重大漏洞，致部分系统崩溃‌

近期，人工智能领域知名初创公司Anthropics遭遇了一次技术挑战。其明星产品Claude代码工具被发现存在一个重大漏洞，该漏洞导致部分用户系统出现了严重故障，甚至无法正常使用。…

王浩然
2025年3月9日
000
AI前沿

Pika 2.0 继 Sora 之后推出，将用户自己的角色、物体和场景整合到新的 AI 视频中

Pika是一家总部位于帕洛阿尔托的初创公司，也是创造逼真的 AI 视频生成工具的早期领导者之一，它推出了最新的 AI 视频生成器模型 Pika 2.0，它称这是一次重大更新，承诺为…

王浩然
2024年12月16日
000
AI前沿

Meta 推出 AI 工具，让机器人在现实世界中拥有人类的触感

Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件，以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 36…

王浩然
2024年11月3日
000
AI前沿

字节跳动的 UI-TARS 可以接管你的电脑，性能优于 GPT-4o 和 Claude

TikTok 母公司推出了一款新的 AI 代理，可以控制您的计算机并执行复杂的工作流程。与 Anthropic 的Computer Use非常相似，字节跳动的新 UI-TARS …

王浩然
2025年1月23日
000
AI前沿

Spotify 的 Daniel Ek 创立的人体扫描 AI 健康初创公司 Neko Health 在伦敦开业

俗话说预防胜于治疗。如今，一家引人注目的初创公司将这一理念牢记在心——无论是字面意义上还是象征意义上——并且正在扩张。 Neko Health由 Spotify 的 Daniel …

王浩然
2024年9月4日
000
AI前沿

谷歌宣布重组以加速人工智能计划

谷歌首席执行官桑达尔·皮查伊宣布了一系列结构性变革和领导层任命，旨在加速公司的人工智能计划。此次重组后，由 Sissie Hsiao 领导的 Gemini 应用团队将加入由 De…

点点
2024年10月21日
000
AI前沿

全新主动式客户体验：生成式人工智能与客户服务的结合

生成式人工智能 (GenAI) 正在以前所未有的方式重塑客户互动。虽然它仍处于应用初期，但已经看到了可衡量的业务成果。根据麦肯锡的一项研究，到 2025 年，人工智能驱动的客户互动…

点点
2024年10月27日
000
AI前沿

EDR 中的人机合作：利用人工智能增强网络安全团队

随着网络攻击越来越频繁和复杂，公司难以跟上。技术精湛的安全团队日夜工作，以发现和阻止数字入侵者，但这往往让人觉得是一场必败之战。黑客似乎总是占上风。然而，隧道尽头还是有曙光的。新…

点点
2024年10月5日
000
AI前沿

Pedego 的 Cargo 电动自行车：运动、时尚、动力强劲，售价 4,000 美元

Pedego的 Cargo 电动自行车被宣传为一款强劲而运动的自行车，主要面向带着孩子在城里走动的父母和任何需要携带重型装备的人。我花了整个夏天测试这款货运电动自行车，看看它是…

点点
2024年9月23日
000
AI前沿

英国竞争管理局认为微软与OpenAI的合作无需调查‌

近日，英国竞争管理局（UK Competition Authority）宣布，经过细致审查，该局认定微软与OpenAI之间的合作伙伴关系并未触及反垄断法的红线，因此不符合启动正式调…

王浩然
2025年3月6日
000
AI前沿

为什么 AI 领域的每个人都对 DeepSeek 着迷

就在几天前，只有最书呆子的书呆子（我就是其中之一）才听说过DeepSeek ，它是名字同样引人入胜的High-Flyer Capital Management的中国 AI 子公司，…

王浩然
2025年1月25日
000
AI前沿

亚马逊因人类投资避开英国反垄断审查

英国反垄断机构得出结论：由于交易的规模和范围，亚马逊与人工智能初创公司 Anthropic 的合作和股权投资不能根据现行的合并规则进行调查。英国竞争与市场管理局 (CMA) 宣布…

王浩然
2024年9月29日
000
AI前沿

亚马逊新款Alexa：为儿童推出AI驱动的探索与故事功能‌

近日，亚马逊正式推出了其新款Alexa设备，专为儿童设计了全新的AI驱动功能——“探索”与“故事”。这两项创新功能旨在通过智能化、互动化的方式，为孩子们提供更加丰富、有趣的学习与娱…

王浩然
2025年2月28日
000

发表回复

Please Login to Comment

Anthropic 的计算机使用模式在新研究中显示出优势和局限性

对于企业来说意味着什么？

相关推荐

发表回复

Share To :