Anthropic 的新 AI 模型可以控制你的电脑

王浩然 • 2024年10月24日下午12:00 • AI前沿 • 123 views

去年春天，Anthropic在向投资者推介时表示，公司打算开发人工智能来驱动虚拟助理，让其能够独立进行研究、回复电子邮件和处理其他后台工作。该公司将此称为“人工智能自学的下一代算法”——该公司相信，如果一切按计划进行，未来某一天，该算法将使经济的很大一部分实现自动化。

虽然花了一段时间，但人工智能已经开始到来。

Anthropic 周二发布了其Claude 3.5 Sonnet模型的升级版，该模型可以理解任何桌面应用并与之交互。通过新的“计算机使用”API（目前处于公开测试阶段），该模型可以模仿按键、按钮点击和鼠标手势，本质上就是模拟坐在电脑前的人。

“我们训练 Claude 观察屏幕上发生的事情，然后使用可用的软件工具执行任务，”Anthropic 在分享的博客文章中写道。“当开发人员要求 Claude 使用一款计算机软件并授予其必要的访问权限时，Claude 会查看用户可见内容的屏幕截图，然后计算出需要垂直或水平移动光标多少像素才能点击到正确的位置。”

开发人员可以通过 Anthropic 的 API、 Amazon Bedrock和 Google Cloud 的Vertex AI平台试用 Computer Use 。不带Computer Use 的新 3.5 Sonnet正在推广到Claude 应用程序，并且与即将推出的 3.5 Sonnet 模型相比带来了各种性能改进。

自动化应用程序

能够在 PC 上自动执行任务的工具并不是什么新奇的想法。无数公司提供此类工具，从拥有数十年历史的 RPA 供应商到Relay、Induced AI和Automat等新兴公司。

在开发所谓“AI 代理”的竞争中，这个领域变得越来越拥挤。AI 代理仍然是一个定义不明确的术语，但它通常指能够自动化软件的 AI。

一些分析师表示，人工智能代理可以为企业提供一条更简单的途径，让他们将投入人工智能的数十亿美元变现。企业似乎也同意这一观点：根据 Capgemini 最近的一项调查，10% 的组织已经使用人工智能代理，82% 的组织将在未来三年内整合它们。

今年夏天， Salesforce 发布了关于其 AI 代理技术的引人注目的公告，而微软昨天则推出了用于构建 AI 代理的新工具。OpenAI 正在筹划自己的 AI 代理品牌，并将该技术视为迈向超级智能 AI 的一步。

Anthropic 将其 AI 代理概念称为“动作执行层”，让新的 3.5 Sonnet 可以执行桌面级命令。由于其具有浏览网页的能力（这不是 AI 模型的第一次，但对于 Anthropic 来说却是第一次），3.5 Sonnet 可以使用任何网站和任何应用程序。

Anthropic 的一位发言人表示：“人类通过提供指导 Claude 行动的具体提示来保持控制，例如‘使用我的电脑和网上的数据来填写此表格’。”“人们根据需要启用访问权限和限制访问权限。Claude 将用户的提示分解为计算机命令（例如移动光标、点击、打字）来完成特定任务。”

软件开发平台 Replit 使用新 3.5 Sonnet 模型的早期版本创建了一个“自主验证器”，可以在应用程序构建时对其进行评估。与此同时，Canva 表示，它正在探索新模型如何支持设计和编辑过程。

但这与其他 AI 代理有何不同？这是一个合理的问题。消费电子初创公司Rabbit正在构建一个网络代理，可以执行诸如在线购买电影票之类的操作；最近被亚马逊收购的Adept训练模型浏览网站和导航软件；而Twin Labs正在使用现成的模型（包括 OpenAI 的GPT-4o）来自动化桌面流程。

Anthropic 声称，根据 SWE-bench Verified 基准测试，新的 3.5 Sonnet 是一个更强大、更稳健的模型，在编码任务上的表现甚至比 OpenAI 的旗舰o1还要好。尽管没有经过明确的训练，但升级后的 3.5 Sonnet 在遇到障碍时会自我纠正并重试任务，并且可以朝着需要数十或数百步的目标努力。

但现在还不要解雇你的秘书。

在一项旨在测试人工智能代理协助完成机票预订任务（如修改航班预订）的能力的评估中，新款 3.5 Sonnet 成功完成了不到一半的任务。在另一项涉及启动退货等任务的测试中，3.5 Sonnet 大约有三分之一的时间失败。

Anthropic 承认，升级后的 3.5 Sonnet 在滚动和缩放等基本操作上存在困难，而且由于其截屏和拼凑方式，可能会错过“短暂”的操作和通知。

Anthropic 在帖子中写道：“Claude 的计算机使用仍然很慢，而且经常容易出错。我们鼓励开发人员从低风险任务开始探索。”

冒险的生意

但新款 3.5 Sonnet 的性能是否足以造成危险？有可能。

最近的一项研究发现，不具备使用桌面应用程序能力的模型（如 OpenAI 的 GPT-4o）在使用越狱技术“攻击”时，愿意从事有害的“多步骤代理行为”，例如从暗网上的某人那里订购假护照。研究人员表示，即使对于受到过滤器和安全措施保护的模型，越狱也能以很高的成功率执行有害任务。

可以想象，具有桌面访问权限的模型可能会造成更大的破坏——例如，利用应用程序漏洞泄露个人信息（或以纯文本形式存储聊天记录）。除了可以使用的软件手段外，该模型的在线和应用程序连接还可能为恶意越狱者打开通道。

Anthropic 并不否认发布新款 3.5 Sonnet 存在风险。但该公司辩称，观察该模型在野外使用情况的好处最终大于这种风险。

该公司写道：“我们认为，让当今更有限、相对更安全的型号访问计算机要好得多。”“这意味着我们可以开始观察和学习在这个较低级别出现的任何潜在问题，逐步同时建立计算机使用和安全缓解措施。”

Anthropic 还表示，它已采取措施阻止滥用，例如不根据用户的屏幕截图和提示训练新的 3.5 Sonnet，并阻止模型在训练期间访问网络。该公司表示，它开发了分类器来“引导”3.5 Sonnet 远离被视为高风险的行为，例如在社交媒体上发帖、创建账户和与政府网站互动。

随着美国大选临近，Anthropic 表示其重点是减轻与选举相关的模型滥用。美国人工智能安全研究所和英国安全研究所是两个独立但结盟的政府机构，致力于评估人工智能模型风险，它们在部署新版 3.5 Sonnet 之前对其进行了测试。

Anthropic说它有能力“在必要时”限制对其他网站和功能的访问，例如，为了防止垃圾邮件、欺诈和错误信息。为了安全起见，该公司会保留 Computer Use 捕获的所有屏幕截图至少 30 天——这个保留期可能会让一些开发者感到恐慌。

我们询问 Anthropic，在什么情况下，如果第三方 (例如执法部门) 要求，他们会将截图交给第三方。一位发言人表示，公司将“遵从有效的法律程序，遵守数据请求”。

“没有万无一失的方法，我们将不断评估和迭代我们的安全措施，以平衡 Claude 的功能和负责任的使用，”Anthropic 表示。“那些使用 Claude 计算机版本的人应该采取相关预防措施，以尽量减少此类风险，包括将 Claude 与计算机上特别敏感的数据隔离开来。”

希望这足以防止最坏的情况发生。

更便宜的型号

今天的头条新闻可能是升级版的 3.5 Sonnet 车型，但 Anthropic 还表示，其 Claude 系列中最便宜、最高效的车型 Haiku 的升级版即将上市。

Claude 3.5 Haiku 将于未来几周上市，其性能将在某些基准测试中与 Claude 3 Opus（曾是 Anthropic 的最先进型号）相媲美，成本相同，速度“大致相同”。

Anthropic 在一篇博客文章中写道：“由于延迟低、指令遵循能力增强、工具使用更准确，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务，以及从海量数据（如购买历史、定价或库存数据）中生成个性化体验。 ”

3.5 Haiku 最初将作为纯文本模型提供，随后将作为可以分析文本和图像的多模式包的一部分提供。

那么一旦 3.5 Haiku 推出，是否还有理由使用 3 Opus？Anthropic 于 6 月份透露了 3 Opus 的后续产品 3.5 Opus 的情况如何？

Anthropic 发言人表示：“Claude 3 系列的所有型号都有各自的客户用途。Claude 3.5 Opus 已列入我们的规划中，我们一定会尽快分享更多信息。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/anthropic-de-xin-ai-mo-xing-ke-yi-kong-zhi-ni-de-dian-nao

AI 模型 Anthropic Claude GPT-4o OpenAI Salesforce 人工智能虚拟助理

Like (0)

王浩然作者

0 0

美国人工智能安全研究所地位不稳

Previous 2024年10月24日

企鹅兰登书屋保护其书籍免受人工智能训练的影响

Next 2024年10月24日

AI前沿

Google的Gemini 2.0 Flash：原生多模态AI图像生成引领快速编辑与风格转换潮流

Google近期推出的Gemini 2.0 Flash模型，以其原生多模态AI图像生成能力，在AI界掀起了新一轮的创新风暴。这款模型不仅将文本与图像生成功能融为一体，还实现了快速的…

王浩然
2025年3月17日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

什么是 AI 代理？计算机科学家解释下一波 AI 工具

与 ChatGPT 等 AI 聊天机器人互动可能很有趣，有时也很有用，但日常 AI 的下一个级别不仅仅是回答问题：AI 代理可以为您执行任务。包括OpenAI、微软、谷歌和Sal…

王浩然
2025年1月6日
000
AI前沿

法国 AI 初创公司 Mistral 推出适用于 iPhone、Android 的 Le Chat 移动应用程序——它能否让企业不再关注 DeepSeek？

虽然最近几天人工智能市场似乎围绕DeepSeek 和 OpenAI而崩溃，但当然还有许多其他由优秀工程师组成的团队开发大型语言模型 (LLM)，这些模型值得关注，因为用户和企业都在…

王浩然
2025年2月7日
000
AI前沿

英特尔推出新款 Core Ultra 处理器，AI 应用性能提升 2 至 3 倍

英特尔今天在CES 2025上发布了全新英特尔酷睿超极本 9 处理器，其 AI 应用的边缘性能比之前提升了两到三倍。英特尔酷睿 Ultra 9 和酷睿 i9 系列芯片此前的代号分…

王浩然
2025年1月7日
000
AI前沿

据报道，OpenAI 正在制定新策略来应对人工智能改进放缓

据报道，OpenAI 正在制定新策略来应对人工智能改进放缓据《The Information》报道， OpenAI 的下一代旗舰模型可能不会像其前代产品那样带来巨大的飞跃。据报…

王浩然
2024年11月11日
000
AI前沿

英国签署人工智能安全条约保护人权与民主

英国签署了具有里程碑意义的人工智能安全条约，旨在保护人权、民主和法治免受人工智能可能带来的威胁。大法官沙巴纳·马哈茂德 (Shabana Mahmood) 今天签署了欧洲委员会的…

AI News
2024年9月6日
000
AI前沿

人工智能失散已久的孪生兄弟：工程智能

我们正面临第四次人工智能寒冬，人们开始动摇对人工智能将产生足够的实际价值来证明其成本合理的信心。随着高盛和其他研究机构的文章纷纷落叶归根，我们仍然有时间阻止下一个人工智能寒冬，而…

王浩然
2024年9月2日
000
AI前沿

一些初创公司正在采用“fair source”来避免开源许可的陷阱

由于专有软件和开源软件（OSS）之间长期存在的紧张关系短期内不太可能结束，一家价值 30 亿美元的初创公司正全力支持一种新的许可模式 — — 该模式旨在连接开放世界和专有世界，充满…

点点
2024年9月23日
000
AI前沿

DeepSeek 首个推理模型 R1-Lite-Preview 引人注目，超越 OpenAI o1 表现

DeepSeek是中国量化对冲基金High-Flyer Capital Management旗下的 AI 分支，专注于发布高性能开源技术，现已推出其最新的以推理为重点的大型语言模型…

王浩然
2024年11月24日
000
AI前沿

SpaceX 将于周日尝试历史性地接回星际飞船助推器

星际飞船已准备好再次飞行——SpaceX 将首次尝试将助推器带回发射场，并用一双超大号的“筷子”接住它。 SpaceX 将于周日在太平洋标准时间凌晨 5 点（当地时间早上 7 点）…

点点
2024年10月13日
000
AI前沿

Emily Popson，CallRail 增长营销副总裁 – 访谈系列

Emily Popson 是CallRail的增长营销副总裁，负责领导需求生成、网站优化、客户营销和内容营销团队。Popson 自己之前也是一家小企业主，她热衷于让即使是最小的团…

点点
2024年10月17日
000
AI前沿

o1核心作者MIT演讲：激励AI自我学习，比试图教会AI每一项任务更重要

“o1发布后，一个新的范式产生了”。其中关键，OpenAI研究科学家、o1核心贡献者Hyung Won Chung，刚刚就此分享了他在MIT的一次演讲。演讲主题为“Don’t …

点点
2024年9月20日
000
AI前沿

法官允许加州禁止未成年人食用成瘾性食品的禁令生效

周二晚些时候，一名联邦法官阻止了科技游说团体 NetChoice 对加州最近颁布的法律SB 976的挑战，该法律禁止公司向未成年人提供“上瘾内容”。该决定的效果是，从周三开始，除…

王浩然
2025年1月2日
000
AI前沿

大英百科全书现在是一家人工智能公司

《大英百科全书》曾是20世纪的标志，但在21世纪却被视为过时，如今，它正全力投入人工智能领域，据《纽约时报》报道，它可能很快以近 10 亿美元的估值上市。直到 2012 年印刷业…

王浩然
2024年12月25日
000
AI前沿

联发科新天玑1000旗舰移动芯片上的“Agentic”AI到底是什么？

每个芯片制造商都在 AI 领域孤注一掷，但联发科的 Dimensity 9400 SoC 却推动了“代理”AI 的概念，即能够为您控制手机的 AI。总部位于中国的芯片制造商联发科…

王浩然
2024年10月10日
000
AI前沿

Qodo 融资 4000 万美元，用于增强 AI 驱动的代码完整性和开发人员效率

Qodo （前身为 CodiumAI）最近在由Susa Ventures和Square Peg领投的 A 轮融资中获得了 4000 万美元， Firestreak Ventures…

点点
2024年10月1日
000
AI前沿

Decart 的 AI 模拟了 Minecraft 的实时可玩版本

Decart是一家以色列人工智能公司，今天正式亮相，获得了红杉资本和 Oren Zeev 的 2100 万美元融资，该公司发布了据称是首款可玩的“开放世界”人工智能模型。该模型名…

王浩然
2024年11月2日
000
AI前沿

Agentic AI 如何改变企业——来自 Forum Ventures 报告的见解

Forum Ventures是一家早期的 B2B SaaS 基金、加速器和 AI 创业工作室，今天宣布发布其最新的综合报告“ 2024：企业中代理 AI 的崛起”。该报告详细分析了…

点点
2024年10月11日
000
AI前沿

Demed L’Her，DigitalRoute 首席技术官 – 访谈系列

Demed L’Her担任 DigitalRoute 的首席技术官，是一名软件高管，在企业软件战略方面拥有丰富的经验。他不仅拥有深厚的学术背景，而且在领导和技术方面也采…

点点
2024年10月12日
000

发表回复

Please Login to Comment

Anthropic 的新 AI 模型可以控制你的电脑

自动化应用程序

冒险的生意

更便宜的型号

相关推荐

发表回复

Share To :