Anthropic 的全新 Claude 模型弥补了 AI 能力与实用性之间的差距

点点 • 2024年11月5日上午9:00 • AI前沿 • 101 views

Anthropic 最近公布了其 Claude AI 模型系列的重大更新。公告推出了增强版 Claude 3.5 Sonnet，并首次推出了全新 Claude 3.5 Haiku 模型，标志着性能和成本效率均取得了重大进步。

此次发布代表了人工智能领域的一项战略进步，尤其值得注意的是其在编程能力和逻辑推理方面的改进。尽管整个行业的公司都在继续突破人工智能开发的界限，但 Anthropic 的最新版本却脱颖而出。

性能突破

增强型模型在多个基准测试中表现出显著的改进，其中新的 Haiku 模型取得了特别值得注意的成绩。在编程任务中，更新后的 Sonnet 模型在 SWE Bench Verified Test 上的性能提高到 49.0%，为包括专业编程系统在内的公开可用模型树立了新标准。

成本效率是这些发展的一个关键方面。新的 Haiku 型号提供的性能可与之前的旗舰产品 Claude 3 Opus 相媲美，同时保持了显著降低的运营成本。定价为每百万输入令牌 1 美元，每百万输出令牌 5 美元，组织可以通过快速缓存和批处理等功能优化其 AI 实施。

基准测试的改进不仅限于编程能力。这些模型在一般语言理解和逻辑推理等领域表现出了增强的性能。在评估工具使用能力的 TAU Bench 上，Sonnet 在不同领域表现出了显著的改进，包括在零售应用中从 62.6% 显著增加到 69.2%。

这些进步表明人工智能开发模式正在发生转变，高性能不再必然意味着高昂的成本。先进人工智能功能的普及可能会对寻求实施人工智能解决方案的企业和开发者产生深远影响。

来源：Anthropic

计算机交互

该公司没有开发狭隘的、针对特定任务的工具，而是采取了更广泛的方法，为 Claude 配备通用的计算机技能。这项创新使人工智能模型能够与原本为人类用户设计的标准软件界面进行交互。

这项进步的基础是一个新的 API，它允许 Claude 直接感知和操纵计算机界面。该系统使人工智能能够通过虚拟键盘执行鼠标移动、元素选择和文本输入等操作。该技术代表着朝着更直观的人机协作迈出了一步，能够将自然语言指令转化为具体的计算机操作。

然而，目前的能力既有前景，也有局限性。虽然 Claude 3.5 Sonnet 在 OSWorld 基准的“仅截图”类别中获得了 14.9% 的分数——几乎是下一个最佳 AI 系统的两倍——但这一表现与人类能力相比仍有很大改进空间。人类本能执行的基本操作（例如滚动和缩放）对 AI 系统来说仍然具有挑战性。Claude | 使用计算机实现自动化操作

市场影响及应用

这些发展对商业的影响涉及多个领域。组织现在可以以更易于管理的成本获得先进的人工智能功能，从而有可能加速人工智能在各个行业的采用。改进的编程能力尤其有利于软件开发团队，而增强的语言理解能力则为客户服务和内容生成应用程序带来了优势。

在行业定位方面，Anthropic 的方法以注重实用性和成本效益而脱颖而出。改进的性能指标和合理的运营成本相结合，使这些模型成为大型企业和探索 AI 实施的小型组织的可行解决方案。

实际应用涵盖各种用例：

软件开发：增强的代码生成和调试功能
客户服务：更复杂的聊天机器人交互
数据分析：改进复杂数据解释的逻辑推理
业务流程自动化：直接操作计算机界面执行日常任务

这些高级功能的可用性，尤其是通过 Amazon Bedrock 和 Google Cloud 的 Vertex AI 等主要云平台，简化了已使用这些服务的组织的集成。这种广泛的可用性，加上灵活的定价模式，表明企业采用 AI 可能会加速。

展望未来

这些增强模型的发布不仅仅代表了人工智能技术的渐进式改进。它预示着未来人工智能系统可以更自然地与现有的计算机系统和工作流程集成。尽管目前存在局限性，特别是在类人计算机交互方面，但已经为继续在这个方向上取得进步奠定了基础。

Anthropic 谨慎地实施，建议开发人员从低风险任务开始，表明他们了解该技术的潜力和当前的限制。这种慎重的态度，加上透明的绩效指标，有助于为组织采用设定切合实际的期望。

发展路线图意义重大。随着 Haiku 模型的知识截止日期延长至 2024 年 7 月，我们看到了向更现代、更相关的 AI 系统发展的趋势。这一进展表明，未来的迭代可能会进一步缩小 AI 知识库与实时信息需求之间的差距。

未来发展的关键考虑因素包括：

不断完善计算机交互能力
进一步优化性价比
增强与现有业务系统的集成
扩展新领域和用例的应用

底线

Anthropic 的最新版本标志着 AI 技术发展的一个重要里程碑，在先进功能和实际实施考虑之间取得了关键平衡。虽然实现类似人类的计算机交互仍面临挑战，但改进的性能指标、创新功能和可访问的定价模型的结合为跨行业的变革性应用奠定了基础，有可能重塑组织在日常运营中实施 AI 的方式。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/anthropic-de-quan-xin-claude-mo-xing-mi-bu-le-ai-neng-li-yu

Like (0)

点点

0 0

量子计算机助力生成式人工智能

Previous 2024年11月5日

人工智能如何塑造民主对话的未来

Next 2024年11月5日

AI前沿

Apple推出优先通知功能，苹果智能服务拓展至欧盟‌

在科技创新的浪潮中，Apple始终以其前瞻性的视野和卓越的技术实力引领行业发展。近日，Apple宣布了一项重要更新——在欧盟地区推出优先通知功能，作为其智能服务扩展的一部分。这一举…

王浩然
6天前
000
AI前沿

因卡马拉·哈里斯深度伪造案，法官阻止加州实施新 AI 法

周三，一名联邦法官阻止了加州一项新的人工智能法律的通过，而该法律刚由州长加文·纽森签署，不到两周。签署 AB 2839 后不久，纽森表示，该法律可能被用来迫使埃隆·马斯克删除他转发…

王浩然
2024年10月4日
000
AI前沿

Zenlytic 获得 900 万美元融资，与 AI 数据分析师 Zoë 共同革新商业智能

Zenlytic是人工智能商业智能(BI) 领域的先驱，已成功筹集 900 万美元 A 轮融资，由M13领投，贝恩资本风险投资公司 ( Bain Capital Ventures …

点点
2024年9月27日
000
AI前沿

为什么情境感知型人工智能代理将在 2025 年赋予我们超能力

2025 年将是大型科技公司从向我们出售越来越强大的工具转变为向我们出售越来越强大的能力的一年。工具和能力之间的区别微妙而深刻。我们将工具用作帮助我们克服有机限制的外部物品。从汽车…

王浩然
2025年1月6日
000
AI前沿

Anthropic的低调企业政变：Claude 3.7如何成为首选编码代理

引言在人工智能领域，一场静悄悄的革命正在发生。Anthropic，这家相对低调的人工智能公司，凭借其最新的Claude 3.7模型，正在编码代理市场上掀起波澜。Claude 3.…

王浩然
2025年3月19日
000
AI前沿

Narvar 如何利用人工智能和数据来增强客户购买后体验

当客户点击电子商务网站上的“购买”按钮后会发生什么？这是一个被称为售后环节的领域，它通常是零售商运营中最昂贵和影响最大的方面之一。售后活动包括确定交付、客户保留以及（如果需要）退…

王浩然
2025年1月10日
000
AI前沿

Mozilla回应新条款风波，重申不会利用用户数据进行AI开发

Mozilla近日就其新隐私条款引发的广泛争议做出了回应。此番风波源于Mozilla对隐私政策的调整，用户担忧其个人数据可能会被用于人工智能（AI）开发。Mozilla在回应中明确…

王浩然
2025年3月3日
000
AI前沿

Fable 获 2500 万美元融资，为辅助功能添加认知和听力障碍功能

Fable是一家知名的初创公司，致力于帮助公司打造更方便残障人士使用的数字产品。在筹集了 2500 万美元的新资金后，这家总部位于多伦多的初创公司正在扩大其支持的社区，并致力于让 …

王浩然
2024年10月17日
000
AI前沿

数据之道：Databricks如何革新AI大型语言模型的微调过程，摒弃数据标签依赖

在人工智能（AI）领域，大型语言模型（LLM）的性能优化长久以来依赖于高质量的数据标签。这些标签如同训练过程中的指南针，指引着模型理解并学习上下文信息。然而，随着企业纷纷踏上AI转…

王浩然
2025年3月31日
000
AI前沿

中国游戏开发商突破人工智能极限：从 NPC 到虚拟社会

随着生成式人工智能热潮的放缓，中国 AAA 级游戏《黑神话：悟空》重新引发了有关游戏行业如何利用人工智能的讨论。据 AWS 代表介绍，游戏领域长期以来一直是 AI 创新的试验场，…

王浩然
2024年9月16日
000
AI前沿

BBC 正在使用 AI 生成字幕

广受欢迎的BBC Sounds音频平台正在通过其网站和应用试用新的 AI 生成字幕，这些字幕可以与节目和完整文本一起播放。为期三个月的试用目前仅限于少数几档节目 – I…

王浩然
2024年9月2日
000
AI前沿

意想不到的后果：美国大选结果预示着人工智能将不计后果地发展

虽然 2024 年美国大选的焦点是经济和移民等传统问题，但它对人工智能政策的悄无声息的影响可能会更具变革性。没有一个关于人工智能的辩论问题或重大竞选承诺，选民们无意中将天平倾向加速…

王浩然
2024年12月23日
000
AI前沿

改变我们在董事会中对 GenAI 的看法：把握短期和长期投资回报率

随着世界各地的领导团队开始规划 2025 年，每个人都在思考一个问题：他们在人工智能和/或生成式人工智能 (GenAI) 上的投资何时能获得回报。Google Cloud 的最新研…

点点
2024年10月11日
000
AI前沿

我们的大脑是矢量数据库——这就是为什么它在使用人工智能时很有帮助

2014 年，谷歌的一项突破彻底改变了机器理解语言的方式：自我注意力模型。这项创新使人工智能能够将单词视为数学向量（捕捉思想之间关系的精确数字表示），从而掌握人类交流中的上下文和含…

王浩然
2024年11月20日
000
AI前沿

OpenAI 发布新模型，Sam Altman：耐心时刻结束了

北京时间凌晨一点，OpenAI 突然进行了重大更新。已经预热了接近一年的 Q*/草莓项目，传说中能够进行高级推理的大语言模型，今晚终于露出了真面目。 OpenAI 发推…

点点
2024年9月13日
000
AI前沿

微软的 Muse AI 可以在观察玩家游戏后设计视频游戏世界

微软研究人员已经实现了人工智能领域许多专家认为遥不可及的目标：教会人工智能像人类一样理解三维空间并与之互动。这一突破以Muse的形式出现，这是一种人工智能模型，可以理解和生成复杂的…

王浩然
2025年2月20日
000
AI前沿

AWS 失去了一位顶级人工智能高管

上周，AWS 失去了一位顶级 AI 高管。人工智能副总裁 Matt Wood宣布，他将在 AWS 任职 15 年后离职。Wood 长期参与亚马逊部门的人工智能计划；他于 2022…

点点
2024年10月19日
000
AI前沿

人工智能在质量保证领域的未来

传统的质量保证 (QA) 流程长期以来依赖于手动测试和预定义的测试用例。虽然这些方法在过去很有效，但它们通常很慢、容易出现人为错误，并导致开发延迟和成本膨胀。毫不奇怪，Gartne…

点点
2024年10月1日
000
AI前沿

亚马逊利用 Anthropic 的人工智能来改造 Alexa

亚马逊将通过与人工智能公司Anthropic建立战略合作伙伴关系来升级其 Alexa 语音助手。据路透社首次报道，亚马逊计划推出代号为“Remarkable”的新版 Alexa，它…

AI News
2024年9月1日
000
AI前沿

微软的新 AI 代理支持 1,800 种模型（并且还在不断增加）

人工智能代理是目前企业热议的话题。但是，企业领导者希望了解切实的成果和相关用例（而不是未来主义的、尚未实现的场景），并且需要易于部署和使用的工具，此外，还要支持他们首选的模型。 …

王浩然
2024年11月21日
000