Anthropic宣布升级其 AI 产品组合,包括增强型 Claude 3.5 Sonnet 模型和推出 Claude 3.5 Haiku,同时在公开测试版中推出“计算机控制”功能。
升级后的 Claude 3.5 Sonnet 在所有指标上都表现出了显著的改进,尤其是在编码能力方面取得了显著的进步。该模型在 SWE-bench Verified 基准测试中取得了令人印象深刻的 49.0% 的成绩,超越了所有公开可用的模型,包括 OpenAI 的产品和专业编码系统。
Anthropic 的开创性进展是引入了计算机使用功能,使 Claude 能够像人类一样与计算机交互:查看屏幕、控制光标、点击和打字。此功能目前处于公开测试阶段,标志着 Claude 3.5 Sonnet 成为第一个提供此类功能的前沿 AI 模型。
几家大型科技公司已经开始实施这些新功能。
GitLab 报告称:“升级后的 Claude 3.5 Sonnet 代表了人工智能编码的重大飞跃”,并指出在用例中推理能力提高了 10%,且没有额外的延迟。
新的 Claude 3.5 Haiku 型号将于本月晚些时候发布,其性能与之前的 Claude 3 Opus 相当,同时保持了成本效益和速度。它在 SWE-bench Verified 上取得了 40.6% 的成绩,优于许多竞争型号,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
关于计算机控制能力,Anthropic 采取了慎重的态度,承认当前的局限性,同时强调潜力。在评估计算机界面导航的 OSWorld 基准测试中,Claude 3.5 Sonnet 在仅屏幕截图测试中取得了 14.9% 的成绩,远远超过排名第二的系统的 7.8%。
这些开发成果经过了严格的安全评估,并与美国和英国的人工智能安全研究所合作进行了部署前测试。Anthropic 坚持认为,其负责任的扩展政策中详述的 ASL-2 标准仍然适用于这些模型。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/anthropic-tui-chu-quan-xin-claude-ai-mo-xing-he-ji-suan-ji