超越ARC-AGI：GAIA与寻找真正的智能基准

王浩然 • 5天前 • AI前沿 • 32 views

智能无处不在，但其衡量标准却显得颇为主观。最佳情况下，我们只能通过测试和基准来近似评估智能水平。想象一下高考：每年都有无数学生报名参加，死记硬背考试技巧，有时甚至能获得满分。那么，一个百分之百的分数，是否意味着获得满分的学生具有相同的智能水平，或者他们已经将智能发挥到了极致？当然不是。基准只是对个人或事物真实能力的一种近似评估，而非精确测量。

生成式AI领域长期以来一直依赖诸如MMLU（大规模多任务语言理解）之类的基准来评估模型能力，这些基准通过跨学科的多选题来进行。这种形式使得比较变得简单明了，但却未能真正捕捉到智能能力。例如，Claude 3.5 Sonnet和GPT-4.5在MMLU基准上获得了相似的分数。从纸面上看，这似乎表明它们具有相当的能力。然而，使用过这些模型的人都知道，它们在现实世界中的表现存在显著差异。

随着ARC-AGI基准测试（旨在推动模型向一般推理和创造性问题解决方向发展）的发布，关于如何衡量AI中的“智能”再次引发了广泛讨论。尽管并非所有人都测试过ARC-AGI基准，但该行业欢迎这一基准以及其他旨在改进测试框架的努力。每个基准都有其价值，而ARC-AGI正是这场广泛讨论中一个颇有希望的进展。

AI评估领域的另一个显著近期进展是“人类的最后考试”，这是一个包含3000个经过同行评审的多步骤问题的综合性基准，涵盖各个学科。尽管这项测试代表了挑战AI系统达到专家级推理水平的雄心勃勃的尝试，但初步结果显示出进展迅速——据报道，OpenAI在发布后一个月内就获得了26.6%的分数。然而，与其他传统基准一样，它主要评估孤立的知识和推理能力，而没有测试对于现实世界AI应用日益重要的实践能力和工具使用能力。

例如，多个最先进的模型无法正确计算出“strawberry”这个词中“r”的个数。在另一个例子中，它们错误地认为3.8小于3.1111。这些类型的失败——即使是年轻儿童或基本计算器都能完成的任务——暴露了基准驱动进展与现实世界稳健性之间的不匹配，提醒我们智能不仅仅是考试及格，而是可靠地应对日常逻辑。

随着模型的进步，这些传统基准的局限性日益显现。例如，尽管GPT-4在多项选择题测试中表现出色，但在GAIA基准上针对更复杂、现实世界任务的表现仅约为15%。随着AI系统从研究环境进入商业应用，基准性能与实际能力之间的这种脱节变得越来越成问题。传统基准测试知识回忆，却忽略了智能的关键方面：收集信息、执行代码、分析数据和跨多个领域综合解决方案的能力。

GAIA是AI评估方法所需的转变。该基准由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建，包含466个精心设计的问题，分为三个难度级别。这些问题测试了网页浏览、多模态理解、代码执行、文件处理和复杂推理能力——这些是现实世界AI应用不可或缺的能力。一级问题大约需要5个步骤和一个工具供人类解决。二级问题需要5到10个步骤和多个工具，而三级问题可能需要多达50个离散步骤和任意数量的工具。这种结构反映了商业问题的实际复杂性，其中解决方案很少来自单个动作或工具。

通过优先考虑灵活性而非复杂性，一个AI模型在GAIA上达到了75%的准确率，表现优于行业巨头微软的Magnetic-1（38%）和谷歌的Langfun Agent（49%）。他们的成功得益于使用用于音频-视觉理解和推理的专用模型组合，其中以Anthropic的Sonnet 3.5为主要模型。AI评估的这一演变反映了行业的更广泛转变：我们正从独立的SaaS应用程序转向能够协调多个工具和工作流程的AI代理。随着企业越来越多地依赖AI系统来处理复杂、多步骤的任务，像GAIA这样的基准比传统的多选题测试提供了更有意义的能力衡量标准。

AI评估的未来不在于孤立的知识测试，而在于综合评估问题解决能力。GAIA为衡量AI能力设定了一个新的标准，更好地反映了现实世界AI部署的挑战和机遇。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chao-yue-arcagi-gaia-yu-xun-zhao-zhen-zheng-de-zhi-neng-ji

Like (0)

王浩然作者

0 0

并非越大越好：探讨数百万令牌大型语言模型的商业案例

Previous 6天前

XAI与X合并：押注马斯克帝国的明智之举

Next 5天前

AI前沿

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

亚马逊网络服务 (AWS) 正在将其Amazon Q Developer AI 助手作为附加组件提供，开发人员可以在其集成开发环境 (IDE)（例如 Visual Studio C…

王浩然
2024年11月1日
000
AI前沿

OpenAI 推出 GPT-4o 微调

OpenAI宣布推出 GPT-4o 模型的微调功能，这是开发人员热切期待的一项功能。为了让交易更具吸引力，OpenAI 将在 9 月 23 日之前每天为每个组织提供一百万个免费训练…

AI News
2024年8月27日
000
AI前沿

人工智能生成的内容如何增加维基百科编辑的工作量

随着 OpenAI 的 GPT 等大型语言模型 (LLM) 的兴起，人工智能生成的垃圾内容占据了越来越多的用户生成的互联网领域，请为维基百科编辑们着想。除了他们通常的工作，即清除糟…

王浩然
2024年10月12日
000
AI前沿

人工智能在质量保证领域的未来

传统的质量保证 (QA) 流程长期以来依赖于手动测试和预定义的测试用例。虽然这些方法在过去很有效，但它们通常很慢、容易出现人为错误，并导致开发延迟和成本膨胀。毫不奇怪，Gartne…

点点
2024年10月1日
000
AI前沿

利用 RAG 弥补人工智能领域的知识空白：提高性能的技术和策略

人工智能 (AI)彻底改变了我们与技术的互动方式，催生了虚拟助手、聊天机器人和其他能够处理复杂任务的自动化系统。尽管取得了这些进展，但即使是最先进的人工智能系统也面临着重大限制，即…

点点
2024年10月17日
000
AI前沿

谷歌删除了具有误导性的 Gemini 视频

谷歌已将去年 12 月发布的一段令人印象深刻的 Gemini 演示视频撤下，该视频似乎具有极强的对话性。广告行业监督机构 BBB 国家计划的国家广告部门 (NAD)询问该视频是否“…

王浩然
2024年9月14日
000
AI前沿

Hugging Face 的 SmolVLM 可以大幅降低企业的 AI 成本

Hugging Face 刚刚发布了SmolVLM，这是一种紧凑型视觉语言 AI 模型，可能会改变企业在运营过程中使用人工智能的方式。新模型以惊人的效率处理图像和文本，而所需的…

王浩然
2024年11月28日
000
AI前沿

苹果对iPhone的80%充电限制：一年后，它帮了多大忙？

随着去年推出的iPhone 15机型，苹果增加了一个选择加入的电池设置，将最大电量限制在80%。这个想法是，永远不要将iPhone充电超过80%会延长电池的寿命，所以从2023年9…

free
2024年9月26日
000
AI前沿

亚马逊据传成立全新自主智能AI团队‌

近期，有消息称全球电商巨头亚马逊正悄然布局人工智能领域，秘密组建了一个专注于自主智能技术的新团队。这一举动标志着亚马逊在AI赛道上的又一次重要发力，旨在通过技术创新推动公司业务的多…

王浩然
2025年3月6日
000
AI前沿

谷歌发布全新推理模型Gemini 2.0 Flash Thinking 与OpenAI o1竞争

谷歌在重新定义人工智能领域的最新举措中，宣布推出 Gemini 2.0 Flash Thinking，这是一种多模式推理模型，能够快速、透明地解决复杂问题。谷歌首席执行官 Sun…

王浩然
2024年12月20日
000
AI前沿

谷歌依然限制Gemini回答政治问题的范围‌

在信息技术日新月异的今天，搜索引擎作为人们获取信息的重要渠道，其运作方式及内容呈现备受瞩目。近日，据相关报道，谷歌在对待政治问题的搜索回答上，依旧保持着谨慎的态度，对Gemini—…

王浩然
2025年3月5日
000
AI前沿

如何将 OpenAI 的 ChatGPT 高级语音模式映射到 iPhone 操作按钮

我必须坦白：尽管我职业生涯的大部分时间都是一名科技记者，并且一直热衷于接受或至少测试最新、最伟大的个人技术，但我从未发现语音助手对我来说是有用的。部分原因在于这项技术迄今为止确实…

王浩然
2025年1月4日
000
AI前沿

生成式 3D 平台获资助，瞄准重工业

生成式 3D 数据平台 Bifrost AI 在由 Carbide Ventures 领投、Airbus Ventures 参投的 A 轮融资中获得了 800 万美元。 …

王浩然
2024年11月11日
000
AI前沿

Salesforce 推出 Agentforce 测试中心，让座席人员接受测试

代理人工智能的下一阶段可能只是评估和监控，因为企业希望让他们开始部署的代理更具可观察性。虽然AI 代理基准可能会产生误导，但了解代理是否按其期望的方式工作却具有很大的价值。为此，…

王浩然
2024年11月26日
000
AI前沿

通过模块化人工智能打造数字化劳动力

工作平台Monday.com的AI发展历程、战略及技术特点，展现其如何借助AI提升竞争力并推动企业软件开发模式的演进，具体内容如下： 1. **发展背景**：Monday.com致…

王浩然
2025年2月11日
000
AI前沿

网络安全专家需要更安全、更专业的 GenAI 工具

CrowdStrike委托对全球 1,022 名网络安全专业人士进行了一项调查，以评估他们对生成式人工智能 (GenAI) 的采用及其影响的看法。研究结果显示，人们对 GenAI…

王浩然
2024年12月24日
000
AI前沿

Apple Intelligence：其最大功能以及何时可以期待它们

苹果的iPhone 16 已经上市，但该公司尚未向所有消费者提供其 iOS 18 Apple Intelligence 功能。7 月，苹果向iOS 18 开发者测试版用户推出了这些…

王浩然
2024年9月21日
000
AI前沿

赢得对抗性人工智能的战争需要从人工智能原生 SOC 开始

由于警报疲劳、高流动率和工具过时，日益复杂的多域攻击不断涌现，安全领导者正在拥抱人工智能原生的安全运营中心 (SOC) 作为防御的未来。今年，攻击者利用了仅为外围防御而设计的传统…

王浩然
2025年1月19日
000
AI前沿

OpenAI 推出其谷歌挑战者 ChatGPT Search

OpenAI 的谷歌挑战者终于来了。该公司周四推出了ChatGPT Search，这是今年夏天推出的 SearchGPT 原型的升级版。OpenAI 表示，ChatGPT Sea…

王浩然
2024年11月2日
000
AI前沿

ChatGPT 获得屏幕共享和实时视频分析功能，可与 Gemini 2 相媲美

OpenAI终于在其先进的语音模式中添加了期待已久的视频和屏幕共享功能，允许用户以不同的方式与聊天机器人进行交互。目前，ChatGPT Teams、Plus 和 Pro 用户的。…

王浩然
2024年12月13日
000

发表回复

Please Login to Comment

超越ARC-AGI：GAIA与寻找真正的智能基准

相关推荐

发表回复

Share To :