超越ARC-AGI:GAIA与寻找真正的智能基准

超越ARC-AGI:GAIA与寻找真正的智能基准

智能无处不在,但其衡量标准却显得颇为主观。最佳情况下,我们只能通过测试和基准来近似评估智能水平。想象一下高考:每年都有无数学生报名参加,死记硬背考试技巧,有时甚至能获得满分。那么,一个百分之百的分数,是否意味着获得满分的学生具有相同的智能水平,或者他们已经将智能发挥到了极致?当然不是。基准只是对个人或事物真实能力的一种近似评估,而非精确测量。

生成式AI领域长期以来一直依赖诸如MMLU(大规模多任务语言理解)之类的基准来评估模型能力,这些基准通过跨学科的多选题来进行。这种形式使得比较变得简单明了,但却未能真正捕捉到智能能力。例如,Claude 3.5 Sonnet和GPT-4.5在MMLU基准上获得了相似的分数。从纸面上看,这似乎表明它们具有相当的能力。然而,使用过这些模型的人都知道,它们在现实世界中的表现存在显著差异。

随着ARC-AGI基准测试(旨在推动模型向一般推理和创造性问题解决方向发展)的发布,关于如何衡量AI中的“智能”再次引发了广泛讨论。尽管并非所有人都测试过ARC-AGI基准,但该行业欢迎这一基准以及其他旨在改进测试框架的努力。每个基准都有其价值,而ARC-AGI正是这场广泛讨论中一个颇有希望的进展。

AI评估领域的另一个显著近期进展是“人类的最后考试”,这是一个包含3000个经过同行评审的多步骤问题的综合性基准,涵盖各个学科。尽管这项测试代表了挑战AI系统达到专家级推理水平的雄心勃勃的尝试,但初步结果显示出进展迅速——据报道,OpenAI在发布后一个月内就获得了26.6%的分数。然而,与其他传统基准一样,它主要评估孤立的知识和推理能力,而没有测试对于现实世界AI应用日益重要的实践能力和工具使用能力

例如,多个最先进的模型无法正确计算出“strawberry”这个词中“r”的个数。在另一个例子中,它们错误地认为3.8小于3.1111。这些类型的失败——即使是年轻儿童或基本计算器都能完成的任务——暴露了基准驱动进展与现实世界稳健性之间的不匹配,提醒我们智能不仅仅是考试及格,而是可靠地应对日常逻辑。

随着模型的进步,这些传统基准的局限性日益显现。例如,尽管GPT-4在多项选择题测试中表现出色,但在GAIA基准上针对更复杂、现实世界任务的表现仅约为15%。随着AI系统从研究环境进入商业应用,基准性能与实际能力之间的这种脱节变得越来越成问题。传统基准测试知识回忆,却忽略了智能的关键方面:收集信息、执行代码、分析数据和跨多个领域综合解决方案的能力。

GAIA是AI评估方法所需的转变。该基准由Meta-FAIR、Meta-GenAI、HuggingFace和AutoGPT团队合作创建,包含466个精心设计的问题,分为三个难度级别。这些问题测试了网页浏览、多模态理解、代码执行、文件处理和复杂推理能力——这些是现实世界AI应用不可或缺的能力。一级问题大约需要5个步骤和一个工具供人类解决。二级问题需要5到10个步骤和多个工具,而三级问题可能需要多达50个离散步骤和任意数量的工具。这种结构反映了商业问题的实际复杂性,其中解决方案很少来自单个动作或工具。

通过优先考虑灵活性而非复杂性,一个AI模型在GAIA上达到了75%的准确率,表现优于行业巨头微软的Magnetic-1(38%)和谷歌的Langfun Agent(49%)。他们的成功得益于使用用于音频-视觉理解和推理的专用模型组合,其中以Anthropic的Sonnet 3.5为主要模型。AI评估的这一演变反映了行业的更广泛转变:我们正从独立的SaaS应用程序转向能够协调多个工具和工作流程的AI代理。随着企业越来越多地依赖AI系统来处理复杂、多步骤的任务,像GAIA这样的基准比传统的多选题测试提供了更有意义的能力衡量标准。

AI评估的未来不在于孤立的知识测试,而在于综合评估问题解决能力。GAIA为衡量AI能力设定了一个新的标准,更好地反映了现实世界AI部署的挑战和机遇。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chao-yue-arcagi-gaia-yu-xun-zhao-zhen-zheng-de-zhi-neng-ji

Like (0)
王 浩然的头像王 浩然作者
Previous 6天前
Next 5天前

相关推荐

发表回复

Please Login to Comment