单靠推理Scaling Law无法成就o1，无限推理token，GPT-4o依然完败

点点 • 2024年9月29日下午8:00 • AI前沿 • 163 views

【导读】o1的秘诀，和全新的「推理Scaling Law」关系有多大？Epoch AI最近的对比实验表明，算法创新才是关键。

CoT铸就了o1推理王者。

它开创了一种推理scaling新范式——随着算力增加、更长响应时间，o1性能也随之增长。

这一点，为AI scaling开辟了新的可能性。

既然如此，若是将o1这一训练过程直接应用到所有LLM中，岂不皆是「推理王者」。

然而，研究机构Epoch AI发现，结果并不是这样的。

单纯的扩展推理计算，根本不能弥合o1-preview和GPT-4o之间的差距。

他们称，「虽然o1使用了逐步推理方法训练，但其性能改进，可能还存在其他的因素」。

o1的秘诀是什么？

上周，在o1-preview和o1-mini发布之后，Epoch AI研究人员开启了GPT-4o和o1-preview对比实验。

他们选择了一个具有挑战性的基准测试GPQA进行评估，其中包含STEM领域研究生级别的多项选择题，而且考虑到模型的随机性进行了多次运行。

结果发现o1-preview的性能远远好于GPT-4o，比Claude 3.5 Sonnet、Llama3.1 405B也拉开了相当大的差距。

这个结果也和OpenAI自己放出的测试结果相吻合，尤其是在AIME和Codeforces这类难度更高的基准上，o1-preview相比GPT-4o的提升更加明显。

然而，考虑到o1模型相比GPT-4o使用了更多的推理时计算，而且每个问题生成的token也更多，这种比较显得不太公平。

因此，研究人员使用了两种方法尝试增加GPT-4o的输出token，类似于让GPT-4o模仿o1的思考过程。

– 多数投票（majority voting）：选择k个推理轨迹中最常见的答案

– 修正（revision）：给模型n次反思和改进答案的机会

值得注意的是，这些都是相对简单的方法。其实存在更复杂、有效的方法来利用推理时间计算，比如让过程奖励模型作为验证器参与搜索。

o1模型很可能使用了更复杂的方法，但Epoch研究人员只是想建立一个比较基线，因此选择了较为基础的方法。

结果显示，虽然这两种方法都生成了更多的token，并提高了GPT-4o的准确性，但依旧无法匹敌o1-preview的性能。

GPT-4o变体的准确率仍然显著低于o1-preview，差距始终大于10个百分点。

与o1-preview相比，输出token数量对GPT-4o在GPQA上性能的影响

即使考虑到o1-preview每个输出token的成本更高，这种性能差距仍然存在。

Epoch AI团队的推算结果表明，即使在GPT-4o上花费1000美元用于输出token，准确率仍将比o1-preview低10多个百分点。

对GPT-4o mini进行相同操作后也能得到类似的结果，但在进行模型修正后，结果存在一些差异。

随着修正次数的增加，模型准确性不会持续提升，反而会在到达一定阈值后开始下降。这可能是由于GPT-4o mini在长上下文推理方面的局限。

从以上结果可以看出，仅仅扩大推理处理能力并不足以解释o1的卓越性能。

研究作者认为，先进的强化学习技术和改进的搜索方法可能发挥了关键作用，凸显了在Scaling Law之外，算法创新对AI发展的重要性。

但是，我们也并不能确定算法改进是o1-preview优于GPT-4o的唯一因素，更高质量的训练数据也可能导致性能差异。

推理很强的o1，差在规划能力

虽然GPQA或AIME这类问题相当困难，但一般只会考察模型的在STEM领域的知识储备和推理能力。那么强如o1，它的规划能力如何？

2022年，亚利桑那州大学的学者们曾经提出过一个用于评测LLM规划能力的基准套件PlanBench，包括了来自Blocksworld领域的600个任务，要求将一定数量的积木按照指定顺序堆叠起来。

在MMLU、GSM8K等传统基准相继饱和时，两年前提出的PlanBench依旧没有饱和，可见当今的LLM在规划能力方面依旧有很大的提升空间。

o1之前的模型中，PlanBench准确率很少超过50%

最近，提出PlanBench团队又测试了一下最新的o1-preview模型，发现虽然o1的结果已经表现出了实质性改进，但仍然存在很大的局限性，不能完全解决规划任务。

论文地址：https://arxiv.org/abs/2409.13373

在Blocksworld任务上，o1实现了97.8%的准确率，远远优于LLaMA 3.1 405B之前达到的最好成绩62.6%。

在更具挑战性的任务版本Mystery Blocksworld上，之前的LLM几乎完全失败，而o1达到了52.8%的准确率。

此外，为了排除o1的性能提升源于训练数据中包含基准测试，研究人员还创建了Mystery Blocksworld的随机变体进行测试（表2中的Randomized Mystery Blocksworld）。

o1在随机变体测试集上的成绩从52.8%下降至37.3%，但依旧超过得分接近于0的之前其他模型。

虽然o1和o1-mini都取得了不错的成绩，但性能并不稳健。随着任务逐渐复杂、计划步骤增加，性能会出现直线下降。

在这组含有110个实例的较大Blocksworld数据集上，每个问题都需要20～40个步骤的最佳计划，而o1的准确率从之前报告的97.8%直接下降至23.6%，而且这些准确率大部分都来自步骤少于28的问题。

相比准确性更高、成本更低的传统方法，如经典规划器Fast Downward或LLM-Modulo系统，o1这样的大型推理模型（LRM）非常缺乏正确性保证，而且使得可解释性几乎不可能，因此很难在实际应用中部署。

o1虽强，但绝不是万能的。OpenAI想要真正实现AGI，还需要走很长一段路。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/dan-kao-tui-li-scaling-law-wu-fa-cheng-jiu-o1-wu-xian-tui

AGI AI GPT LRM o1 OpenAI

Like (0)

点点

0 0

AUDEZE总部处于自己的联盟中——就像它的耳机一样

Previous 2024年9月29日下午7:00

神秘「蓝莓」登顶文生图竞技场，疑似Flux.1续作，网友：都来免费打广告了

Next 2024年9月29日下午9:00

AI前沿

人工智能训练研究货币化：风险与最佳实践

随着对生成式人工智能的需求不断增长，对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已经开始将其研究内容货币化，为大型语言模型 (LLM) 提供训练数据。虽然这一发展为…

王浩然
2024年12月26日
000
AI前沿

OpenAI 推出其谷歌挑战者 ChatGPT Search

OpenAI 的谷歌挑战者终于来了。该公司周四推出了ChatGPT Search，这是今年夏天推出的 SearchGPT 原型的升级版。OpenAI 表示，ChatGPT Sea…

王浩然
2024年11月2日
000
AI前沿

Riffusion 的免费 AI 音乐平台可能成为未来的 Spotify

总部位于旧金山的人工智能初创公司Riffusion今天推出了一个免费的网络平台，任何人都可以使用人工智能创作原创音乐，这标志着生成人工智能在传统上由人类艺术家主导的创意领域的扩展取…

王浩然
2025年1月31日
000
AI前沿

OpenAI 推出 GPT-4o 微调

OpenAI宣布推出 GPT-4o 模型的微调功能，这是开发人员热切期待的一项功能。为了让交易更具吸引力，OpenAI 将在 9 月 23 日之前每天为每个组织提供一百万个免费训练…

AI News
2024年8月27日
000
AI前沿

Spotify携手Eleven Labs，拓展AI有声读物库

近日，全球领先的流媒体音乐服务平台Spotify宣布与Eleven Labs达成合作，旨在进一步扩大其AI有声读物库的规模。此次合作标志着Spotify在音频内容领域的又一重要布局…

王浩然
2025年2月24日
000
AI前沿

Liquid AI 的新 STAR 模型架构比 Transformer 效率更高

随着有关顶级人工智能公司在开发更新、更强大的大型语言模型 (LLM) 方面面临困难的谣言和报道不断流传，人们的注意力越来越多地转向“Transformer”的替代架构——这是支撑当…

王浩然
2024年12月3日
000
AI前沿

IBM 希望凭借其新的开源 Granite 3.1 模型成为企业 LLM 之王

IBM 今天发布了新的 Granite 3.1 系列，从而巩固了其在开源 AI 排行榜上的领先地位。 Granite 3.1大型语言模型(LLM) 为企业用户提供了 128K 标记…

王浩然
2024年12月22日
000
AI前沿

Nvidia 发布了可分析视频的 AI 代理蓝图

今天，作为首席执行官黄仁勋 (Jensen Huang)在CES 2025开幕主题演讲的一部分， Nvidia推出了可分析视频的 AI 代理蓝图。由 Metropolis 提供支…

王浩然
2025年1月8日
000
AI前沿

Anthropic 首席执行官发表 15,000 字赞颂人工智能，充满技术乐观主义

Anthropic 首席执行官 Dario Amodei 希望你知道，他并不是人工智能“末日论者”。至少，这是我对 Amodei 上周五晚间在其博客上发表的一篇约 15,000 …

点点
2024年10月13日
000
AI前沿

Meta 将你自 2007 年以来发布的几乎所有内容都输入到人工智能中

Meta 承认，自 2007 年以来，Facebook 和 Instagram 成年用户公开发布的所有文本和照片均已被输入其人工智能模型。澳大利亚 ABC 新闻报道称，Meta 的…

王浩然
2024年9月14日
000
AI前沿

从 o1 到 o3：OpenAI 如何重新定义人工智能中的复杂推理

生成式人工智能重新定义了我们对人工智能能力的认知。它最初只是一种用于完成简单重复性任务的工具，现在正在解决我们面临的一些最具挑战性的问题。OpenAI 在这一转变中发挥了重要作用，…

王浩然
2024年12月27日
000
AI前沿

2024 年无法实现的人工智能智能手机

过去一年，我报道了美国每款主要手机的发布，每款手机都在大声宣告同一件事：人工智能已经到来，我们的手机就是你们期待已久的人工智能手机。每款手机都赢得了热烈掌声和利好消息。但当我拿到这…

王浩然
2024年12月28日
000
AI前沿

Salesforce豪掷10亿美元投资新加坡，力推AI技术普及‌

在科技日新月异的今天，人工智能（AI）已经成为推动各行各业发展的重要力量。近日，全球领先的客户关系管理软件提供商Salesforce宣布了一项重大投资决策——将在新加坡投入高达10…

王浩然
2025年3月13日
000
AI前沿

Encord CEO Eric Landau访谈：AI如何颠覆行业？

Eric Landau 是Encord的首席执行官兼联合创始人，Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员，将数千…

点点
2024年9月11日
000
AI前沿

2025 年的生成式人工智能：生产力、网络安全和创造力

全面审视 2025 年生成式人工智能将如何发展并走向成熟生成式人工智能在 2024 年达到了新的水平，并将在 2025 年继续保持这种势头。 AI Business 收集了各行各…

王浩然
2025年1月4日
000
AI前沿

谷歌云安全主管警告：网络防御必须不断发展以应对人工智能滥用

虽然许多现有的风险和控制可以应用于生成人工智能，但这项突破性的技术也有许多细微差别，需要新的策略。模型容易产生幻觉或产生不准确的内容。其他风险包括通过模型输出泄露敏感数据、模型…

王浩然
2024年11月3日
000
AI前沿

Mistral 推出免费套餐，供开发人员测试其 AI 模型

Mistral AI 周二在一篇博文中宣布，该公司推出了一项新的免费套餐，让开发人员可以使用该初创公司的 AI 模型进行微调和构建测试应用程序。该公司还大幅降低了开发人员通过 AP…

王浩然
2024年9月19日
000
AI前沿

Twins首推AI智能体：专为Qonto客户打造的发票检索助手

在数字化转型的浪潮中，金融科技领域正经历着前所未有的变革。近日，创新企业Twins宣布推出其首款AI智能体——专为Qonto客户设计的发票检索助手。这一举措不仅标志着AI技术在财务…

王浩然
2025年3月28日
000
AI前沿

Wonder Dynamics 现在可让您直接从多摄像机视频转为完全动画的 3D 场景

Wonder Dynamics 在人工智能增强视觉效果领域取得了重大进展，为动画师和电影制作人提供了实用的工具，并迅速被 Autodesk 收购。他们的最新工具进一步自动化了动画过…

王浩然
2024年10月31日
000
AI前沿

不只是炒菜，AI正在全面渗透餐饮

AI推动餐饮行业智能化革命，机器人正取代厨师、制茶师、咖啡师。 9月13日，北京市发出首张“具身智能机器人食品经营许可证”。所谓具身智能机器人，指将人工智能融入机器人这个物理实体…

点点
2024年9月21日
000