苹果研究揭露法学硕士“推理”能力严重缺陷

点点 • 2024年10月16日下午2:00 • AI前沿 • 112 views

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

一段时间以来，OpenAI 和谷歌等公司一直在吹捧高级“推理”能力，称其最新人工智能模型的下一个重大进步。然而，现在，六名苹果工程师的一项新研究表明，面对常见基准问题看似微不足道的变化，高级大型语言模型所展示的数学“推理”可能极其脆弱和不可靠。

这些新结果所强调的脆弱性有助于支持先前的研究，该研究表明，LLM 使用概率模式匹配缺乏对真正可靠的数学推理能力所需的基本概念的正式理解。“目前的 LLM 无法进行真正的逻辑推理，”研究人员根据这些结果推测。“相反，他们试图复制在训练数据中观察到的推理步骤。”

混合起来

在《GSM-Symbolic：理解大型语言模型中数学推理的局限性》（目前以预印本形式提供）中，六位 Apple 研究人员从GSM8K 的标准化集（包含 8,000 多个小学水平的数学应用题）开始，这通常被用作现代 LLM 复杂推理能力的基准。然后，他们采用新颖的方法修改该测试集的一部分，以动态地用新值替换某些名称和数字——因此，在 GSM8K 中，关于 Sophie 为侄子获得 31 个积木的问题可能会变成在新的 GSM-Symbolic 评估中，关于 Bill 为他的兄弟获得 19 个积木的问题。

这种方法有助于避免将静态 GSM8K 问题直接输入 AI 模型的训练数据中而导致的任何潜在“数据污染”。同时，这些偶然的变化根本不会改变固有数学推理的实际难度，这意味着从理论上讲，模型在 GSM-Symbolic 上测试时的表现应该与 GSM8K 上的表现一样好。

相反，当研究人员在 GSM-Symbolic 上测试了 20 多个最先进的 LLM 时，他们发现与 GSM8K 相比，平均准确率全面下降，性能下降幅度在 0.3% 到 9.2% 之间，具体取决于模型。结果还显示，在使用不同名称和值的 GSM-Symbolic 的 50 次单独运行中，差异很大。在单个模型中，最佳和最差运行之间的准确率差距高达 15% 是很常见的，而且出于某种原因，更改数字往往比更改名称更会导致更差的准确率。

这种差异——无论是在不同的 GSM-Symbolic 运行中还是与 GSM8K 结果相比——都令人惊讶，因为正如研究人员指出的那样，“解决问题所需的总体推理步骤保持不变。”如此小的变化导致如此多变的结果，这一事实向研究人员表明，这些模型没有进行任何“正式”推理，而是“试图执行一种分布模式匹配，将给定的问题和解决步骤与训练数据中看到的类似问题和解决步骤对齐。”

不要分心

不过，从总体来看，GSM-Symbolic 测试显示的整体差异通常相对较小。例如，OpenAI 的 ChatGPT-4o 从 GSM8K 上的 95.2% 准确率下降到 GSM-Symbolic 上的仍然令人印象深刻的 94.9%。无论模型本身是否在幕后使用“正式”推理，这都是使用任一基准的相当高的成功率（尽管当研究人员在问题中添加一两个额外的逻辑步骤时，许多模型的总准确率急剧下降）。

然而，当苹果研究人员修改了 GSM-Symbolic 基准，在问题中添加了“看似相关但最终无关紧要的陈述”时，测试的 LLM 表现就差多了。对于这个“GSM-NoOp”基准集（“无操作”的缩写），关于某人在多天内摘了多少个猕猴桃的问题可能会被修改为包含一个偶然的细节，即“其中五个 [猕猴桃] 比平均尺寸略小。”

添加这些干扰因素导致研究人员所称的与 GSM8K 相比准确度“灾难性的性能下降”，根据测试模型的不同，准确度下降幅度从 17.5% 到惊人的 65.7% 不等。研究人员写道，准确度的大幅下降凸显了使用简单的“模式匹配”将语句转换为操作而不真正理解其含义的固有局限性。

例如，在较小猕猴桃的例子中，大多数模型都试图从最终总数中减去较小的水果，因为研究人员推测，“他们的训练数据集包含需要转换为减法运算的类似例子。”研究人员表示，这是一种“关键缺陷”，“表明[模型]推理过程中存在更深层次的问题”，无法通过微调或其他改进来解决。

理解的错觉

这篇新的 GSM-Symbolic 论文的结果在人工智能研究领域并不完全是新成果。其他近期论文也同样表明，LLM 实际上并不执行形式推理，而是通过对庞大的训练集中最接近的相似数据进行概率模式匹配来模仿它。

尽管如此，这项新研究还是凸显了当问题提示将其推向与任何训练数据都不完全匹配的方向时，这种模仿是多么脆弱。它还凸显了在没有任何逻辑或世界基础模型的情况下尝试执行高级推理的固有局限性。正如 Ars 的 Benj Edwards在 7 月份关于 AI 视频生成的故事中所说：

OpenAI 的 GPT-4 在文本合成方面引起关注的原因之一是，该模型最终达到了足够大的规模，可以吸收足够的信息（在训练数据中），给人的印象是它可能能够真正理解和模拟世界，而实际上，其成功的一个关键方面是它“知道”的远比大多数人类多，并且可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。有了足够的训练数据和计算，人工智能行业最终可能会通过人工智能视频合成达到所谓的“理解幻觉”……

我们很可能会在人工智能最新的“推理”模型中看到类似的“理解错觉”，并看到当模型遇到意外情况时这种错觉是如何破灭的。

人工智能专家加里·马库斯 (Gary Marcus) 在分析新的 GSM-Symbolic 论文时指出，只有当这些神经网络能够整合真正的“符号操作”时，人工智能能力才会实现下一次重大飞跃，在这种操作中，一些知识真正抽象地以变量和对这些变量的运算来表示，就像我们在代数和传统计算机编程中看到的那样…”在此之前，我们将得到一种脆弱的“推理”，它可能导致人工智能模型以计算器永远不会出现的方式无法通过数学测试。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ping-guo-yan-jiu-jie-lu-fa-xue-shuo-shi-tui-li-neng-li-yan

Like (0)

点点

0 0

Adobe 推出经过授权内容训练的 AI 视频生成器

Previous 2024年10月16日

人工智能聊天机器人能理解而人类无法理解的隐形文本？没错，确实存在。

Next 2024年10月16日

AI前沿

Nvidia 完成收购 AI 基础设施初创公司 Run:ai

Nvidia 已完成对以色列初创公司 Run:ai 的收购，后者致力于管理和优化 AI 硬件基础设施。作为合并的一部分，Run:ai 表示其软件（目前仅适用于 Nvidia 产品…

王浩然
2024年12月31日
000
AI前沿

谷歌地图正在获得由 Gemini 提供支持的全新 AI 功能

Google 地图即将推出由Google 的生成式 AI 模型Gemini提供支持的新功能。周四，该公司宣布即将推出更新，让美国的 Google 地图用户能够利用 AI 帮助他们找…

王浩然
2024年11月2日
000
AI前沿

OpenAI 推出 ChatGPT 桌面集成，与 Copilot 竞争

当OpenAI发布 ChatGPT 的桌面应用版本时，其目标显然是让更多用户将 ChatGPT 纳入日常工作流程。现在，Mac OS 和 Windows PC 版本的新更新鼓励用户…

王浩然
2024年11月18日
000
AI前沿

斯嘉丽·约翰逊、凯莉·詹娜和泰勒·斯威夫特位列被利用人工智能诈骗的名人榜首

你可能在社交媒体上看到过这些荒谬的视频。有一位名人——可能是悉尼·斯威尼或汤姆·汉克斯——直接对着镜头谈论某种产品，但似乎有些不对劲。也许是因为他们的嘴巴似乎没有和他们的话完美同步…

王浩然
2024年10月10日
000
AI前沿

本周来自网络的精彩科技故事

人工智能 OpenAI 升级其最智能的 AI 模型，提升推理能力Will Knight | Wired“OpenAI 表示，o3 模型在多个指标上的得分都远高于其前身，包括衡量复杂…

王浩然
2024年12月30日
000
AI前沿

JetBrains AI 部门负责人 Vladislav Tankov – 访谈系列

Vladislav Tankov 是 AI 总监，领导 JetBrains AI 和 Grazie 产品的开发，负责 JetBrains IDE 中的 AI 助手。 JetBrai…

点点
2024年9月25日
000
AI前沿

Mistral 推出 Pixtral Large，并将 Le Chat 升级为 ChatGPT 的全面竞争对手

法国初创公司Mistral去年凭借创纪录的欧洲种子资金融资额引起轰动，今天该公司发布了一系列更新，包括一个名为 Pixtral Large 的全新大型基础模型。该公司正在进一步升…

王浩然
2024年11月20日
000
AI前沿

许多组织对人工智能网络安全威胁毫无准备

人工智能在提高网络安全威胁检测能力的同时，也带来了更为高级的挑战。 Keeper Security的研究发现，尽管实施了与人工智能相关的政策，但许多组织仍然没有充分做好应对人工智能…

点点
2024年10月11日
000
AI前沿

超越基准：DeepSeek-R1 和 o1 在实际任务中的表现如何

DeepSeek-R1无疑引起了很多兴奋和担忧，尤其是对于 OpenAI 的竞争对手模型 o1。因此，我们在几个简单的数据分析和市场研究任务上对它们进行了并排比较测试。为了让这…

王浩然
2025年2月2日
000
AI前沿

Devin 2.0震撼发布：Cognition将AI软件工程师价格从每月500美元大幅降至20美元‌

在科技创新日新月异的今天，由知名风投机构Founders Fund支持的旧金山初创公司Cognition AI（亦称Cognition Labs），自2024年初凭借Devin——…

王浩然
5天前
000
AI前沿

快攻人工智能：Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

对于篮球运动来说，数据可能就是一切——但对于步行者体育和娱乐公司（PS&E）来说，有关球迷的数据同样有价值。然而，尽管印第安纳波利斯步行者队(NBA)、印第安…

王浩然
2025年2月12日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

超级碗 LIX 网络安全策略：NFL 的 CISO 如何应对 AI 威胁和数字攻击

保护超级碗 LIX 和所有备受瞩目的国家橄榄球联盟 (NFL) 赛事免受可能包括武器化 AI、端点攻击、深度伪造和精细的社会工程技能在内的对抗性攻击，需要经验丰富、久经考验的能力和…

王浩然
2025年1月30日
000
AI前沿

Tails OS 与 Tor Project 合并

Tor 项目是一家非盈利组织，负责维护 Tor 匿名网络的软件。目前，该项目正与使用 Tor 的便携式操作系统制造商 Tails 携手合作。两家组织都希望共享资源、降低管理费用，并…

点点
2024年10月1日
000
AI前沿

这一届AI创业者：不敢再谈理想，怕伤钱

ChatGPT引发的人工智能热潮被疯狂追捧一年多后，AI行业开始陷入迷茫。距离OpenAI发布GPT-4已超过一年半，GPT-5还迟迟不见踪影，文生视频大模型Sora也没有全面开…

点点
2024年9月25日
000
AI前沿

企业在假期期间全力投入人工智能，但它真的能带来什么不同吗？

零售商长期以来一直走在人工智能的前沿，与其他行业相比，他们很早就采用了预测性人工智能算法。同样，在包括生成式人工智能和更先进算法的下一波人工智能中，许多品牌已经倾向于测试该技术的潜…

王浩然
2024年12月8日
000
AI前沿

马斯克对 OpenAI 的修改后诉讼将微软列为被告

埃隆·马斯克对 OpenAI 提起的诉讼指控该公司放弃了非营利使命，该诉讼于 7 月撤回，但8 月又重新提起。现在，在一份修改后的诉状中，该诉讼将微软、LinkedIn 联合创始人…

王浩然
2024年11月16日
000
AI前沿

AI招聘初创公司Mercor：由21岁青年创立，以20亿美元估值融资1亿美元

近日，一家专注于人工智能招聘领域的初创公司Mercor宣布成功完成1亿美元的融资，公司估值达到20亿美元。这家创新企业由一群仅21岁的青年才俊共同创立，致力于通过人工智能技术颠覆传…

王浩然
2025年2月24日
000
AI前沿

2024 年生成式人工智能融资额创历史新高

如果还有任何疑问的话，生成式人工智能泡沫并没有在 2024 年破灭。去年，对生成式人工智能的投资达到了新高，生成式人工智能包括一系列由人工智能驱动的应用程序、工具和服务，用于生成…

王浩然
2025年1月4日
000
AI前沿

为了安全起见，我们必须停止接听电话

您如何知道电话另一端的人确实是他们所说的那个人？ 7 月初，法拉利的一位高管收到了大量 WhatsApp 消息，这些消息似乎来自他的老板——法拉利汽车公司的首席执行官贝…

点点
2024年9月8日
000

发表回复

Please Login to Comment

苹果研究揭露法学硕士“推理”能力严重缺陷

混合起来

不要分心

理解的错觉

相关推荐

发表回复

Share To :