苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

苹果研究揭露法学硕士“推理”能力严重缺陷

一段时间以来,OpenAI谷歌等公司一直在吹捧高级“推理”能力,称其最新人工智能模型的下一个重大进步。然而,现在,六名苹果工程师的一项新研究表明,面对常见基准问题看似微不足道的变化,高级大型语言模型所展示的数学“推理”可能极其脆弱和不可靠。

这些新结果所强调的脆弱性有助于支持先前的研究,该研究表明,LLM 使用概率模式匹配缺乏对真正可靠的数学推理能力所需的基本概念的正式理解。“目前的 LLM 无法进行真正的逻辑推理,”研究人员根据这些结果推测。“相反,他们试图复制在训练数据中观察到的推理步骤。”

混合起来

在《GSM-Symbolic:理解大型语言模型中数学推理的局限性》(目前以预印本形式提供)中,六位 Apple 研究人员从GSM8K 的标准化集(包含 8,000 多个小学水平的数学应用题)开始,这通常被用作现代 LLM 复杂推理能力的基准。然后,他们采用新颖的方法修改该测试集的一部分,以动态地用新值替换某些名称和数字——因此,在 GSM8K 中,关于 Sophie 为侄子获得 31 个积木的问题可能会变成在新的 GSM-Symbolic 评估中,关于 Bill 为他的兄弟获得 19 个积木的问题。

这种方法有助于避免将静态 GSM8K 问题直接输入 AI 模型的训练数据中而导致的任何潜在“数据污染”。同时,这些偶然的变化根本不会改变固有数学推理的实际难度,这意味着从理论上讲,模型在 GSM-Symbolic 上测试时的表现应该与 GSM8K 上的表现一样好。

苹果研究揭露法学硕士“推理”能力严重缺陷
简单地更改 GSM8K 测试中发现的特定名称和数字会导致许多型号的性能显著下降。 来源: Apple Research

相反,当研究人员在 GSM-Symbolic 上测试了 20 多个最先进的 LLM 时,他们发现与 GSM8K 相比,平均准确率全面下降,性能下降幅度在 0.3% 到 9.2% 之间,具体取决于模型。结果还显示,在使用不同名称和值的 GSM-Symbolic 的 50 次单独运行中,差异很大。在单个模型中,最佳和最差运行之间的准确率差距高达 15% 是很常见的,而且出于某种原因,更改数字往往比更改名称更会导致更差的准确率。

这种差异——无论是在不同的 GSM-Symbolic 运行中还是与 GSM8K 结果相比——都令人惊讶,因为正如研究人员指出的那样,“解决问题所需的总体推理步骤保持不变。”如此小的变化导致如此多变的结果,这一事实向研究人员表明,这些模型没有进行任何“正式”推理,而是“试图执行一种分布模式匹配,将给定的问题和解决步骤与训练数据中看到的类似问题和解决步骤对齐。”

不要分心

不过,从总体来看,GSM-Symbolic 测试显示的整体差异通常相对较小。例如,OpenAI 的 ChatGPT-4o 从 GSM8K 上的 95.2% 准确率下降到 GSM-Symbolic 上的仍然令人印象深刻的 94.9%。无论模型本身是否在幕后使用“正式”推理,这都是使用任一基准的相当高的成功率(尽管当研究人员在问题中添加一两个额外的逻辑步骤时,许多模型的总准确率急剧下降)。

苹果研究揭露法学硕士“推理”能力严重缺陷
示例显示了某些模型如何被添加到 GSM8K 基准套件中的不相关信息误导。 来源: Apple Research

然而,当苹果研究人员修改了 GSM-Symbolic 基准,在问题中添加了“看似相关但最终无关紧要的陈述”时,测试的 LLM 表现就差多了。对于这个“GSM-NoOp”基准集(“无操作”的缩写),关于某人在多天内摘了多少个猕猴桃的问题可能会被修改为包含一个偶然的细节,即“其中五个​​ [猕猴桃] 比平均尺寸略小。”

添加这些干扰因素导致研究人员所称的与 GSM8K 相比准确度“灾难性的性能下降”,根据测试模型的不同,准确度下降幅度从 17.5% 到惊人的 65.7% 不等。研究人员写道,准确度的大幅下降凸显了使用简单的“模式匹配”将语句转换为操作而不真正理解其含义的固有局限性。

苹果研究揭露法学硕士“推理”能力严重缺陷
在题目中引入不相关的信息往往会导致大多数“推理型”法学硕士课程“灾难性”失败。 图片来源: Apple Research

例如,在较小猕猴桃的例子中,大多数模型都试图从最终总数中减去较小的水果,因为研究人员推测,“他们的训练数据集包含需要转换为减法运算的类似例子。”研究人员表示,这是一种“关键缺陷”,“表明[模型]推理过程中存在更深层次的问题”,无法通过微调或其他改进来解决。

理解的错觉

这篇新的 GSM-Symbolic 论文的结果在人工智能研究领域并不完全是新成果。其他近期论文也同样表明,LLM 实际上并不执行形式推理,而是通过对庞大的训练集中最接近的相似数据进行概率模式匹配来模仿它。

尽管如此,这项新研究还是凸显了当问题提示将其推向与任何训练数据都不完全匹配的方向时,这种模仿是多么脆弱。它还凸显了在没有任何逻辑或世界基础模型的情况下尝试执行高级推理的固有局限性。正如 Ars 的 Benj Edwards在 7 月份关于 AI 视频生成的故事中所说:

OpenAI 的 GPT-4 在文本合成方面引起关注的原因之一是,该模型最终达到了足够大的规模,可以吸收足够的信息(在训练数据中),给人的印象是它可能能够真正理解和模拟世界,而实际上,其成功的一个关键方面是它“知道”的远比大多数人类多,并且可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。有了足够的训练数据和计算,人工智能行业最终可能会通过人工智能视频合成达到所谓的“理解幻觉”……

我们很可能会在人工智能最新的“推理”模型中看到类似的“理解错觉”,并看到当模型遇到意外情况时这种错觉是如何破灭的。

人工智能专家加里·马库斯 (Gary Marcus) 在分析新的 GSM-Symbolic 论文时指出,只有当这些神经网络能够整合真正的“符号操作”时,人工智能能力才会实现下一次重大飞跃,在这种操作中,一些知识真正抽象地以变量和对这些变量的运算来表示,就像我们在代数和传统计算机编程中看到的那样…”在此之前,我们将得到一种脆弱的“推理”,它可能导致人工智能模型以计算器永远不会出现的方式无法通过数学测试。

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/ping-guo-yan-jiu-jie-lu-fa-xue-shuo-shi-tui-li-neng-li-yan

Like (0)
点点的头像点点
Previous 2024年10月16日
Next 2024年10月16日

相关推荐

发表回复

Please Login to Comment