研究人员质疑人工智能的“推理”能力,因为模型在解决数学问题时出现了微小的变化

研究人员质疑人工智能的“推理”能力,因为模型在解决数学问题时出现了微小的变化

机器学习模型是如何做到的?它们真的像我们一样“思考”或“推理”吗?这既是一个哲学问题,也是一个实践问题,但周五发表的一篇新论文表明,答案至少就目前而言,是一个相当明确的“不”。

苹果公司的一组人工智能研究科学家于周四发布了他们的论文《理解大型语言模型中数学推理的局限性》,供大家参考。虽然符号学习和模式再现等更深层次的概念有些晦涩难懂,但他们研究的基本概念却很容易掌握。

假设我要求你解决一个简单的数学问题,如下所示:

奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多少颗猕猴桃?

显然,答案是 44 + 58 + (44 * 2) = 190。虽然大型语言模型在算术方面实际上并不完善,但它们可以相当可靠地解决这样的问题。但如果我随机添加一些额外的信息,比如:

奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗。星期天他摘的猕猴桃数量是星期五的两倍,但其中 5 颗比平均尺寸小一点。奥利弗有多少颗猕猴桃?

这都是同样的数学问题,对吧?当然,即使是小学生也知道,即使是一只小猕猴桃,它仍然是一只猕猴桃。但事实证明,这个额外的数据点甚至让最先进的法学硕士也感到困惑。以下是 GPT-o1-mini 的看法:

… 周日,其中 5 颗猕猴桃比平均尺寸小。我们需要从周日的总数中减去它们:88(周日的猕猴桃)- 5(较小的猕猴桃)= 83 颗猕猴桃

这只是研究人员略加修改的数百个问题中的一个简单例子,但几乎所有修改都导致模型尝试回答这些问题的成功率大幅下降。

研究人员质疑人工智能的“推理”能力,因为模型在解决数学问题时出现了微小的变化

那么,为什么会这样呢?为什么一个理解问题的模型会如此轻易地被一个随机的、不相关的细节所困扰呢?研究人员认为,这种可靠的失败模式意味着模型根本不理解问题。它们的训练数据确实允许它们在某些情况下给出正确的答案,但只要需要最轻微的实际“推理”,比如是否要数小猕猴桃的数量,它们就会开始产生奇怪、不直观的结果。

正如研究人员在论文中所说:

[我们]研究了这些模型中数学推理的脆弱性,并表明随着问题中子句数量的增加,它们的性能会显著下降。我们假设这种下降是由于当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。

这一观察结果与法学硕士因其语言能力而经常被归因于的其他特质一致。从统计学上讲,当“我爱你”后面跟着“我也爱你”时,法学硕士可以很容易地重复这句话——但这并不意味着它爱你。尽管它可以遵循它之前接触过的复杂推理链,但即使是表面上的偏差也会打破这个链条,这一事实表明它实际上并没有推理太多,而是复制了它在训练数据中观察到的模式。

Mehrdad Farajtabar 是该论文的合著者之一,他在 X 上的这个帖子中对该论文进行了非常详细的分析。

OpenAI 的一位研究人员在赞扬 Mirzadeh 等人的工作的同时,也对他们的结论提出了异议,称只要稍加提示,就可以在所有这些失败案例中取得正确的结果。Farajtabar(以研究人员通常采用的典型但令人钦佩的友好态度回应)指出,虽然更好的提示可能对简单的偏差有效,但该模型可能需要成倍增加的上下文数据来应对复杂的干扰——同样,这些干扰是孩子可以轻松指出的。

这是否意味着法学硕士不会推理?也许。他们不能推理?没人知道。这些概念定义不明确,而且这些问题往往出现在人工智能研究的前沿,而这一领域的技术水平每天都在变化。也许法学硕士会“推理”,但方式我们还不了解,也不知道如何控制。

这是研究领域一个令人着迷的前沿,但对于如何销售人工智能,这也是一个警示。人工智能真的能做到他们声称的事情吗?如果能,怎么做?随着人工智能成为一种日常软件工具,这类问题已不再是学术问题。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-ren-yuan-zhi-yi-ren-gong-zhi-neng-de-tui-li-neng-li

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月11日 下午7:00
Next 2024年10月12日 上午9:00

相关推荐

发表回复

Please Login to Comment