研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

王浩然 • 2024年10月12日上午8:00 • AI前沿 • 94 views

机器学习模型是如何做到的？它们真的像我们一样“思考”或“推理”吗？这既是一个哲学问题，也是一个实践问题，但周五发表的一篇新论文表明，答案至少就目前而言，是一个相当明确的“不”。

苹果公司的一组人工智能研究科学家于周四发布了他们的论文《理解大型语言模型中数学推理的局限性》，供大家参考。虽然符号学习和模式再现等更深层次的概念有些晦涩难懂，但他们研究的基本概念却很容易掌握。

假设我要求你解决一个简单的数学问题，如下所示：

奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多少颗猕猴桃？

显然，答案是 44 + 58 + (44 * 2) = 190。虽然大型语言模型在算术方面实际上并不完善，但它们可以相当可靠地解决这样的问题。但如果我随机添加一些额外的信息，比如：

奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗。星期天他摘的猕猴桃数量是星期五的两倍，但其中 5 颗比平均尺寸小一点。奥利弗有多少颗猕猴桃？

这都是同样的数学问题，对吧？当然，即使是小学生也知道，即使是一只小猕猴桃，它仍然是一只猕猴桃。但事实证明，这个额外的数据点甚至让最先进的法学硕士也感到困惑。以下是 GPT-o1-mini 的看法：

… 周日，其中 5 颗猕猴桃比平均尺寸小。我们需要从周日的总数中减去它们：88（周日的猕猴桃）- 5（较小的猕猴桃）= 83 颗猕猴桃

这只是研究人员略加修改的数百个问题中的一个简单例子，但几乎所有修改都导致模型尝试回答这些问题的成功率大幅下降。

那么，为什么会这样呢？为什么一个理解问题的模型会如此轻易地被一个随机的、不相关的细节所困扰呢？研究人员认为，这种可靠的失败模式意味着模型根本不理解问题。它们的训练数据确实允许它们在某些情况下给出正确的答案，但只要需要最轻微的实际“推理”，比如是否要数小猕猴桃的数量，它们就会开始产生奇怪、不直观的结果。

正如研究人员在论文中所说：

[我们]研究了这些模型中数学推理的脆弱性，并表明随着问题中子句数量的增加，它们的性能会显著下降。我们假设这种下降是由于当前的 LLM 无法进行真正的逻辑推理；相反，它们试图复制在训练数据中观察到的推理步骤。

这一观察结果与法学硕士因其语言能力而经常被归因于的其他特质一致。从统计学上讲，当“我爱你”后面跟着“我也爱你”时，法学硕士可以很容易地重复这句话——但这并不意味着它爱你。尽管它可以遵循它之前接触过的复杂推理链，但即使是表面上的偏差也会打破这个链条，这一事实表明它实际上并没有推理太多，而是复制了它在训练数据中观察到的模式。

Mehrdad Farajtabar 是该论文的合著者之一，他在 X 上的这个帖子中对该论文进行了非常详细的分析。

OpenAI 的一位研究人员在赞扬 Mirzadeh 等人的工作的同时，也对他们的结论提出了异议，称只要稍加提示，就可以在所有这些失败案例中取得正确的结果。Farajtabar（以研究人员通常采用的典型但令人钦佩的友好态度回应）指出，虽然更好的提示可能对简单的偏差有效，但该模型可能需要成倍增加的上下文数据来应对复杂的干扰——同样，这些干扰是孩子可以轻松指出的。

这是否意味着法学硕士不会推理？也许。他们不能推理？没人知道。这些概念定义不明确，而且这些问题往往出现在人工智能研究的前沿，而这一领域的技术水平每天都在变化。也许法学硕士会“推理”，但方式我们还不了解，也不知道如何控制。

这是研究领域一个令人着迷的前沿，但对于如何销售人工智能，这也是一个警示。人工智能真的能做到他们声称的事情吗？如果能，怎么做？随着人工智能成为一种日常软件工具，这类问题已不再是学术问题。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-ren-yuan-zhi-yi-ren-gong-zhi-neng-de-tui-li-neng-li

Like (0)

王浩然作者

0 0

通过换脸变身杰克·斯派洛

Previous 2024年10月11日下午7:00

以下是 2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

Next 2024年10月12日上午9:00

AI前沿

Anthropic 呼吁对人工智能进行监管以避免灾难

Anthropic指出了人工智能系统的潜在风险，并呼吁制定完善的监管措施，以避免潜在的灾难。该组织认为，有针对性的监管对于充分利用人工智能的优势并减轻其风险至关重要。随着人工智能…

点点
2024年11月4日
000
AI前沿

Lambda 推出“推理即服务” API，宣称成本为人工智能行业最低

Lambda是一家成立 12 年的旧金山公司，以向机器学习研究人员以及 AI 模型构建者和训练人员按需提供图形处理单元 (GPU) 而闻名。但今天，该公司推出了Lambda&nb…

王浩然
2024年12月18日
000
AI前沿

OpenAI为付费ChatGPT用户推出深度研究功能‌

在人工智能领域持续创新的浪潮中，OpenAI再次迈出重要一步。据最新消息，OpenAI现已向其付费ChatGPT用户推出深度研究功能，旨在为用户提供更加专业、深入的AI分析与解答服…

王浩然
2025年2月28日
000
AI前沿

DeepSeek的力量对商业意味着什么

一、引言在人工智能（AI）领域，新兴力量的崛起往往能迅速改变行业格局。近期，中国AI研究公司DeepSeek的突破性进展，不仅挑战了现有AI巨头的地位，还为全球商业环境带来了深远…

王浩然
2025年3月14日
000
AI前沿

人工智能会成为你的老板吗？

随着人工智能 (AI) 的发展，它引发了许多有关失业的问题。如果它接管的不是你的工作，而是你老板的工作，会怎么样？虽然这看起来很奇怪，但一些企业已经开始尝试使用人工智能经理。人工…

点点
2024年10月5日
000
AI前沿

人工智能水下机器人改变海上风电检测方式

Beam部署了世界上第一台人工智能驱动的自动水下机器人，用于海上风电场检查。该技术已通过检查苏格兰最大的海上风电场Seagreen 的导管架结构证明了其实力。Seagreen 是 …

点点
2024年9月26日
000
AI前沿

科技行业巨头敦促欧盟简化人工智能监管

Meta牵头发表了一封公开信，呼吁欧盟紧急改革人工智能监管规定。这封信得到了爱立信、SAP和 Spotify 等 50 多家知名公司的支持，并以广告形式刊登在《金融时报》上。这些…

点点
2024年9月20日
000
AI前沿

Gemini 现在可以判断你的手机屏幕上是否有 PDF

据Android Police报道，在最新版本的 Files by Google 应用中，在查看 PDF 时召唤 Gemini 可让你选择询问文件。不过，据 Mishaal Rah…

王浩然
2024年12月28日
000
AI前沿

2024年电子游戏发布时间表在“从《星球大战不法分子》中学习”后，《刺客信条：阴影》推迟到2025年2024年电子游戏发布时间表

育碧宣布大幅推迟《刺客信条：暗影》，该版将于2025年2月14日发布，而不是之前计划于今年11月发布。现有的预购将退还。出版商一直以《刺客信条》大片的年度关键假日销售期为目标，这…

点点
2024年9月26日
000
AI前沿

一些初创公司正在采用“fair source”来避免开源许可的陷阱

由于专有软件和开源软件（OSS）之间长期存在的紧张关系短期内不太可能结束，一家价值 30 亿美元的初创公司正全力支持一种新的许可模式 — — 该模式旨在连接开放世界和专有世界，充满…

点点
2024年9月23日
000
AI前沿

谷歌推出新款AI视频模型Veo 2，每秒使用成本仅需50美分

近日，谷歌公司正式推出了一款全新的AI视频模型——Veo 2。据悉，该模型每秒的使用成本仅为50美分，极大地降低了AI视频制作与应用的门槛。 Veo 2基于谷歌先进的人工智能技术，…

王浩然
2025年2月26日
000
AI前沿

研究人员称，医疗领域的人工智能应该受到监管，但不要忘记算法

在最近的一篇评论中，麻省理工学院、Equality AI 和波士顿大学的团队强调了医疗保健领域人工智能模型和非人工智能算法的监管差距。有人可能会说，医生的主要职责之一就是不断评估…

王浩然
2025年1月3日
000
AI前沿

GibberLink：让AI代理以机器语言互相“通话”‌

在人工智能领域，随着技术的不断进步，AI代理间的通信成为了一个备受关注的课题。近日，一款名为GibberLink的创新技术横空出世，它实现了AI代理之间以一种独特的“机器语言”进行…

王浩然
2025年3月8日
000
AI前沿

Cohere 联合创始人 Nick Frosst 的独立乐队 Good Kid 几乎和他的 AI 公司一样成功

他们在 Lollapalooza 音乐节上表演过，为葡萄牙音乐节 The Man 做开场表演，白天还做程序员。估值 55 亿美元的加拿大人工智能初创公司 Cohere的联合创始人…

王浩然
2024年9月16日
000
AI前沿

Upwork 产品副总裁 Dave Bottoms – 访谈系列

Dave Bottoms 领导 Upwork 的市场组织，这是一个全球团队，负责核心人才市场、搜索和发现、广告和货币化、核心移动体验以及新产品创新和分析。 Dave 为 Upwor…

点点
2024年10月7日
000
AI前沿

Shutterstock 与 Lightricks 合作率先推出“研究许可”模式，降低 AI 训练数据的门槛

Shutterstock正在通过一种新颖的“研究许可”方法重塑 AI 公司访问训练数据的方式，并率先与 AI 创意技术公司Lightricks合作。今天宣布的合作允许 Lightr…

王浩然
2024年12月16日
000
AI前沿

Meta 的 Movie Gen AI 视频生成器能够制作真正的电影，包括音乐

Meta 的 AI 之旅将不可避免地将其带入新兴的 AI 视频领域。现在，马克·扎克伯格领导的这家公司推出了 Movie Gen，这是另一款能够通过简短的文本提示制作出逼真视频的视…

王浩然
2024年10月10日
000
AI前沿

Numeric 获 2800 万美元 A 轮融资，利用人工智能实现会计自动化

会计师通常害怕月末和季末结账。这是因为确定特定时期的财务记录通常需要手动操作，容易出错，而且耗时。 2020 年，帕克·吉尔伯特（上图中间）厌倦了在一家早期创业公司管理…

点点
2024年10月13日
000
AI前沿

Timekettle 推出 Babel OS，用于语言翻译耳机中的 AI 同声传译

Timekettle推出了 Babel OS，这是其首个旨在重新定义人工智能驱动的同声传译的操作系统，它将用于其语言翻译耳机。这一突破不仅为翻译软件树立了新的标杆，而且还显著提高…

王浩然
2025年1月6日
000
AI前沿

Synex 创始人曾因一块 80 磅重的磁铁在边境被扣留，他正在制造便携式 MRI 来测试血糖

2019 年，Synex Medical创始人本·纳什曼 (Ben Nashman) 被美国海关扣留了一夜。纳什曼试图解释，他只是将材料从布法罗运到多伦多，用于自制 MRI。然而，…

点点
2024年9月23日
000

发表回复

Please Login to Comment

研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

相关推荐

发表回复

Share To :