数学一直是人工智能模型面临的重大挑战。掌握数学需要复杂的推理能力,而对于人工智能来说,这项任务绝非易事。鉴于数学能力对于职业、个人和学术成功的重要性,这带来了巨大的问题。
尽管大型语言模型 (LLM) 能力非凡,但它们在处理需要高级推理能力的复杂数学任务(例如几何学)时往往举步维艰。这引出了一个关键问题:人工智能模型的数学能力有多少源自真正的推理能力,有多少源自对训练数据的简单回忆?
苹果公司最近的研究结果表明,即使专注于小学数学应用题,最复杂的模型也并非完全由“推理”驱动。
更进一步的是,MathGPT.ai 的研发团队对代数到微积分层面上最需要改进的数学领域提供了新的见解。
这些数据探索了问题背景和语言的变化如何影响不同 LLM 中的模型性能,包括 OpenAI 最新的 o1-preview 和 o1-mini 模型。研究结果揭示了一个令人担忧的趋势:随着问题偏离 LLM 训练数据中可用的原始问题,准确率持续下降,在小学数学水平以上的更具挑战性的数学基准上,表现急剧下降。
召回与推理的困境
调查主要集中在三个关键因素:
- 使用比小学数学更具挑战性的数学基准
- 探索与测试问题极其接近的“一次性提示”
- 对同一问题的 n 次尝试实施“n 中最佳”策略——在推理时有效地进行多数投票以消除统计异常。
研究结果既有趣又令人担忧。问题变化的界限被突破,随着数学方程变得越来越复杂,人工智能模型的性能持续下降。
数学数据集挑战
MATH数据集以具有挑战性的高中水平问题而闻名,而 Grade School Math 8K 数据集则包含 8,500 个语言多样化的小学水平问题。MATH 数据集呈现了更具挑战性的高中水平问题,以检查模型在不同难度级别(从初等代数到数论)上的表现。这一选择使 MathGPT.ai 能够更好地检查模型在不同难度级别上的表现。
在测试中,虽然数值和最终答案保持不变,但我们改变了问题的语言、变量和上下文。例如,“遛狗”场景可能会转变为“洗碗机”问题。这种方法有助于缓解 MATH 数据集日益增加的复杂性,同时仍然挑战模型的推理能力。
揭示结果
结果令人震惊。即使是最先进的模型,在面对它们在训练数据中可能遇到的各种问题时也会举步维艰。例如,其 o1-mini 模型的准确率从原始问题的 93.66% 下降到最具挑战性问题的 88.54%。o1-preview 模型也经历了类似的下降,从 91.22% 下降到 82.93%——下降幅度之大足以凸显其稳健性方面的关键差距。
这些发现与苹果早期的研究一致,并以其为基础,表明随着问题变得越来越复杂并且需要更深入的理解而不是模式识别,人工智能数学推理的局限性变得更加明显。
前进的道路
随着我们不断突破法学硕士推理的界限,认识到其巨大的潜力和当前的局限性至关重要。新研究强调,需要不断创新,开发能够超越模式识别的人工智能模型,以实现更强大、更通用的解决问题的技能。
这一现象出现正值一个关键时刻,尤其是在高等教育领域,人工智能被越来越多地用作课堂上的教师辅助工具,而学校也发现,没有为课程做好准备的数学学生的不及格率仍然很高。
要使人工智能实现类似人类的认知能力或通用智能,不仅需要技术进步,还需要对如何弥合回忆和真实推理之间的差距有细致的理解。
如果我们在这条道路上取得成功,我相信我们可以改变数百万学生甚至专业人士的生活,让他们的生活走上全新的轨道。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/shu-xue-fa-xue-shuo-shi-de-shi-bai-ji-qi-jie-jue-fang-fa