如果你曾经尝试将 ChatGPT 用作计算器,你几乎肯定会注意到它的计算障碍:聊天机器人数学不好。在这方面,它并不是 AI 中独一无二的。
Anthropic 的Claude无法解决基本的应用题。Gemini无法理解二次方程。而 Meta 的Llama则难以进行简单的加法运算。
那么,为什么这些机器人可以写独白,却会被小学水平的算术难倒呢?
标记化与此有关。标记化是将数据分成块的过程(例如,将单词“fantastic”拆分为音节“fan”、“tas”和“tic”),有助于 AI 密集编码信息。但是,由于标记器(执行标记化的 AI 模型)并不真正了解数字是什么,因此它们经常最终破坏数字之间的关系 。例如,标记器可能将数字“380”视为一个标记,但将“381”表示为一对数字(“38”和“1”)。
但标记化并不是数学成为人工智能弱点的唯一原因。
人工智能系统是统计机器。经过大量示例的训练,它们会学习这些示例中的模式以进行预测(例如,电子邮件中的短语“致谁”通常位于短语“可能涉及”之前)。例如,给定乘法问题 5,7897 x 1,2832,ChatGPT(见过很多乘法问题)可能会推断以“7”结尾的数字与以“2”结尾的数字的乘积将以“4”结尾。但它在中间部分会遇到困难。ChatGPT 给了我答案 742,021,104;正确答案是 742,934,304。
滑铁卢大学专门研究人工智能的助理教授邓云天在今年早些时候的一项研究中对 ChatGPT 的乘法能力进行了全面基准测试。他和合著者发现,默认模型GPT-4o很难计算两个以上数字的乘法(例如 3,459 x 5,284)。
邓告诉记者:“GPT-4o 在多位数乘法方面表现不佳,四位数乘以四位数的问题的准确率不到 30%。多位数乘法对语言模型来说是一个挑战,因为任何中间步骤的错误都可能累积起来,导致最终结果不正确。”
那么,ChatGPT 永远都不会掌握数学技能吗?或者,我们是否有理由相信,机器人未来有一天会变得像人类(或者 TI-84)一样精通数字?
邓志雄满怀希望。在这项研究中,他和同事还测试了OpenAI 的“推理”模型 o1,该模型最近已应用于 ChatGPT。o1 会一步步“思考”问题,然后再回答,其表现远优于 GPT-4o,大约有一半的时间能正确解答九位数乘九位数的乘法问题。
“该模型解决问题的方式可能与我们手动解决问题的方式不同,”邓说。“这让我们对模型的内部方法以及它与人类推理的区别感到好奇。”
邓认为,这一进展表明,至少某些类型的数学问题(乘法问题就是其中之一)最终将被类似 ChatGPT 的系统“完全解决”。邓说:“这是一项定义明确的任务,算法已知。我们已经看到从 GPT-4o 到 o1 的显著改进,因此很明显,推理能力正在增强。”
只是不要很快就扔掉你的计算器。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-shen-me-chatgpt-de-shu-xue-zhe-me-cha