为什么 ChatGPT 的数学这么差？

王浩然 • 2024年10月3日下午6:00 • AI前沿 • 136 views

如果你曾经尝试将 ChatGPT 用作计算器，你几乎肯定会注意到它的计算障碍：聊天机器人数学不好。在这方面，它并不是 AI 中独一无二的。

Anthropic 的Claude无法解决基本的应用题。Gemini无法理解二次方程。而 Meta 的Llama则难以进行简单的加法运算。

那么，为什么这些机器人可以写独白，却会被小学水平的算术难倒呢？

标记化与此有关。标记化是将数据分成块的过程（例如，将单词“fantastic”拆分为音节“fan”、“tas”和“tic”），有助于 AI 密集编码信息。但是，由于标记器（执行标记化的 AI 模型）并不真正了解数字是什么，因此它们经常最终破坏数字之间的关系。例如，标记器可能将数字“380”视为一个标记，但将“381”表示为一对数字（“38”和“1”）。

但标记化并不是数学成为人工智能弱点的唯一原因。

人工智能系统是统计机器。经过大量示例的训练，它们会学习这些示例中的模式以进行预测（例如，电子邮件中的短语“致谁”通常位于短语“可能涉及”之前）。例如，给定乘法问题 5,7897 x 1,2832，ChatGPT（见过很多乘法问题）可能会推断以“7”结尾的数字与以“2”结尾的数字的乘积将以“4”结尾。但它在中间部分会遇到困难。ChatGPT 给了我答案 742,021,104；正确答案是 742,934,304。

滑铁卢大学专门研究人工智能的助理教授邓云天在今年早些时候的一项研究中对 ChatGPT 的乘法能力进行了全面基准测试。他和合著者发现，默认模型GPT-4o很难计算两个以上数字的乘法（例如 3,459 x 5,284）。

邓告诉记者：“GPT-4o 在多位数乘法方面表现不佳，四位数乘以四位数的问题的准确率不到 30%。多位数乘法对语言模型来说是一个挑战，因为任何中间步骤的错误都可能累积起来，导致最终结果不正确。”

那么，ChatGPT 永远都不会掌握数学技能吗？或者，我们是否有理由相信，机器人未来有一天会变得像人类（或者 TI-84）一样精通数字？

邓志雄满怀希望。在这项研究中，他和同事还测试了OpenAI 的“推理”模型 o1，该模型最近已应用于 ChatGPT。o1 会一步步“思考”问题，然后再回答，其表现远优于 GPT-4o，大约有一半的时间能正确解答九位数乘九位数的乘法问题。

“该模型解决问题的方式可能与我们手动解决问题的方式不同，”邓说。“这让我们对模型的内部方法以及它与人类推理的区别感到好奇。”

邓认为，这一进展表明，至少某些类型的数学问题（乘法问题就是其中之一）最终将被类似 ChatGPT 的系统“完全解决”。邓说：“这是一项定义明确的任务，算法已知。我们已经看到从 GPT-4o 到 o1 的显著改进，因此很明显，推理能力正在增强。”

只是不要很快就扔掉你的计算器。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-shen-me-chatgpt-de-shu-xue-zhe-me-cha

AI ChatGPT Claude Gemini LLaMA Meta OpenAI 数学

Like (0)

王浩然作者

0 0

人工智能空想性错视：机器能够识别无生命物体中的面孔吗？

Previous 2024年10月3日下午5:00

AI 编码初创公司 Poolside 从 eBay、Nvidia 等公司筹集 5 亿美元

Next 2024年10月3日下午7:00

AI前沿

Meta 的 Hyperscape 可让您在 VR 中扫描和探索现实空间

Meta于周三在 Meta Connect 2024上宣布推出一款名为 Hyperscape 的全新 VR 应用，该应用可以高保真渲染现实空间，因此您可以戴着 Quest 头戴式设…

王浩然
2024年9月28日
000
AI前沿

解读 OpenAI 的超级碗广告和 Sam Altman 的夸张博客文章

如果您是今年收看 NFL 超级碗 LIX 的近4000 万美国家庭之一，那么除了观看费城老鹰队击败堪萨斯城酋长队之外，您可能还会看到 OpenAI 的广告。这是该公司的首个超级碗…

王浩然
2025年2月11日
000
AI前沿

用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据，该机构发布了一个新数据集，声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (C…

王浩然
2024年8月31日
000
AI前沿

基础设施、可持续性、人工智能、鸡尾酒

上周，Ars Technica 主编 Ken Fisher 和我一路向西，来到阳光明媚的加利福尼亚州圣何塞，参加一场名为“超越喧嚣：GenAI 的基础设施未来以及接下来会发生什么”…

点点
2024年10月1日
000
AI前沿

Databricks 如何使用合成数据简化 AI 代理的评估

企业正在全力投入复合 AI 代理。他们希望这些系统能够推理和处理不同领域的不同任务，但评估代理性能的复杂且耗时的过程往往会阻碍其发展。xToday，数据生态系统领导者Databri…

王浩然
2024年12月10日
000
AI前沿

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

总部位于伦敦的 AI 超大规模提供商Nscale宣布，计划在未来三年内向英国数据中心行业投资 25 亿美元（20 亿英镑）。这一重大承诺将支持英国政府的 AI 机遇行动计划以及该国…

王浩然
2025年1月14日
000
AI前沿

亚马逊正在将生成式人工智能融入其购物体验

亚马逊推出了一批新的生成式人工智能工具，旨在改善平台上客户和卖家的零售体验。周四在亚马逊加速活动上宣布的一项最引人注目的功能将利用客户的偏好、搜索、浏览和购买历史在亚马逊主页上创建…

王浩然
2024年9月22日
000
AI前沿

OpenAI 雄心勃勃的增长战略伴随着巨大的财务风险

据 The Information最近的一份报告称， OpenAI的内部财务预测揭示了一项高风险战略，即将激进的收入目标与巨额预计损失相结合。该公司的计划凸显了快速发展的人工智能领…

点点
2024年10月11日
000
AI前沿

OpenAI：延长模型“思考时间”有助于对抗新出现的网络漏洞

通常，开发人员专注于减少推理时间（即 AI 收到提示和提供答案之间的时间间隔），以便更快地获得洞察。但谈到对抗鲁棒性，OpenAI 的研究人员表示：不要这么快下结论。…

王浩然
2025年1月25日
000
AI前沿

中国研究人员推出 LLaVA-o1，挑战 OpenAI 的 o1 模型

OpenAI的 o1 模型表明，推理时间扩展（在推理过程中使用更多计算）可以显著提升语言模型的推理能力。LLaVA -o1是由中国多所大学的研究人员开发的新模型，它将这一范式引入了…

王浩然
2024年11月26日
000
AI前沿

利用人工智能解锁医疗保健领域的新可能性

由于机器学习和人工智能的使用，美国的医疗保健正处于重大潜在颠覆的早期阶段。这种转变已经进行了十多年，但随着最近的进展，似乎将迎来更快的变化。我们仍有许多工作要做，以了解人工智能在医…

点点
2024年10月18日
000
AI前沿

You.com 评论：尝试后你可能会停止使用 Google

我是一名 Google 爱好者。我可以轻易地花几个小时搜索随机问题的答案，或者出于好奇探索新主题。其他时候，我不想迷失在浩瀚的搜索结果中。我想要快速、有条理、准确的答案。最近，…

点点
2024年9月29日
000
AI前沿

OpenAI 表示今年不会发布名为 Orion 的模型

OpenAI 表示，它不打算今年发布代号为 Orion 的人工智能模型，这与最近有关该公司产品路线图的报道相矛盾。 “我们今年没有计划发布代号为 Orion 的机型，”一位发言人通…

王浩然
2024年10月26日
000
AI前沿

科技行业巨头敦促欧盟简化人工智能监管

Meta牵头发表了一封公开信，呼吁欧盟紧急改革人工智能监管规定。这封信得到了爱立信、SAP和 Spotify 等 50 多家知名公司的支持，并以广告形式刊登在《金融时报》上。这些…

点点
2024年9月20日
000
AI前沿

本周人工智能：OpenAI 的 o1 为何会改变人工智能规则游戏

几天前，OpenAI 向全世界发布了其最新的旗舰生成模型 o1。o1被宣传为一种“推理”模型，它实际上需要更长的时间来“思考”问题，然后再回答问题，分解问题并检查自己的答案。 o1…

王浩然
2024年9月19日
000
AI前沿

从 o1 到 o3：OpenAI 如何重新定义人工智能中的复杂推理

生成式人工智能重新定义了我们对人工智能能力的认知。它最初只是一种用于完成简单重复性任务的工具，现在正在解决我们面临的一些最具挑战性的问题。OpenAI 在这一转变中发挥了重要作用，…

王浩然
2024年12月27日
000
AI前沿

德勤调查：企业对生成式人工智能持谨慎乐观态度

一项新调查发现，一年前，企业对生成式人工智能的前景充满热情，但随着它们面临将人工智能的可能性转化为成果的复杂性，这种热情已逐渐消退，转而变得乐观起来。德勤第四份《企业生成人工智能…

王浩然
2025年1月26日
000
AI前沿

苹果称 AirPods Pro 2 可用作“临床级”助听器

苹果表示，其最新旗舰无线耳机 AirPods Pro 2 可用作“临床级”助听器。不过，该功能尚未获得 FDA 批准，尽管该公司表示预计“很快”就会获得批准。新款 AirPods …

王浩然
2024年9月10日
000
AI前沿

苹果发布专为人工智能打造的 iPhone 16；Apple Intelligence 即将加入产品阵容

苹果正在将人工智能引入其产品线，从周一发布的新款 iPhone 16 和新的个人智能系统开始。苹果表示，公司的Apple Intelligence将为新机型提供“易于使用的个人智…

点点
2024年9月11日
000
AI前沿

Adobe 推出全新生成式 AI 视频工具

Adobe MAX 2024 上推出了 Firefly 视频模型和其他增强的创意工具

点点
2024年10月23日
000

发表回复

Please Login to Comment

为什么 ChatGPT 的数学这么差？

相关推荐

发表回复

Share To :