OpenAI 为 DeepSeek 竞赛提供 o3-mini 详细推理轨迹

王浩然 • 2025年2月9日下午2:00 • AI前沿 • 53 views

OpenAI 目前正在展示其最新推理模型 o3-mini 的更多推理过程细节。这一变化是在
OpenAI 的 X 账户上宣布的，而此时人工智能实验室正面临来自 DeepSeek-R1 的越来越大的压力，DeepSeek-R1 是一个完全展示其推理令牌的竞争对手开放模型。

o3 和 R1 等模型经历了漫长的“思路链”（CoT）过程，在此过程中，它们会生成额外的标记来分解问题、推理和测试不同的答案并得出最终解决方案。以前，OpenAI 的推理模型隐藏了它们的思路链，只对推理步骤进行了高级概述。这使得用户和开发人员很难理解模型的推理逻辑，也很难更改他们的指令和提示以将其引导到正确的方向。

OpenAI 认为思维链是一种竞争优势，因此将其隐藏起来，以防止竞争对手抄袭来训练自己的模型。但随着 R1 和其他开放模型展示出它们完整的推理轨迹，缺乏透明度就成了 OpenAI 的劣势。

新版 o3-mini 展示了更详细的 CoT 版本。虽然我们仍然看不到原始标记，但它提供了更清晰的推理过程。

为什么它对应用程序很重要

在我们之前对 o1 和 R1 进行的实验中，我们发现 o1 在解决数据分析和推理问题方面略胜一筹。然而，一个关键的限制是，我们无法弄清楚模型为什么会出错——而且它在面对从网络获得的混乱的现实世界数据时经常会出错。另一方面，R1 的思路链使我们能够解决问题并改变我们的提示以改进推理。

例如，在我们的一个实验中，两个模型都无法提供正确答案。但得益于 R1 的详细思路，我们能够发现问题不在于模型本身，而在于从网络收集信息的检索阶段。在其他实验中，当 R1 的思路无法解析我们提供的信息时，它能够为我们提供提示，而 o1 仅向我们提供了它如何制定响应的非常粗略的概述。

我们在之前对 o1 进行的实验的一个变体上测试了新的 o3-mini 模型。我们为模型提供了一个文本文件，其中包含 2024 年 1 月至 2025 年 1 月期间各种股票的价格。该文件内容杂乱且未格式化，是纯文本和 HTML 元素的混合。然后，我们要求模型计算一个投资组合的价值，该投资组合在 2024 年 1 月至 2025 年 1 月期间每月第一天向 Magnificent 7 股票投资 140 美元，并均匀分布在所有股票上（我们在提示中使用了术语“Mag 7”，以使其更具挑战性）。

o3-mini 的 CoT 这次真的帮了大忙。首先，该模型推理出 Mag 7 是什么，过滤数据以仅保留相关股票（为了使问题更具挑战性，我们在数据中添加了一些非 Mag 7 股票），计算出每月投资每只股票的金额，并进行最终计算以提供正确答案（在我们提供给模型的数据中记录的最新时间，投资组合的价值约为 2,200 美元）。

由于 OpenAI 仍隐藏着许多细节，因此需要进行大量测试才能发现新思路的局限性。但在我们的氛围测试中，新格式似乎更有用。

这对 OpenAI 意味着什么

DeepSeek-R1发布时，与OpenAI的推理模型相比，它具有三个明显的优势：开放、廉价、透明。

此后，OpenAI 成功缩小了差距。o1 每百万输出代币的成本为 60 美元，而 o3-mini 的成本仅为 4.40 美元，同时在许多推理基准上的表现都优于 o1。R1 在美国提供商上的成本约为每百万代币 7 至 8 美元。（DeepSeek 在自己的服务器上以每百万代币 2.19 美元的价格提供 R1，但由于它托管在中国，许多组织将无法使用它。）

随着 CoT 输出的新变化，OpenAI 已经设法在一定程度上解决透明度问题。

OpenAI 将如何开源其模型还有待观察。自发布以来，R1 已被许多不同的实验室和公司采用、分叉和托管，有可能使其成为企业的首选推理模型。OpenAI 首席执行官 Sam Altman 最近承认，他在开源辩论中“站在了历史的错误一边”。我们必须看看这种认识将如何体现在 OpenAI 未来的版本中。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-wei-deepseek-jing-sai-ti-gong-o3mini-xiang-xi-tui-li

Like (0)

王浩然作者

0 0

从问题开始，沙盒，确定值得信赖的供应商——人工智能入门快速指南

Previous 2025年2月9日

苹果的 ELEGNT 框架可以让家用机器人不再像机器，而更像伴侣

Next 2025年2月9日

AI前沿

谷歌的 NotebookLM 现在可让你引导 AI 生成的音频对话，并启动商业试点

谷歌周四更新了其人工智能笔记和研究助手NotebookLM的音频摘要功能，该功能最近因其基于用户分享的内容进行类似播客的音频对话而备受关注，它能够引导这些对话并关注特定主题，而不仅…

点点
2024年10月18日
000
AI前沿

Manus：来自中国的新一代AI代理系统，被誉为第二个“DeepSeek时刻”

引言在人工智能（AI）领域，每一次技术创新都可能引发行业地震。最近，一款名为Manus的AI代理系统在中国横空出世，并迅速在全球范围内引起了广泛关注。这款被誉为中国第二个“Dee…

王浩然
2025年3月19日
000
AI前沿

利用数字化劳动力提升人类能力

SS&C Blue Prism 英国、爱尔兰和比荷卢三国销售副总裁 Mark Lockett 讨论了该公司的最新发展、客户挑战以及如何充分利用智能自动化工具。您能否向我们…

点点
2024年9月26日
000
AI前沿

为 AI 模型评分：Endor Labs 推出评估工具

Endor Labs已开始根据 AI 模型的安全性、受欢迎程度、质量和活跃度对其进行评分。这一独特功能被称为“AI 模型的 Endor 分数”，旨在通过提供直接的分数来简化识别 …

点点
2024年10月17日
000
AI前沿

量子机器人和人工智能将与人类智能媲美

一个国际科学家团队预测，量子计算与人工智能的融合可以创造出具有前所未有能力的机器人，甚至可能与人类的智能相匹配。这些“量子机器人”将利用量子算法和流程，克服当前机器人依赖二进制计…

王浩然
2024年12月7日
000
AI前沿

AlphaProteo：谷歌DeepMind的蛋白质设计革命

AlphaProteo的出现，意味着我们对蛋白质结构和功能的理解和设计能力，又迈出了一大步。DeepMind团队通过这个系统，展示了他们在蛋白质折叠预测领域的最新进展。

点点
2024年9月7日
000
AI前沿

飞行汽车公司利用人工智能进行车辆设计

SkyDrive 与 Braid Technologies 合作，利用人工智能对数千种设计模式进行微调，以优化其电动飞行器

点点
2024年9月27日
000
AI前沿

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

亚马逊网络服务 (AWS) 正在将其Amazon Q Developer AI 助手作为附加组件提供，开发人员可以在其集成开发环境 (IDE)（例如 Visual Studio C…

王浩然
2024年11月1日
000
AI前沿

使用 LangChain 在聊天机器人中集成语境理解

近年来，数字世界发生了重大变化，聊天机器人成为客户服务、虚拟助理和许多其他领域的重要工具。这些由人工智能驱动的代理发展迅速，现在可以处理各种任务，从回答简单的问题到管理复杂的客户互…

王浩然
2024年8月31日
000
AI前沿

Anthropic研究者诱导Claude欺骗：意外发现或将保护我们免受失控AI威胁

在人工智能领域的一次独特实验中，Anthropic的研究人员实施了一项大胆的计划：他们尝试诱导自家的大型语言模型Claude变得具有欺骗性。这一看似悖论的举措背后，隐藏着一个更为深…

王浩然
2025年3月17日
000
AI前沿

Koyeb无服务器云平台：助力开发者快速部署Tenstorrent AI加速器‌

近日，Koyeb无服务器云平台宣布了一项重大更新，允许开发者在该平台上轻松部署Tenstorrent AI加速器。这一更新为开发者提供了更为灵活和高效的AI计算资源，助力他们加速A…

王浩然
2025年2月27日
000
AI前沿

个人AI的崛起：通过自动化颠覆客户体验

引言随着人工智能（AI）技术的飞速发展，特别是大型语言模型（LLMs）与计算能力的显著提升，我们正见证着AI在日常生活和商业领域中的广泛应用。个人AI，作为这一浪潮中的佼佼者，正…

王浩然
2025年3月15日
000
AI前沿

OpenAI全新图像生成器全面向用户开放‌

在人工智能技术的浪潮中，OpenAI始终站在创新的前沿，不断推动着行业的发展。近日，OpenAI宣布其最新的图像生成器已全面向所有用户开放。这一消息标志着OpenAI在图像生成领域…

王浩然
5天前
000
AI前沿

专家观点：人工智能尚未准备好成为科研合作者‌

随着人工智能技术的飞速发展，关于AI能否胜任科研合作者角色的讨论日益激烈。然而，近期一项调查结果显示，多数专家对此持保留态度，他们认为人工智能目前尚未准备好成为真正的科研合作者。 …

王浩然
2025年3月6日
000
AI前沿

高通希望收购英特尔

周五下午，《华尔街日报》报道称，另一家芯片巨头高通已就收购事宜与英特尔接洽。尽管该报未具名消息人士称，任何交易都“远未确定”，但对于一家曾是全球最有价值的芯片公司而言，这将是一个巨…

王浩然
2024年9月23日
000
AI前沿

中国公司利用云计算漏洞获取美国人工智能技术

据路透社根据公开招标文件报道，中国企业正在利用亚马逊及其竞争对手的云服务来获取美国先进的人工智能芯片和功能。路透社在一项全面调查中揭露了中国如何通过中介机构获取美国人工智能芯片。…

AI News
2024年8月31日
000
AI前沿

研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

机器学习模型是如何做到的？它们真的像我们一样“思考”或“推理”吗？这既是一个哲学问题，也是一个实践问题，但周五发表的一篇新论文表明，答案至少就目前而言，是一个相当明确的“不”。苹…

王浩然
2024年10月12日
000
AI前沿

2025 年值得关注的数据中心监管趋势

全球各地的政府机构都在制定法规，以提高数据中心的可持续性和弹性。这反过来又迫使数据中心运营商实施新的流程和程序来满足新的要求。欧盟修订的《能源效率指令》（EED）旨在减少能源…

王浩然
2024年12月7日
000
AI前沿

医疗保健领域的人工智能应该从小处着手

1970 年，阿波罗 13 号登月任务开始六分钟后，其氧气罐发生爆炸。这一事件促使 NASA 开发了一种新方法来预测其航天器可能出现的故障。该方法依赖于连续的传感器数据，然后输入深…

点点
2024年9月4日
000
AI前沿

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

2024年9月25日，腾研读书举办了一场对谈，腾讯研究院资深专家袁晓辉对谈前OpenAI研究员，也是《为什么伟大不能被计划》一书的两位作者肯尼斯·斯坦利（Kenneth Stanl…

点点
2024年10月12日
000

发表回复

Please Login to Comment

OpenAI 为 DeepSeek 竞赛提供 o3-mini 详细推理轨迹

为什么它对应用程序很重要

这对 OpenAI 意味着什么

相关推荐

发表回复

Share To :