OpenAI 推出 o3-mini 高级推理模型，对抗 DeepSeek 的崛起

王浩然 • 2025年2月2日下午3:00 • AI前沿 • 77 views

OpenAI 及时发布了新的专有 AI 模型，以对抗开源竞争对手 DeepSeek-R1 的快速崛起——但这足以削弱后者的成功吗？

今天，经过几天的谣言和社交媒体上人工智能用户的日益期待，OpenAl 推出了 o3-mini，这是其新“推理机”系列中的第二个模型 – 人工智能模型需要稍微多一点的时间来“思考”，分析自己的过程并反思自己的“思路链”，然后用新的输出响应用户的查询和输入。

最终结果是一个模型，其性能达到博士生甚至学位持有者的水平，能够回答数学、科学、工程和许多其他领域的难题。

o3-mini 模型现已在 ChatGPT（包括免费版）和 OpenAI 的应用程序编程接口 (API) 上可用。而且，它实际上比之前的高端模型 OpenAI 的 o1 以及速度更快、参数数量更少的兄弟模型 o1-mini 更便宜、速度更快、性能更高。

虽然它不可避免地会与 DeepSeek-R1 进行比较——而且有些人认为发布日期是一种反应——但重要的是要记住，o3 和 o3-mini 是在2024 年 1 月 DeepSeek R1 发布之前（2024 年 12 月）宣布的，并且 OpenAI 首席执行官 Sam Altman之前在 X 上表示，由于开发人员和研究人员的反馈，它将同时出现在 ChatGPT 和 OpenAI API 上。

与 DeepSeek-R1 不同，o3-mini 不会作为开源模型提供 – 这意味着代码不能下载用于离线使用，也不能进行同等程度的定制，这可能会限制它在某些应用程序上与 DeepSeek-R1 相比的吸引力。

OpenAI 没有提供关于去年 12 月与 o3-mini 一同发布的（推测）更大 o3 模型的更多细节。当时，OpenAI 用于测试 o3 的选择下拉表单表示，第三方测试 o3 之前会经历“数周的延迟”。

性能和特点

与 o1 类似，OpenAI o3-mini 针对数学、编码和科学推理进行了优化。

在使用中等推理工作量时，其性能与 OpenAI o1 相当，但具有以下优势：

与 o1-mini 相比，响应时间提高了 24％（OpenAI 在此处没有提供具体数字，但根据第三方评估小组Artificial Analysis 的测试，o1-mini 的响应时间为 12.8 秒，可接收并输出 100 个 token。因此，对于 o3-mini，24％的速度提升会将响应时间缩短至 10.32 秒。）
提高了准确性，56% 的外部测试人员更喜欢 o3-mini 的响应。
复杂的现实问题中的重大错误减少了 39%。
在编码和 STEM 任务中表现更佳，尤其是在使用高推理努力时。
三种推理努力程度（低、中、高），允许用户和开发人员平衡准确性和速度。

根据OpenAI在线发布的o3-mini系统卡（早于官方模型可用性公告发布），该模型的基准测试成绩也令人印象深刻，在某些情况下甚至超过了o1。

o3-mini 的上下文窗口（即在一次交互中可以输入/输出的组合标记数量）为 200,000，每次输出最多 100,000。这与完整的 o1 模型相同，并且优于DeepSeek – R1 的上下文窗口（约 128,000/130,000 个标记）。但是，它远低于Google Gemini 2.0 Flash Thinking 的新上下文窗口（最多 100 万个标记）。

虽然 o3-mini 专注于推理能力，但它尚不具备视觉能力。希望上传图像和文件的开发人员和用户应在此期间继续使用 o1。

竞争日趋激烈

o3-mini 的推出标志着 OpenAI 首次向免费 ChatGPT 用户提供推理模型。之前的 o1 模型系列仅向 ChatGPT Plus、Pro 和其他计划的付费用户以及通过 OpenAI 的付费 API 提供。

就像 2022 年 11 月推出 ChatGPT 来打造基于大型语言模型 (LLM) 的聊天机器人一样，OpenAI 于 2024 年 9 月首次推出 o1（一类具有新训练机制和架构的模型）时，基本上创建了整个推理模型类别。

但 OpenAI 按照其近期历史，没有将 o1 开源，这违背了其名称和最初的成立使命。相反，它将该模型的代码保留为专有的。

而在过去两周，o1 的光芒一直被中国人工智能初创企业 DeepSeek所掩盖，后者推出了 R1，这是一种可与之匹敌的、高效、基本上是开源的推理模型，可供世界各地的任何人免费获取、重新训练和定制，也可以在 DeepSeek 的网站和移动应用程序上免费使用——据报道，该模型的训练成本仅为 o1 和其他顶级实验室的法学硕士学位的一小部分。

DeepSeek-R1 的MIT 许可条款宽松，为消费者提供免费的应用程序/网站，并决定让 R1 的代码库可以自由获取和修改，这让它在消费者和企业市场都得到了真正的使用激增——甚至OpenAI 投资者微软和 Anthropic 支持者亚马逊也争相将其变体添加到他们的云市场。人工智能搜索公司 Perplexity 也迅速为用户添加了一个变体。

DeepSeek 还取代了 ChatGPT iOS 应用，成为美国 Apple App Store中排名第一的应用，并且通过将其 R1 模型连接到其应用和网络上的网络搜索，超越了 OpenAI。这是 OpenAI 尚未为 o1 完成的事情，这导致技术工作者和其他在线人士进一步产生技术焦虑，担心中国在人工智能创新方面——甚至在更广泛的技术领域——正在赶上或超过美国。

然而，许多人工智能研究人员、科学家和马克·安德森 (Marc Andreessen) 等顶级风险投资家都对 DeepSeek 的崛起表示欢迎，尤其是它的开源，认为这是一股让人工智能领域所有船只都受益的潮流，在降低成本的同时增加了每个人可用的智能。

ChatGPT 中的可用性

o3 目前正在全球向 ChatGPT Free、Plus、Team 和 Pro 用户推出，企业和教育访问权限将于下周推出。

Plus 和 Team 用户的消息限制增加了 3 倍，从每天 50 条增加到 150 条。
专业用户可以无限制访问 o3-mini 和新的、甚至更高级推理变体 o3-mini-high。

此外，o3-mini 现在支持 ChatGPT 中的搜索集成，为响应提供相关的网络链接。随着 OpenAI 在其推理模型中完善搜索功能，此功能仍处于早期阶段。

API 集成和定价

对于开发者来说，o3-mini 可通过 Chat Completions API、Assistants API 和 Batch API 使用。该模型支持函数调用、结构化输出和开发者消息，因此很容易集成到实际应用中。

o3-mini 最显著的优势之一是其成本效益：它比 OpenAI o1-mini 便宜 63%，比完整的 o1 模型便宜 93%，价格为每百万个代币输入/输出 1.10 美元/4.40 美元（缓存折扣 50%）。

然而，与官方DeepSeek API提供的 R1（每百万代币输入/输出 0.14 美元/0.55 美元）相比，它仍然显得微不足道。但鉴于 DeepSeek 总部位于中国，并且伴随着地缘政治意识和对用户/企业数据流入和流出模型的安全担忧，OpenAI 很可能仍是美国和欧洲一些注重安全的客户和企业的首选 API。

开发人员还可以根据其应用需求调整推理工作量级别（低、中、高），从而更好地控制延迟和准确性权衡。

在安全性方面，OpenAI 表示，它在 o3-mini 中使用了一种称为“协商一致”的方法。这意味着要求模型对人类编写的安全指南进行推理，更多地了解其意图以及旨在防止的危害，并提出自己的方法来确保防止这些危害。OpenAI 表示，这可以让模型在讨论敏感话题时不那么挑剔，同时还能保证安全。

OpenAI 表示，该模型在处理安全和越狱挑战方面的表现优于 GPT-4o，并且在今天发布之前进行了广泛的外部安全测试。

《连线》最近报道显示，在安全研究人员进行的 50 次越狱提示和尝试中，DeepSeek 均未失败，这可能使 OpenAI o3-mini 在安全性和保障至关重要的情况下比 DeepSeek R1 更具优势。

下一步是什么？

o3-mini 的推出代表了 OpenAI 为使高级推理 AI 更易于访问和具有成本效益而做出的更广泛努力，因为面对来自 DeepSeek 的 R1 和其他公司前所未有的激烈竞争。这其中包括谷歌，该公司最近发布了自己的竞争对手推理模型Gemini 2 Flash Thinking的免费版本，其扩展的输入上下文高达 100 万个 token。

OpenAI 专注于 STEM 推理和可负担性，旨在扩大人工智能驱动的问题解决在消费者和开发者应用程序中的覆盖范围。

但随着该公司变得比以往更加雄心勃勃——例如，最近宣布在软银的支持下启动一项价值 5000 亿美元的数据中心基础设施项目“星际之门”——问题仍然是，它的战略是否能获得足够的回报，以证明微软和其他风险投资公司等财力雄厚的投资者投入的数十亿美元是合理的。

随着开源模型在性能上与 OpenAI 的差距越来越小，成本上也越来越高，其据称卓越的安全措施、强大的功能、易于使用的 API 和用户友好的界面是否足以留住客户（尤其是企业客户），他们可能会优先考虑成本和效率而不是这些属性？与往常一样，我们将随时报道事态的发展。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-tui-chu-o3mini-gao-ji-tui-li-mo-xing-dui-kang

Like (0)

王浩然作者

0 0

Sam Altman 承认 OpenAI 在开源辩论中“站在了历史的错误一边”

Previous 2025年2月2日

前 Google、Meta 领导人推出 Palona AI，为非技术型企业提供个性化、情感化的客服代理

Next 2025年2月2日

AI前沿

一款集多模态理解与生成于一体的单一 Transformer

大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作，例如 LLaVA、MiniGPT-4 和 InstructBLIP，展示…

点点
2024年10月12日
000
AI前沿

人工智能需求推动数据中心耗水量飙升

人工智能热潮推动了对数据中心的需求，进而推高了水资源消耗。（水用于冷却数据中心内的计算设备。）《金融时报》报道，在弗吉尼亚州——世界上数据中心最集中的地方——2019 年至 202…

王浩然
2024年9月1日
000
AI前沿

微软将在德国面临更严格的竞争审查，包括其对人工智能的使用

微软已加入受德国特殊滥用控制制度约束的科技巨头专属俱乐部。德国联邦企业联合办公室 (FCO) 周一证实，如果竞争管理机构认为有必要进行干预，这家软件巨头可能会受到限制。这项为期五…

王浩然
2024年10月1日
000
AI前沿

乌克兰正在利用数百万小时的无人机镜头训练人工智能进行战争

正在进行的俄罗斯-乌克兰冲突可能是第一场真正的人工智能战争，双方都开始依赖小型无人机进行侦察、识别目标，甚至向敌方投掷致命炸弹。这种新型战争允许指挥官从安全距离勘察区域，并凸显了轻…

王浩然
2024年12月25日
000
AI前沿

Anthropic 的新 AI 模型可以控制你的电脑

去年春天，Anthropic在向投资者推介时表示，公司打算开发人工智能来驱动虚拟助理，让其能够独立进行研究、回复电子邮件和处理其他后台工作。该公司将此称为“人工智能自学的下一代算法…

王浩然
2024年10月24日
000
AI前沿

网站建设者 Squarespace 表示正在通过策划和品味来训练其人工智能工具

生成式人工智能工具能帮助人们建立更好的网站吗？还是只会让网络充斥着垃圾信息？Squarespace 最近推出了Design Intelligence，这是一款充满生成式人工智能工具…

王浩然
2024年10月8日
000
AI前沿

AI编程助手并非万能解决方案

近期的一份报告显示，人工智能（AI）编程助手虽然在一定程度上提高了编程效率，但并非所有编程问题的万能解决方案。这一结论基于对当前市场上主流AI编程助手功能的深入分析，以及对开发者实…

王浩然
2025年2月25日
000
AI前沿

OpenAI o1 介绍：人工智能推理能力的飞跃，助力解决高级问题

OpenAI 的新模型OpenAI o1或 Strawberry 代表了人工智能领域的重大进步。它以 OpenAI 的 GPT 系列等先前模型为基础，并引入了增强的推理能力，从而加…

点点
2024年9月17日
000
AI前沿

这是我见过的最奇怪的游戏笔记本电脑

宏碁在IFA 2024上推出了一些非常有趣的产品。该公司发布了 Project DualPlay，这是一款笔记本电脑概念产品，其中隐藏着一些有趣的技巧。合上盖子时，它是一种相对标准…

王浩然
2024年9月5日
000
AI前沿

伟大的人工智能伪装：当自动化穿上特工服装时

这是一年中最恐怖的时刻，而在 2024 年，不仅仅是人们穿着服装。科技界正在上演一场伪装：自动化系统披上了人工智能代理的外衣，而许多人都被这种伪装所蒙骗。随着Gartner将“代…

王浩然
2024年11月3日
000
AI前沿

丰田与 NTT 联手推进 33 亿美元 AI 移动出行项目

日本汽车制造商丰田正与电信巨头日本电报电话公司 (NTT) 合作开发使用人工智能预防事故的驾驶辅助系统。两人计划投资 33 亿美元打造一个全新的移动 AI 平台，该平台利用大量数…

王浩然
2024年11月7日
000
AI前沿

Nvidia 在卡内基梅隆大学成立人工智能、机器人技术社区

该计划旨在加强具有人工智能技术转型潜力的社区之间的公私合作伙伴关系

点点
2024年10月22日
000
AI前沿

人工智能研究人员如何获得诺贝尔物理学奖和化学奖：未来科学发现的两个关键教训

2024 年的诺贝尔奖让许多人感到意外，因为人工智能研究人员是物理学和化学领域的杰出获奖者之一。杰弗里·辛顿和约翰·霍普菲尔德因其在神经网络方面的奠基性工作而获得诺贝尔物理学奖。相…

点点
2024年10月21日
000
AI前沿

Quantexa获1.75亿美元融资，估值达26亿美元，加码人工智能数据分析‌

近期，数据分析领域的创新企业Quantexa宣布成功获得1.75亿美元的融资，公司估值随之跃升至26亿美元。这笔资金将主要用于加速Quantexa在人工智能数据分析领域的布局，进一…

王浩然
2025年3月6日
000
AI前沿

谷歌发布三款全新实验性 Gemini 模型

谷歌刚刚宣布发布三种新的实验性人工智能模型，展示了其在该领域的持续创新，同时也凸显了人工智能能力进步的快速速度。谷歌新产品的先锋产品是 Gemini 1.5 Flas…

点点
2024年8月30日
000
AI前沿

特斯拉 Cybercab 机器人出租车问世——售价可能不到 3 万美元

特斯拉终于发布了 Cybercab 机器人出租车。Cyber cab在公司的We, Robot 活动上亮相，看起来像一款更小、更时尚的双座 Cybertruck——该公…

点点
2024年10月13日
000
AI前沿

OpenAI 开始将注意力转向“超级智能”

OpenAI 首席执行官 Sam Altman 在其个人博客上发表文章称，他相信 OpenAI“知道如何构建（通用人工智能）”，就像它传统上所理解的那样——并且开始将其目标转向“超…

王浩然
2025年1月6日
000
AI前沿

随着中国模型缩小人工智能领导地位的差距，OpenAI 面临严峻考验

在快速发展的人工智能领域，竞争日趋激烈，在高级推理模型的争夺中，竞争尤为明显。仅在过去几天，来自中国开发商的三款新人工智能模型——Deepseek R1（HighFlyer Cap…

王浩然
2024年12月1日
000
AI前沿

‌1.15亿美元融资助力这家初创企业，让工程设计速度提升1000倍，贝佐斯、阿尔特曼和英伟达纷纷下注‌

在科技领域的激烈竞争中，一家初创企业以其革命性的技术脱颖而出，吸引了包括杰夫·贝佐斯（Jeff Bezos）、史蒂夫·阿尔特曼（Steve Altman）以及英伟达（Nvidia）…

王浩然
1天前
000
AI前沿

Meta AI 现在可以理解和编辑你的照片

在人工智能照片编辑方面，Meta AI 开始赶上谷歌。周三，在Meta Connect 2024 大会上，这家科技巨头宣布，Meta AI 现在将能够使用人工智能技术帮助您编辑照片…

王浩然
2024年9月28日
000