OpenAI 推出 o3-mini 高级推理模型,对抗 DeepSeek 的崛起

OpenAI 推出 o3-mini 高级推理模型,对抗 DeepSeek 的崛起

OpenAI 及时发布了新的专有 AI 模型,以对抗开源竞争对手 DeepSeek-R1 的快速崛起——但这足以削弱后者的成功吗?

今天,经过几天的谣言和社交媒体上人工智能用户的日益期待,OpenAl 推出了 o3-mini,这是其新“推理机”系列中的第二个模型 – 人工智能模型需要稍微多一点的时间来“思考”,分析自己的过程并反思自己的“思路链”,然后用新的输出响应用户的查询和输入。

最终结果是一个模型,其性能达到博士生甚至学位持有者的水平,能够回答数学、科学、工程和许多其他领域的难题。

o3-mini 模型现已在 ChatGPT(包括免费版)和 OpenAI 的应用程序编程接口 (API) 上可用。而且,它实际上比之前的高端模型 OpenAI 的 o1 以及速度更快、参数数量更少的兄弟模型 o1-mini 更便宜、速度更快、性能更高。

虽然它不可避免地会与 DeepSeek-R1 进行比较——而且有些人认为发布日期是一种反应——但重要的是要记住,o3 和 o3-mini 是在2024 年 1 月 DeepSeek R1 发布之前(2024 年 12 月)宣布的,并且 OpenAI 首席执行官 Sam Altman之前在 X 上表示,由于开发人员和研究人员的反馈,它将同时出现在 ChatGPT 和 OpenAI API 上。

与 DeepSeek-R1 不同,o3-mini 不会作为开源模型提供 – 这意味着代码不能下载用于离线使用,也不能进行同等程度的定制,这可能会限制它在某些应用程序上与 DeepSeek-R1 相比的吸引力。

OpenAI 没有提供关于去年 12 月与 o3-mini 一同发布的(推测)更大 o3 模型的更多细节。当时,OpenAI 用于测试 o3 的选择下拉表单表示,第三方测试 o3 之前会经历“数周的延迟”。

性能和特点

与 o1 类似,OpenAI o3-mini 针对数学、编码和科学推理进行了优化。

在使用中等推理工作量时,其性能与 OpenAI o1 相当,但具有以下优势:

  • 与 o1-mini 相比,响应时间提高了 24%(OpenAI 在此处没有提供具体数字,但根据第三方评估小组Artificial Analysis 的测试,o1-mini 的响应时间为 12.8 秒,可接收并输出 100 个 token。因此,对于 o3-mini,24% 的速度提升会将响应时间缩短至 10.32 秒。)
  • 提高了准确性,56% 的外部测试人员更喜欢 o3-mini 的响应。
  • 复杂的现实问题中的重大错误减少了 39%。
  • 在编码和 STEM 任务中表现更佳,尤其是在使用高推理努力时。
  • 三种推理努力程度(低、中、高),允许用户和开发人员平衡准确性和速度。

根据OpenAI在线发布的o3-mini系统卡(早于官方模型可用性公告发布),该模型的基准测试成绩也令人印象深刻,在某些情况下甚至超过了o1。

OpenAI 推出 o3-mini 高级推理模型,对抗 DeepSeek 的崛起

o3-mini 的上下文窗口(即在一次交互中可以输入/输出的组合标记数量)为 200,000,每次输出最多 100,000。这与完整的 o1 模型相同,并且优于DeepSeek – R1 的上下文窗口(约 128,000/130,000 个标记)。但是,它远低于Google Gemini 2.0 Flash Thinking 的新上下文窗口(最多 100 万个标记)。

虽然 o3-mini 专注于推理能力,但它尚不具备视觉能力。希望上传图像和文件的开发人员和用户应在此期间继续使用 o1。

竞争日趋激烈

o3-mini 的推出标志着 OpenAI 首次向免费 ChatGPT 用户提供推理模型。之前的 o1 模型系列仅向 ChatGPT Plus、Pro 和其他计划的付费用户以及通过 OpenAI 的付费 API 提供。

就像 2022 年 11 月推出 ChatGPT 来打造基于大型语言模型 (LLM) 的聊天机器人一样,OpenAI 于 2024 年 9 月首次推出 o1(一类具有新训练机制和架构的模型)时,基本上创建了整个推理模型类别。

但 OpenAI 按照其近期历史,没有将 o1 开源,这违背了其名称和最初的成立使命。相反,它将该模型的代码保留为专有的。

而在过去两周,o1 的光芒一直被中国人工智能初创企业 DeepSeek所掩盖,后者推出了 R1,这是一种可与之匹敌的、高效、基本上是开源的推理模型,可供世界各地的任何人免费获取、重新训练和定制,也可以在 DeepSeek 的网站和移动应用程序上免费使用——据报道,该模型的训练成本仅为 o1 和其他顶级实验室的法学硕士学位的一小部分。

DeepSeek-R1 的MIT 许可条款宽松,为消费者提供免费的应用程序/网站,并决定让 R1 的代码库可以自由获取和修改,这让它在消费者和企业市场都得到了真正的使用激增——甚至OpenAI 投资者微软Anthropic 支持者亚马逊也争相将其变体添加到他们的云市场。人工智能搜索公司 Perplexity 也迅速为用户添加了一个变体。

DeepSeek 还取代了 ChatGPT iOS 应用,成为美国 Apple App Store中排名第一的应用,并且通过将其 R1 模型连接到其应用和网络上的网络搜索,超越了 OpenAI。这是 OpenAI 尚未为 o1 完成的事情,这导致技术工作者和其他在线人士进一步产生技术焦虑,担心中国在人工智能创新方面——甚至在更广泛的技术领域——正在赶上或超过美国。

然而,许多人工智能研究人员、科学家和马克·安德森 (Marc Andreessen) 等顶级风险投资家都对 DeepSeek 的崛起表示欢迎,尤其是它的开源,认为这是一股让人工智能领域所有船只都受益的潮流,在降低成本的同时增加了每个人可用的智能。

ChatGPT 中的可用性

o3 目前正在全球向 ChatGPT Free、Plus、Team 和 Pro 用户推出,企业和教育访问权限将于下周推出。

OpenAI 推出 o3-mini 高级推理模型,对抗 DeepSeek 的崛起
  • Plus 和 Team 用户的消息限制增加了 3 倍,从每天 50 条增加到 150 条。
  • 专业用户可以无限制访问 o3-mini 和新的、甚至更高级推理变体 o3-mini-high。

此外,o3-mini 现在支持 ChatGPT 中的搜索集成,为响应提供相关的网络链接。随着 OpenAI 在其推理模型中完善搜索功能,此功能仍处于早期阶段。

API 集成和定价

对于开发者来说,o3-mini 可通过 Chat Completions API、Assistants API 和 Batch API 使用。该模型支持函数调用、结构化输出和开发者消息,因此很容易集成到实际应用中。

o3-mini 最显著的优势之一是其成本效益:它比 OpenAI o1-mini 便宜 63%,比完整的 o1 模型便宜 93%,价格为每百万个代币输入/输出 1.10 美元/4.40 美元(缓存折扣 50%)。

然而,与官方DeepSeek API提供的 R1(每百万代币输入/输出 0.14 美元/0.55 美元)相比,它仍然显得微不足道。但鉴于 DeepSeek 总部位于中国,并且伴随着地缘政治意识和对用户/企业数据流入和流出模型的安全担忧,OpenAI 很可能仍是美国和欧洲一些注重安全的客户和企业的首选 API。

开发人员还可以根据其应用需求调整推理工作量级别(低、中、高),从而更好地控制延迟和准确性权衡。

在安全性方面,OpenAI 表示,它在 o3-mini 中使用了一种称为“协商一致”的方法。这意味着要求模型对人类编写的安全指南进行推理,更多地了解其意图以及旨在防止的危害,并提出自己的方法来确保防止这些危害。OpenAI 表示,这可以让模型在讨论敏感话题时不那么挑剔,同时还能保证安全。

OpenAI 表示,该模型在处理安全和越狱挑战方面的表现优于 GPT-4o,并且在今天发布之前进行了广泛的外部安全测试。

《连线》最近报道显示,在安全研究人员进行的 50 次越狱提示和尝试中,DeepSeek 均未失败,这可能使 OpenAI o3-mini 在安全性和保障至关重要的情况下比 DeepSeek R1 更具优势。

下一步是什么

o3-mini 的推出代表了 OpenAI 为使高级推理 AI 更易于访问和具有成本效益而做出的更广泛努力,因为面对来自 DeepSeek 的 R1 和其他公司前所未有的激烈竞争。这其中包括谷歌,该公司最近发布了自己的竞争对手推理模型Gemini 2 Flash Thinking的免费版本,其扩展的输入上下文高达 100 万个 token。

OpenAI 专注于 STEM 推理和可负担性,旨在扩大人工智能驱动的问题解决在消费者和开发者应用程序中的覆盖范围。

但随着该公司变得比以往更加雄心勃勃——例如,最近宣布在软银的支持下启动一项价值 5000 亿美元的数据中心基础设施项目“星际之门”——问题仍然是,它的战略是否能获得足够的回报,以证明微软和其他风险投资公司等财力雄厚的投资者投入的数十亿美元是合理的。

随着开源模型在性能上与 OpenAI 的差距越来越小,成本上也越来越高,其据称卓越的安全措施、强大的功能、易于使用的 API 和用户友好的界面是否足以留住客户(尤其是企业客户),他们可能会优先考虑成本和效率而不是这些属性?与往常一样,我们将随时报道事态的发展。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-tui-chu-o3mini-gao-ji-tui-li-mo-xing-dui-kang

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年2月2日
Next 2025年2月2日

相关推荐

发表回复

Please Login to Comment