
OpenAI 目前正在展示其最新推理模型 o3-mini 的更多推理过程细节。这一变化是在
OpenAI 的 X 账户上宣布的,而此时人工智能实验室正面临来自 DeepSeek-R1 的越来越大的压力,DeepSeek-R1 是一个完全展示其推理令牌的竞争对手开放模型。
o3 和 R1 等模型经历了漫长的“思路链”(CoT)过程,在此过程中,它们会生成额外的标记来分解问题、推理和测试不同的答案并得出最终解决方案。以前,OpenAI 的推理模型隐藏了它们的思路链,只对推理步骤进行了高级概述。这使得用户和开发人员很难理解模型的推理逻辑,也很难更改他们的指令和提示以将其引导到正确的方向。
OpenAI 认为思维链是一种竞争优势,因此将其隐藏起来,以防止竞争对手抄袭来训练自己的模型。但随着 R1 和其他开放模型展示出它们完整的推理轨迹,缺乏透明度就成了 OpenAI 的劣势。
新版 o3-mini 展示了更详细的 CoT 版本。虽然我们仍然看不到原始标记,但它提供了更清晰的推理过程。
为什么它对应用程序很重要
在我们之前对 o1 和 R1 进行的实验中,我们发现 o1 在解决数据分析和推理问题方面略胜一筹。然而,一个关键的限制是,我们无法弄清楚模型为什么会出错——而且它在面对从网络获得的混乱的现实世界数据时经常会出错。另一方面,R1 的思路链使我们能够解决问题并改变我们的提示以改进推理。
例如,在我们的一个实验中,两个模型都无法提供正确答案。但得益于 R1 的详细思路,我们能够发现问题不在于模型本身,而在于从网络收集信息的检索阶段。在其他实验中,当 R1 的思路无法解析我们提供的信息时,它能够为我们提供提示,而 o1 仅向我们提供了它如何制定响应的非常粗略的概述。
我们在之前对 o1 进行的实验的一个变体上测试了新的 o3-mini 模型。我们为模型提供了一个文本文件,其中包含 2024 年 1 月至 2025 年 1 月期间各种股票的价格。该文件内容杂乱且未格式化,是纯文本和 HTML 元素的混合。然后,我们要求模型计算一个投资组合的价值,该投资组合在 2024 年 1 月至 2025 年 1 月期间每月第一天向 Magnificent 7 股票投资 140 美元,并均匀分布在所有股票上(我们在提示中使用了术语“Mag 7”,以使其更具挑战性)。
o3-mini 的 CoT 这次真的帮了大忙。首先,该模型推理出 Mag 7 是什么,过滤数据以仅保留相关股票(为了使问题更具挑战性,我们在数据中添加了一些非 Mag 7 股票),计算出每月投资每只股票的金额,并进行最终计算以提供正确答案(在我们提供给模型的数据中记录的最新时间,投资组合的价值约为 2,200 美元)。
由于 OpenAI 仍隐藏着许多细节,因此需要进行大量测试才能发现新思路的局限性。但在我们的氛围测试中,新格式似乎更有用。
这对 OpenAI 意味着什么
DeepSeek-R1发布时,与OpenAI的推理模型相比,它具有三个明显的优势:开放、廉价、透明。
此后,OpenAI 成功缩小了差距。o1 每百万输出代币的成本为 60 美元,而 o3-mini 的成本仅为 4.40 美元,同时在许多推理基准上的表现都优于 o1。R1 在美国提供商上的成本约为每百万代币 7 至 8 美元。(DeepSeek 在自己的服务器上以每百万代币 2.19 美元的价格提供 R1,但由于它托管在中国,许多组织将无法使用它。)
随着 CoT 输出的新变化,OpenAI 已经设法在一定程度上解决透明度问题。
OpenAI 将如何开源其模型还有待观察。自发布以来,R1 已被许多不同的实验室和公司采用、分叉和托管,有可能使其成为企业的首选推理模型。OpenAI 首席执行官 Sam Altman 最近承认,他在开源辩论中“站在了历史的错误一边”。我们必须看看这种认识将如何体现在 OpenAI 未来的版本中。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-wei-deepseek-jing-sai-ti-gong-o3mini-xiang-xi-tui-li