OpenAI o3 的五大突破使其成为人工智能的转折点，同时也带来了一大挑战

王浩然 • 2024年12月30日下午1:00 • AI前沿 • 88 views

2024 年年底，人工智能迎来了清算，业内人士担心，人工智能向更智能方向发展的速度正在放缓。但 OpenAI上周刚刚发布的 o3 模型引发了新一轮的兴奋和争论，并表明 2025 年及以后仍将迎来重大改进。

该模型已宣布在研究人员中进行安全测试，但尚未公开发布，在重要的 ARC 指标上取得了令人印象深刻的成绩。该基准测试由著名人工智能研究人员、Keras 深度学习框架的创建者 François Chollet 创建，专门用于衡量模型处理新型智能任务的能力。因此，它为真正智能的人工智能系统的进展提供了一个有意义的衡量标准。

值得注意的是，o3 在标准计算条件下的 ARC 基准测试中得分为 75.7%，在高计算条件下得分为 87.5%，大大超过了之前最先进的结果，例如Claude 3.5 的得分为 53%。

Chollet 曾批评大型语言模型 (LLM) 无法实现这种智能，他认为 o3 的这一成就代表着一项令人惊讶的进步。它凸显了可以加速实现高级智能的创新，无论我们是否将其称为通用人工智能 (AGI)。

AGI 是一个被夸大了的术语，而且定义不明确，但它标志着一个目标：能够以超越人类能力的方式适应新挑战或问题的智能。

OpenAI 的 o3 解决了长期以来困扰大型语言模型的推理和适应性方面的特定障碍。与此同时，它也暴露了一些挑战，包括将这些系统推向极限所固有的高成本和效率瓶颈。本文将探讨 o3 模型背后的五项关键创新，其中许多创新都以强化学习 (RL) 的进步为基础。它将借鉴行业领袖的见解、OpenAI 的声明，以及最重要的Chollet 的重要分析，来揭示这一突破对我们迈向 2025 年的 AI 未来意味着什么。

o3的五大核心创新

1. 任务适应的“程序合成”

OpenAI 的 o3 模型引入了一项名为“程序合成”的新功能，该功能使其能够动态地将预训练期间学到的东西（特定模式、算法或方法）组合成新的配置。这些内容可能包括数学运算、代码片段或逻辑程序，这些是模型在对各种数据集进行大量训练时遇到并概括的。最重要的是，程序合成使 o3 能够解决它在训练中从未直接见过的任务，例如解决高级编码挑战或解决需要超越死记硬背学习信息的推理的新逻辑难题。François Chollet 将程序合成描述为系统以创新方式重新组合已知工具的能力——就像厨师使用熟悉的食材制作独特的菜肴一样。此功能标志着与早期模型的不同，早期模型主要检索和应用预先学习的知识而无需重新配置——这也是 Chollet 几个月前倡导的唯一可行方法，可以提高智能。

2. 自然语言程序搜索

o3 适应性的核心在于其使用思维链 (CoT) 和在推理过程中发生的复杂搜索过程——当模型在现实世界或部署环境中主动生成答案时。这些 CoT 是模型为探索解决方案而生成的分步自然语言指令。在评估器模型的指导下，o3 主动生成多条解决方案路径并对其进行评估以确定最有希望的选项。这种方法反映了人类解决问题的方式，我们在选择最合适的方法之前集思广益。例如，在数学推理任务中，o3 生成并评估替代策略以得出准确的解决方案。Anthropic 和 Google 等竞争对手已经尝试了类似的方法，但 OpenAI 的实施树立了新的标准。

3. 评估模型：一种新的推理方式

O3 在推理过程中主动生成多条解决方案路径，并借助集成评估器模型对每条路径进行评估，以确定最有希望的选项。通过使用专家标记的数据训练评估器，OpenAI 确保 o3 能够通过复杂的多步骤问题发展出强大的推理能力。此功能使模型能够充当自身推理的判断者，使大型语言模型更接近能够“思考”而不是简单地做出反应。

4. 执行自己的程序

o3 最具突破性的功能之一是它能够执行自己的思维链 (CoT) 作为自适应解决问题的工具。传统上，CoT 被用作解决特定问题的分步推理框架。OpenAI 的 o3 扩展了这一概念，利用 CoT 作为可重复使用的构建块，使模型能够以更大的适应性应对新挑战。随着时间的推移，这些 CoT 成为解决问题策略的结构化记录，类似于人类通过经验记录和改进学习的方式。这种能力展示了 o3 如何突破自适应推理的边界。据OpenAI 工程师 Nat McAleese介绍，o3 在前所未见的编程挑战中的表现，例如获得 2700 以上的 CodeForces 评分，展示了其对 CoT 的创新使用，可与顶级竞技程序员相媲美。2700 的评分使该模型达到了“大师”级别，跻身全球竞技程序员的顶级行列。

5. 深度学习引导的程序搜索

O3 在推理过程中利用深度学习驱动的方法来评估和改进复杂问题的潜在解决方案。此过程涉及生成多条解决方案路径，并使用在训练期间学习到的模式来评估其可行性。François Chollet 和其他专家指出，这种对“间接评估”的依赖（根据内部指标来判断解决方案，而不是在现实场景中进行测试）可能会限制模型在应用于不可预测或特定于企业的环境中的稳健性。

此外，o3 依赖专家标记的数据集来训练其评估模型，这引发了人们对可扩展性的担忧。虽然这些数据集提高了精度，但它们也需要大量的人工监督，这可能会限制系统的适应性和成本效益。Chollet 强调，这些权衡说明了将推理系统扩展到 ARC-AGI 等受控基准之外的挑战。

最终，这种方法展示了将深度学习技术与程序化问题解决相结合的潜力和局限性。虽然 o3 的创新展示了进步，但它们也强调了构建真正可通用的 AI 系统的复杂性。

o3 面临的巨大挑战

OpenAI 的 o3 模型取得了令人印象深刻的结果，但计算成本很高，每个任务消耗数百万个 token — 这种昂贵的方法是模型面临的最大挑战。François Chollet、Nat McAleese 等人强调了对此类模型经济可行性的担忧，强调需要在性能和可负担性之间取得平衡的创新。

o3 的发布引起了整个 AI 社区的关注。竞争对手，例如谷歌的 Gemini 2和中国公司的 DeepSeek 3也在不断进步，在这些模型得到更广泛的测试之前，直接比较具有挑战性。

人们对 o3 的看法不一：一些人称赞其技术进步，而另一些人则认为其成本高昂且缺乏透明度，认为只有通过更广泛的测试才能清楚其真正价值。最大的批评之一来自谷歌 DeepMind 的 Denny Zhou，他含蓄地批评该模型对强化学习 (RL) 扩展和搜索机制的依赖是潜在的“死胡同”，相反，他认为模型应该能够从更简单的微调过程中学习推理。

这对企业 AI 意味着什么

无论它是否代表着进一步创新的完美方向，对于企业而言，o3新发现的适应性表明，未来人工智能将以某种方式继续改变包括客户服务和科学研究在内的各个行业。

行业参与者需要一些时间来消化 o3 带来的好处。对于担心 o3 高计算成本的企业来说，OpenAI 即将发布的精简版“o3-mini”模型提供了一个潜在的替代方案。虽然它牺牲了完整模型的一些功能，但 o3-mini 承诺为企业提供更实惠的试验选择——保留大部分核心创新，同时显着降低测试时间计算要求。

企业公司可能还需要一段时间才能接触到 o3 模型。OpenAI 表示，o3-mini 预计将于 1 月底推出。完整的 o3 版本将随后发布，但具体时间取决于当前安全测试阶段获得的反馈和见解。建议企业公司对其进行测试。他们希望用自己的数据和用例来支撑该模型，看看它到底是如何工作的。

但与此同时，他们已经可以使用许多其他已经推出并经过充分测试的优秀模型，包括旗舰 o4 模型和其他竞争模型——其中许多模型已经足够强大，可以构建具有实用价值的智能、定制应用程序。

事实上，明年我们将从两个方面着手。第一，从人工智能应用中实现实际价值，充实模型可以与人工智能代理一起做什么，以及已经实现的其他创新。第二，我们将坐下来吃爆米花，看看这场智能竞赛如何展开——任何进展都只是锦上添花而已。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-o3-de-wu-da-tu-po-shi-qi-cheng-wei-ren-gong-zhi-neng

ARC 指标 Claude DeepSeek Gemini OpenAI o3 人工智能

Like (0)

王浩然作者

0 0

尽管人工智能军备竞赛激烈，但我们仍将迎来多模式未来

Previous 2024年12月30日

人工智能数据中心可能会“扭曲”美国电网

Next 2024年12月30日

AI前沿

为什么我的iPhone没有充电？

当您插入iPhone或将其放在无线充电器上为电池充电时，可是它还没有立即充电。发生了什么？很多事情都可能出错。让我们来看看一些最常见的iPhone充电问题，以及您可以做些什么。使…

free
2024年9月26日
000
AI前沿

加州州长签署 9 项法案，规范人工智能生成内容

立法旨在解决深度伪造带来的风险

点点
2024年9月27日
000
AI前沿

投资者争相入股 ElevenLabs，该公司估值或很快达到 30 亿美元

据悉，专门为音频应用开发 AI 工具的初创公司 ElevenLabs 正在接受现有和新投资者的接洽，商讨新一轮融资事宜，此轮融资可能令该公司的估值高达 30 亿美元。这家成立两…

王浩然
2024年10月6日
000
AI前沿

人工智能位居 2025 年最重要技术榜首；数据隐私和人工智能的作用

人工智能位居 2025 年最重要技术榜首一项针对全球技术专家的调查显示，人工智能（包括预测性和生成性人工智能、机器学习和自然语言处理）被评为最有可能成为 2025 年最重要的技术…

王浩然
2024年11月4日
000
AI前沿

从AI代理的热潮到实践：为何企业必须重视适用性而非盲目追求

随着我们全面步入自主转型的时代，AI代理正在重塑企业的运营方式和价值创造途径。然而，在数百家声称提供“AI代理”的供应商中，我们如何穿透炒作迷雾，理解这些系统真正能够实现的成果，以…

王浩然
32 mins ago
000
AI前沿

OpenAI 推出 GPT-4o 微调

OpenAI宣布推出 GPT-4o 模型的微调功能，这是开发人员热切期待的一项功能。为了让交易更具吸引力，OpenAI 将在 9 月 23 日之前每天为每个组织提供一百万个免费训练…

AI News
2024年8月27日
000
AI前沿

CES 2025 技术趋势报告：今年收入 5370 亿美元

根据周日CES正式开幕时发布的技术趋势预测报告，2025 年的技术市场看起来相当健康。 CES 主办方消费技术协会 (CTA) 的预测由该协会创新与趋势高级总监 Brian Com…

王浩然
2025年1月6日
000
AI前沿

Relyance 获得 3200 万美元融资，帮助公司遵守数据法规

随着对人工智能的需求激增，人工智能供应商正在投入更多精力解决数据安全问题。他们不仅被迫遵守新兴的数据隐私法规（例如欧盟数据法案），而且还发现自己受到客户的密切关注，这些客户对他们的…

点点
2024年10月13日
000
AI前沿

AI 女友就是一个陷阱

作为对 GPT-4o 的回应，谷歌在 8 月发布了 Gemini Live，试图让 AI 助手可以像真人一样对话。这个新助手的对话效果是如此之好，以至于让外媒记者 Joanna S…

点点
2024年9月3日
000
AI前沿

SpaceX 将于周日尝试历史性地接回星际飞船助推器

星际飞船已准备好再次飞行——SpaceX 将首次尝试将助推器带回发射场，并用一双超大号的“筷子”接住它。 SpaceX 将于周日在太平洋标准时间凌晨 5 点（当地时间早上 7 点）…

点点
2024年10月13日
000
AI前沿

Meta推出Llama 4系列模型，应对DeepSeek挑战‌

Meta公司近日正式发布了其最新的Llama 4系列模型，包括Scout和Maverick两款现可下载使用的模型，以及一款仍在训练中的2万亿参数巨型模型——Behemoth。这一系…

王浩然
19小时前
000
AI前沿

认识 OpenAI 的 Operator，这是一个人工智能代理，它使用网络为你预订晚餐、订票、编制购物清单等

OpenAI 推出了其首款半自主 AI 代理Operator，旨在像人类一样“操作”网络浏览器。代理使用光标进行指向和点击，自行输入内容，浏览网页并在各种网站上执行操作，例如通过 …

王浩然
2025年1月25日
000
AI前沿

拜登总统发布首份关于人工智能的国家安全备忘录

拜登总统发布了美国首份关于人工智能的国家安全备忘录 (NSM)，阐述了美国如何从安全角度对待这项技术。该备忘录以拜登早先关于人工智能的行政命令为基础，其前提是尖端人工智能发展将在…

点点
2024年10月26日
000
AI前沿

Snowflake 与 Anthropic 合作扩展 AI 工具——这对企业意味着什么

Snowflake和Anthropic宣布达成重要合作伙伴关系，将人工智能代理直接嵌入企业数据环境，使企业能够分析大量信息，同时保持严格的安全控制。两家公司将把 Anthropi…

王浩然
2025年2月17日
000
AI前沿

FTC 要求 AI 无障碍初创公司 accessiBe 因误导性广告支付 100 万美元

美国联邦贸易委员会对accessiBe处以罚款，该公司是一家初创公司，声称可以让网站与盲人访问互联网所依赖的屏幕阅读器更加兼容，原因是该公司发布虚假广告，并向评论者提供报酬而未披露…

王浩然
2025年1月5日
000
AI前沿

2025 年的身份管理：安全团队可通过 4 种方式解决漏洞和风险

虽然99%的企业计划在安全方面投入更多，但只有52% 的企业完全实施了多因素身份验证 (MFA)，只有41% 的企业在访问管理中遵守最小特权原则。包括民族国家、国家资助的攻击者和…

王浩然
2024年11月11日
000
AI前沿

GPT-4o 如何保护你的身份免受人工智能生成的深度伪造攻击

2024 年，深度伪造事件激增，预计今年将增加 60% 或更多，全球案件将达到15 万起或更多。这使得人工智能驱动的深度伪造攻击成为当今增长最快的对抗性人工智能类型。德勤预测，到 …

王浩然
2024年10月6日
000
AI前沿

人工智能驱动的制造业和机器人创新技术揭晓

工业自动化开发商 Vention 宣布推出基于人工智能的增强功能以及用于先进制造和机器人技术的新产品

点点
2024年9月18日
000
AI前沿

Liquid AI 推出 Liquid Foundation 模型：生成式 AI 领域的游戏规则改变者

麻省理工学院的衍生公司Liquid AI在一份开创性的声明中推出了其首批Liquid Foundation 模型(LFM)。这些模型是根据第一原理设计的，为生成式 AI领域树立了新…

点点
2024年10月6日
000
AI前沿

Fal.ai 是一家提供媒体生成 AI 模型的公司，从 a16z 和其他公司筹集了 2300 万美元

Fal.ai是一个专注于 AI 生成音频、视频和图像开发的平台，今天该公司透露，它已经从 Andreessen Horowitz (a16z)、Black Forest Labs联…

王浩然
2024年9月19日
000