2024 年年底,人工智能迎来了清算,业内人士担心,人工智能向更智能方向发展的速度正在放缓。但 OpenAI上周刚刚发布的 o3 模型引发了新一轮的兴奋和争论,并表明 2025 年及以后仍将迎来重大改进。
该模型已宣布在研究人员中进行安全测试,但尚未公开发布,在重要的 ARC 指标上取得了令人印象深刻的成绩。该基准测试由著名人工智能研究人员、Keras 深度学习框架的创建者 François Chollet 创建,专门用于衡量模型处理新型智能任务的能力。因此,它为真正智能的人工智能系统的进展提供了一个有意义的衡量标准。
值得注意的是,o3 在标准计算条件下的 ARC 基准测试中得分为 75.7%,在高计算条件下得分为 87.5%,大大超过了之前最先进的结果,例如Claude 3.5 的得分为 53%。
Chollet 曾批评大型语言模型 (LLM) 无法实现这种智能,他认为 o3 的这一成就代表着一项令人惊讶的进步。它凸显了可以加速实现高级智能的创新,无论我们是否将其称为通用人工智能 (AGI)。
AGI 是一个被夸大了的术语,而且定义不明确,但它标志着一个目标:能够以超越人类能力的方式适应新挑战或问题的智能。
OpenAI 的 o3 解决了长期以来困扰大型语言模型的推理和适应性方面的特定障碍。与此同时,它也暴露了一些挑战,包括将这些系统推向极限所固有的高成本和效率瓶颈。本文将探讨 o3 模型背后的五项关键创新,其中许多创新都以强化学习 (RL) 的进步为基础。它将借鉴行业领袖的见解、OpenAI 的声明,以及最重要的Chollet 的重要分析,来揭示这一突破对我们迈向 2025 年的 AI 未来意味着什么。
o3的五大核心创新
1. 任务适应的“程序合成”
OpenAI 的 o3 模型引入了一项名为“程序合成”的新功能,该功能使其能够动态地将预训练期间学到的东西(特定模式、算法或方法)组合成新的配置。这些内容可能包括数学运算、代码片段或逻辑程序,这些是模型在对各种数据集进行大量训练时遇到并概括的。最重要的是,程序合成使 o3 能够解决它在训练中从未直接见过的任务,例如解决高级编码挑战或解决需要超越死记硬背学习信息的推理的新逻辑难题。François Chollet 将程序合成描述为系统以创新方式重新组合已知工具的能力——就像厨师使用熟悉的食材制作独特的菜肴一样。此功能标志着与早期模型的不同,早期模型主要检索和应用预先学习的知识而无需重新配置——这也是 Chollet 几个月前倡导的唯一可行方法,可以提高智能。
2. 自然语言程序搜索
o3 适应性的核心在于其使用思维链 (CoT) 和在推理过程中发生的复杂搜索过程——当模型在现实世界或部署环境中主动生成答案时。这些 CoT 是模型为探索解决方案而生成的分步自然语言指令。在评估器模型的指导下,o3 主动生成多条解决方案路径并对其进行评估以确定最有希望的选项。这种方法反映了人类解决问题的方式,我们在选择最合适的方法之前集思广益。例如,在数学推理任务中,o3 生成并评估替代策略以得出准确的解决方案。Anthropic 和 Google 等竞争对手已经尝试了类似的方法,但 OpenAI 的实施树立了新的标准。
3. 评估模型:一种新的推理方式
O3 在推理过程中主动生成多条解决方案路径,并借助集成评估器模型对每条路径进行评估,以确定最有希望的选项。通过使用专家标记的数据训练评估器,OpenAI 确保 o3 能够通过复杂的多步骤问题发展出强大的推理能力。此功能使模型能够充当自身推理的判断者,使大型语言模型更接近能够“思考”而不是简单地做出反应。
4. 执行自己的程序
o3 最具突破性的功能之一是它能够执行自己的思维链 (CoT) 作为自适应解决问题的工具。传统上,CoT 被用作解决特定问题的分步推理框架。OpenAI 的 o3 扩展了这一概念,利用 CoT 作为可重复使用的构建块,使模型能够以更大的适应性应对新挑战。随着时间的推移,这些 CoT 成为解决问题策略的结构化记录,类似于人类通过经验记录和改进学习的方式。这种能力展示了 o3 如何突破自适应推理的边界。据OpenAI 工程师 Nat McAleese介绍,o3 在前所未见的编程挑战中的表现,例如获得 2700 以上的 CodeForces 评分,展示了其对 CoT 的创新使用,可与顶级竞技程序员相媲美。2700 的评分使该模型达到了“大师”级别,跻身全球竞技程序员的顶级行列。
5. 深度学习引导的程序搜索
O3 在推理过程中利用深度学习驱动的方法来评估和改进复杂问题的潜在解决方案。此过程涉及生成多条解决方案路径,并使用在训练期间学习到的模式来评估其可行性。François Chollet 和其他专家指出,这种对“间接评估”的依赖(根据内部指标来判断解决方案,而不是在现实场景中进行测试)可能会限制模型在应用于不可预测或特定于企业的环境中的稳健性。
此外,o3 依赖专家标记的数据集来训练其评估模型,这引发了人们对可扩展性的担忧。虽然这些数据集提高了精度,但它们也需要大量的人工监督,这可能会限制系统的适应性和成本效益。Chollet 强调,这些权衡说明了将推理系统扩展到 ARC-AGI 等受控基准之外的挑战。
最终,这种方法展示了将深度学习技术与程序化问题解决相结合的潜力和局限性。虽然 o3 的创新展示了进步,但它们也强调了构建真正可通用的 AI 系统的复杂性。
o3 面临的巨大挑战
OpenAI 的 o3 模型取得了令人印象深刻的结果,但计算成本很高,每个任务消耗数百万个 token — 这种昂贵的方法是模型面临的最大挑战。François Chollet、Nat McAleese 等人强调了对此类模型经济可行性的担忧,强调需要在性能和可负担性之间取得平衡的创新。
o3 的发布引起了整个 AI 社区的关注。竞争对手,例如谷歌的 Gemini 2和中国公司的 DeepSeek 3也在不断进步,在这些模型得到更广泛的测试之前,直接比较具有挑战性。
人们对 o3 的看法不一:一些人称赞其技术进步,而另一些人则认为其成本高昂且缺乏透明度,认为只有通过更广泛的测试才能清楚其真正价值。最大的批评之一来自谷歌 DeepMind 的 Denny Zhou,他含蓄地批评该模型对强化学习 (RL) 扩展和搜索机制的依赖是潜在的“死胡同”,相反,他认为模型应该能够从更简单的微调过程中学习推理。
这对企业 AI 意味着什么
无论它是否代表着进一步创新的完美方向,对于企业而言,o3新发现的适应性表明,未来人工智能将以某种方式继续改变包括客户服务和科学研究在内的各个行业。
行业参与者需要一些时间来消化 o3 带来的好处。对于担心 o3 高计算成本的企业来说,OpenAI 即将发布的精简版“o3-mini”模型提供了一个潜在的替代方案。虽然它牺牲了完整模型的一些功能,但 o3-mini 承诺为企业提供更实惠的试验选择——保留大部分核心创新,同时显着降低测试时间计算要求。
企业公司可能还需要一段时间才能接触到 o3 模型。OpenAI 表示,o3-mini 预计将于 1 月底推出。完整的 o3 版本将随后发布,但具体时间取决于当前安全测试阶段获得的反馈和见解。建议企业公司对其进行测试。他们希望用自己的数据和用例来支撑该模型,看看它到底是如何工作的。
但与此同时,他们已经可以使用许多其他已经推出并经过充分测试的优秀模型,包括旗舰 o4 模型和其他竞争模型——其中许多模型已经足够强大,可以构建具有实用价值的智能、定制应用程序。
事实上,明年我们将从两个方面着手。第一,从人工智能应用中实现实际价值,充实模型可以与人工智能代理一起做什么,以及已经实现的其他创新。第二,我们将坐下来吃爆米花,看看这场智能竞赛如何展开——任何进展都只是锦上添花而已。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-o3-de-wu-da-tu-po-shi-qi-cheng-wei-ren-gong-zhi-neng