从 o1 到 o3：OpenAI 如何重新定义人工智能中的复杂推理

王浩然 • 2024年12月27日下午6:00 • AI前沿 • 112 views

生成式人工智能重新定义了我们对人工智能能力的认知。它最初只是一种用于完成简单重复性任务的工具，现在正在解决我们面临的一些最具挑战性的问题。OpenAI 在这一转变中发挥了重要作用，并以其 ChatGPT 系统引领了这一潮流。ChatGPT 的早期版本展示了人工智能如何进行类似人类的对话。这种能力让我们得以一窥生成式人工智能的可能性。随着时间的推移，该系统已经超越了简单的交互，能够应对需要推理、批判性思维和解决问题的挑战。本文探讨了 OpenAI 如何将 ChatGPT 从一种对话工具转变为一个能够推理和解决问题的系统。

o1：迈向真实推理的第一步

OpenAI 迈向推理的第一步是 2024 年 9 月发布的 o1。在 o1 之前，GPT 模型擅长理解和生成文本，但在需要结构化推理的任务上却举步维艰。o1改变了这一点。它旨在专注于逻辑任务，将复杂问题分解为更小、更易于管理的步骤。

o1 通过使用一种称为推理链的技术实现了这一点。这种方法通过将数学、科学和编程等复杂问题分解为易于解决的部分，帮助模型解决这些问题。这种方法使 o1 比 GPT-4o 等先前版本准确得多。例如，在高级数学问题测试中，o1 解决了 83% 的问题，而 GPT-4o 只解决了 13%。

o1 的成功不仅仅来自于推理链。OpenAI 还改进了模型的训练方式。他们使用专注于数学和科学的自定义数据集，并应用大规模强化学习。这帮助 o1 处理需要多个步骤才能解决的任务。事实证明，在推理上花费的额外计算时间是实现以前模型无法比拟的准确性的关键因素。

o3：将推理提升到新的水平

在 o1 成功的基础上，OpenAI 现已推出 o3。该模型在“ OpenAI 12 天”活动期间发布，通过更多创新工具和新功能将 AI 推理提升到新水平。

o3 的一项关键升级是其适应能力。它现在可以根据特定标准检查答案，确保答案准确无误。这种能力使 o3 更加可靠，尤其是对于精度至关重要的复杂任务。可以将其视为内置质量检查，可减少出错的可能性。缺点是它需要更长的时间才能得出答案。与不使用推理的模型相比，解决问题可能需要多花几秒钟甚至几分钟的时间。

和 o1 一样，o3 也接受了“思考”训练，然后再回答问题。这种训练使 o3 能够使用强化学习进行思路链推理。OpenAI 将这种方法称为“私人思路链”。它允许 o3 分解问题并逐步思考。当 o3 收到提示时，它不会急于给出答案。它会花时间考虑相关的想法并解释其推理。在此之后，它会总结出它能想到的最佳答案。

o3 的另一个有用功能是它能够调整推理时间。如果任务很简单，o3 可以快速行动。但是，它可以使用更多的计算资源来提高其在更复杂挑战中的准确性。这种灵活性至关重要，因为它让用户可以根据任务控制模型的性能。

在早期测试中，o3 显示出了巨大的潜力。在ARC-AGI 基准测试中，该基准测试了 AI 在新任务和不熟悉任务上的表现，o3 得分为 87.5%。这一表现非常出色，但也指出了模型可以改进的地方。虽然它在编码和高级数学等任务上表现出色，但偶尔也会遇到更简单的问题。

o3 是否实现了通用人工智能 (AGI)

虽然 o3 在 ARC 挑战赛（旨在测试推理和适应性的基准）上取得高分，大大提升了人工智能的推理能力，但它仍未达到人类水平的智能。ARC 挑战赛组织者澄清说，虽然 o3 的表现取得了重要的里程碑，但这只是迈向AGI 的一步，而不是最终成就。虽然 o3 能够以令人印象深刻的方式适应新任务，但它在完成人类可以轻松完成的简单任务方面仍然遇到困难。这表明了当前人工智能与人类思维之间的差距。人类可以将知识应用于不同情况，而人工智能仍在努力实现这种程度的泛化。因此，虽然 O3 取得了显著的进展，但它尚不具备 AGI 所需的通用问题解决能力。AGI 仍然是未来的目标。

未来之路

o3 的进步对人工智能来说是一个重要时刻。它现在可以解决更复杂的问题，从编码到高级推理任务。人工智能越来越接近 AGI 的概念，潜力巨大。但这一进步也伴随着责任。我们需要仔细思考如何前进。在推动人工智能做更多事情和确保其安全和可扩展之间需要取得平衡。

o3 仍面临挑战。o3 面临的最大挑战之一是它需要大量的计算能力。运行像 o3 这样的模型需要大量资源，这使得扩展这项技术变得困难并限制了其广泛使用。提高这些模型的效率是确保它们能够充分发挥潜力的关键。安全是另一个主要关注点。人工智能的能力越强，出现意想不到的后果或滥用的风险就越大。OpenAI 已经实施了一些安全措施，例如“审议协调”，这有助于指导模型的决策遵循道德原则。然而，随着人工智能的进步，这些措施也需要不断发展。
其他公司，如谷歌和DeepSeek，也在研发能够处理类似推理任务的人工智能模型。他们面临着类似的挑战：高成本、可扩展性和安全性。

人工智能的未来前景广阔，但仍存在障碍。技术正处于转折点，我们如何处理效率、安全性和可访问性等问题将决定其发展方向。这是一个激动人心的时代，但需要仔细思考才能确保人工智能能够充分发挥其潜力。

总结

OpenAI 从 o1 升至 o3 表明人工智能在推理和解决问题方面取得了多大的进步。这些模型已经从处理简单任务发展到处理更复杂的任务，如高级数学和编码。o3 以其适应能力而脱颖而出，但它仍未达到通用人工智能 (AGI) 的水平。虽然它可以处理很多任务，但它仍然难以完成一些基本任务，并且需要大量的计算能力。

人工智能的未来是光明的，但也伴随着挑战。效率、可扩展性和安全性需要关注。人工智能取得了令人瞩目的进步，但还有更多工作要做。OpenAI 在 o3 方面的进展是向前迈出的重要一步，但 AGI 仍然遥遥无期。我们如何应对这些挑战将决定人工智能的未来。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/cong-o1-dao-o3-openai-ru-he-chong-xin-ding-yi-ren-gong-zhi

ChatGPT DeepSeek o1 o3 OpenAI 谷歌

Like (0)

王浩然作者

0 0

使用 MoME 减少 AI 幻觉：记忆专家如何提高 LLM 准确性

Previous 2024年12月27日

AI 销售代表初创企业正在蓬勃发展。那么风险投资家为何如此谨慎呢？

Next 2024年12月27日

AI前沿

超越基准：DeepSeek-R1 和 o1 在实际任务中的表现如何

DeepSeek-R1无疑引起了很多兴奋和担忧，尤其是对于 OpenAI 的竞争对手模型 o1。因此，我们在几个简单的数据分析和市场研究任务上对它们进行了并排比较测试。为了让这…

王浩然
2025年2月2日
000
AI前沿

人工智能水下机器人改变海上风电检测方式

Beam部署了世界上第一台人工智能驱动的自动水下机器人，用于海上风电场检查。该技术已通过检查苏格兰最大的海上风电场Seagreen 的导管架结构证明了其实力。Seagreen 是 …

点点
2024年9月26日
000
AI前沿

这款人工智能发明机器可自动实现“尤里卡时刻”

在瑞士洛桑郊外，一间贴满专利图纸的会议室里，伊奥尼斯·伊里德斯 (Ioannis Ierides)面临着一个典型的销售挑战：在客户注意力集中的短暂时间内展示其产品的优势。伊里德斯是…

王浩然
2024年10月20日
000
AI前沿

Hugging Face 推出用于机器人命令的自然语言 AI 模型

模型使得构建和部署能够执行复杂任务的人工智能机器人变得更加容易。开源代码库Hugging Face推出了一种机器人基础人工智能模型，可将自然语言命令转化为身体动作。该模型名为…

王浩然
2025年2月19日
000
AI前沿

Passionfroot 是一个面向以商业为中心的内容创作者寻求品牌合作的市场，反之亦然

随着创作者经济的快速增长，品牌合作仍然是创作者赚钱的主要方式。其他服务，如带有联盟链接的 Link-in-Bio 应用或类似 Patreon 的订阅，成为增加创作者收入的次要方式…

王浩然
2024年10月23日
000
AI前沿

YouTube 正在测试一项功能，允许选定的创作者使用人工智能混音歌曲

YouTube 去年开始允许美国的部分创作者使用 Charlie Puth、Charli XCX、Demi Lovato、John Legend、Sia、T-Pain 和 Troy…

王浩然
2024年11月14日
000
AI前沿

ChatGPT 集成如何与 Apple Intelligence 协同工作

周三，借助新发布的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新，开发人员首次体验了 Apple Intelligence 的 Chat…

王浩然
2024年10月25日
000
AI前沿

次二次系统：加速人工智能的效率和可持续性

人工智能 (AI)正在以惊人的速度改变着我们的世界，影响着医疗、金融和零售等行业。从在线推荐产品到诊断医疗状况，AI 无处不在。然而，效率问题日益严重，研究人员和开发人员正在努力解…

点点
2024年10月23日
000
AI前沿

解析 Grok 3：可能重新定义行业的 AI 模型

自推出以来不到两年，xAI 已经推出了迄今为止可以说是最先进的 AI 模型。Grok 3 在所有关键基准以及用户评估的Chatbot Arena上都匹敌或超越了最先进的模型，而且它…

王浩然
2025年2月20日
000
AI前沿

代理实验室：AMD 和约翰霍普金斯大学共同组建的虚拟研究团队

当每个人都在热议人工智能代理和自动化时，AMD 和约翰霍普金斯大学一直在致力于改善人类和人工智能在研究中的协作方式。他们的新开源框架Agent Laboratory完全重新构想了如…

王浩然
2025年1月14日
000
AI前沿

Koyeb无服务器云平台：助力开发者快速部署Tenstorrent AI加速器‌

近日，Koyeb无服务器云平台宣布了一项重大更新，允许开发者在该平台上轻松部署Tenstorrent AI加速器。这一更新为开发者提供了更为灵活和高效的AI计算资源，助力他们加速A…

王浩然
2025年2月27日
000
AI前沿

Vision Pro将在4月融入苹果智能技术

自2021年11月1日起，Yahoo服务在中国大陆地区已无法访问，但这并不妨碍我们关注全球科技领域的最新动态。近日，有消息称，苹果公司的Vision Pro将在4月迎来一次重大更新…

王浩然
2025年2月25日
000
AI前沿

白宫发布芯片许可和人工智能系统监管指南

新指南旨在增强国家安全、经济实力拜登-哈里斯政府发布了新的指南，以规范芯片许可和人工智能系统，同时加强人工智能安全标准。白宫的一份声明称，周一发布的《人工智能扩散临…

王浩然
2025年1月15日
000
AI前沿

Meta 提出新的可扩展记忆层，可提高知识水平并减少幻觉

随着企业继续在各种应用中采用大型语言模型 (LLM)，他们面临的关键挑战之一是提高模型的事实知识并减少幻觉。在一篇新论文中，Meta AI的研究人员提出了“可扩展的内存层”，这可能…

王浩然
2025年1月8日
000
AI前沿

据称人工智能和机器人被用来欺诈性地增加音乐流量

一位美国歌手被指控利用人工智能技术和机器人操纵音乐流媒体平台，欺诈性地夸大他的流媒体统计数据并赚取数百万美元的版税。来自北卡罗来纳州的 52 岁的迈克尔·史密斯 (Michael…

点点
2024年9月18日
000
AI前沿

Runway 拨款 500 万美元资助多达 100 部使用 AI 生成视频的电影

AI 视频生成器需要相信电影制作者会在制作过程中使用他们的模型。否则它为何存在？为了启动新的 AI 电影生态系统，Runway拨出 500 万美元现金和更多服务积分，用于资助多达…

王浩然
2024年9月27日
000
AI前沿

Crogl携3000万美元资金，推出面向安全分析师的AI版“钢铁侠”战衣‌

近日，Crogl公司凭借其获得的3000万美元资金支持，正式揭晓了一款专为安全分析师打造的全新AI辅助系统，形象地被称为“AI版钢铁侠战衣”。这款创新产品的推出，标志着Crogl在…

王浩然
2025年3月7日
000
AI前沿

零售商通过 AI 投资创造和获取价值的 3 个步骤

随着各家公司争夺消费者的注意力和钱包，零售业正在发展，竞争也日益激烈。根据美国零售联合会的数据，2024 年上半年核心销售额同比增长 3.2%，预计总销售额将比 2023 年增长 …

王浩然
2024年11月10日
000
AI前沿

拥抱变化而不牺牲传统：人工智能代理对信用合作社的承诺

近年来，金融服务业一直引领创新，推出金融科技、数字银行和其他技术解决方案，该行业在风险投资中一直名列前茅。然而，信用合作社等金融机构的情况却并非如此，它们通常依靠与会员的面对面互动…

王浩然
2025年1月15日
000
AI前沿

前谷歌、苹果工程师无条件开源 Oumi AI 平台，或将助力打造下一个 DeepSeek

如果之前还不清楚，那么现在肯定非常清楚：开源对人工智能确实很重要。DeepSeek -R1的成功实质上证明了对开源人工智能的需求。但开源 AI 究竟是什么？对于 Meta 及其L…

王浩然
2025年2月4日
000