OpenAI 发布新模型，Sam Altman：耐心时刻结束了

点点 • 2024年9月13日下午1:00 • AI前沿 • 134 views

北京时间凌晨一点，OpenAI 突然进行了重大更新。

已经预热了接近一年的 Q*/草莓项目，传说中能够进行高级推理的大语言模型，今晚终于露出了真面目。

OpenAI 发推表示，刚刚推出了 OpenAI o1-preview 模型——名字的含义之前外媒已经爆料过，o1 应该代表着 OpenAI 下一代大模型的 Orion（猎户座）一代。

OpenAI 在发布文档中写道，新模型在推理能力上代表了人工智能能力的新水平，因此，计数器将重置为 1 ——这意味着未来很可能不会有 GPT-5 了，o1 将代表未来 OpenAI 的最强水平。

且从今天开始，ChatGPTPlus 和 Team 用户就能够直接访问模型。

用户可以手动选择使用 o1 模型的预览版——o1-preview，或者使用 o1 模型的小尺寸版——o1-mini。o1-preview 的每周限制为 30 条消息，o1-mini 的每周限制为 50 条。

在 OpenAI 的模型介绍网页上，可以看到 o1 模型的训练数据截止时间为去年十月份，而最早的 Q*项目的爆料，正好大概出现在去年十一月份。

OpenAI 憋了一年的大招究竟如何？OpenAI 能否再一次引领大模型的潮流，甚至让人们看到通用人工智能之路不再遥远？很快，每个人都能检验这一点了。

Sam Altman 凌晨一点在 X 上发帖：「需要耐心等待的时刻结束了！」

01. o1 模型：解决博士级别的科学问题超越人类

截止发稿时，笔者还不能使用 o1 模型。

不过 OpenAI 已经放出了大量相关的 o1 模型表现展示。

最引人关注的当然是新模型的推理能力。Sam Altman 直接在 X 上贴出了 o1 与 GPT-4o 在数学、编程和解决博士级别科学题目上的能力对比。

最左边的柱形代表目前 OpenAI 的主力模型 GPT-4o。今天放出来的 o1 预览版为中间的橙色柱形。

可以看到，在 2024 年美国数学邀请赛的竞赛题和 Codeforces 算法竞赛题上，o1 预览版解决数学和编程问题的能力，比起 GPT-4o，提升了 5-6 倍。而可怕的是，深橙色的柱形，代表真正的 o1，相比于 GPT-4o，提升了 8-9 倍！

最后一个图中，OpenAI 还列出了人类专家在解决博士级别科学题目的时的成功率，大约在 69.7%，而 o1 预览版和 o1，都已经超过了人类专家的水平。

OpenAI 的技术博客提到了更具体的数字，目前 o1 模型的成绩，在美国数学邀请赛上，可以排名进入美国前 500 名。而物理、生物和化学问题上的准确度，超过了人类博士的水平。

在大模型技术进入公众视野的两年内，一个经常为人们所使用的比喻是，大模型像一个什么都懂一点的大学生，在知识专精方面远远不行，但是从天文到地理，最基础的知识都能懂一点点。OpenAI 的新模型，很有可能要刷新人们的这一认知了。

在官方博客中，OpenAI 简单解释了这一进步背后的原理。

类似于人类在回答难题之前可能会思考很长时间，o1 在尝试解决问题时会使用一系列思维。通过强化学习，o1 学会了磨练其思维链并完善其使用的策略。它学会了认识并纠正错误，将棘手的步骤分解为更简单的步骤。当当前方法不起作用时，它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

在 OpenAI 给的案例中。GPT-4o 和 o1 模型同时回答同一个问题——读一段长文，然后做阅读理解。在 o1 模型中，会多一个选项叫做展开思维链。

如果不展开思维链，我们可以看到两个模型本身给出的答案是不同的。而打开思维链后，则会看到一段非常长的模型和自己的思维对话，解释为什么做出了不同的选择。

选 A 吗？emm，好像不是很好。选 B 吗？好像没有关联。模型完全在自己和自己提问和回答，最后判断出了哪个答案更好。

而在另一个例子中，解决化学问题时，我们可以看到 o1 模型甚至自己在选择多种方案对比。

标准的计算方式是这样。但是我们也可以这么计算，但这样或许没有必要？

在多次纠正自己之后，它得出了正确的答案。

之前，也已经有很多报道透露过 o1 模型能够有高推理能力的原理——这一训练方法，最早来自于斯坦福大学 2022 年开发的一种「自学推理」（Self-Taught Reasoner，STaR）。

后来研究人员进一步开发了一种名为”Quiet-STaR”的新技术，翻译过来大概为”安静的自学推理”。核心为在每个输入 token 之后插入一个”思考”步骤，让 AI 生成内部推理。然后，系统会评估这些推理是否有助于预测后续文本，并相应地调整模型参数。这也是人们推测 OpenAI 最早的模型项目为什么叫 Q*（读作 Q Star）的原因。

在 o1 模型出现之前，用户通常也可以自己通过和模型对话的方式，让模型进行一步一步的思考，也就是所谓的慢思考，进行更准确的回答。但是很明显，o1 模型此次将思维链放大到了完全不同的量级上。

而且，在之前的用户 prompt 引导中，模型能够回答出什么答案，最终也还要被模型能力限制。而通过不同的训练方式训练出来的 o1 模型，很有可能能够通过自己的推理，超越自身训练材料的限制，产出更高级和准确的答案。

在复杂推理任务上的进步，可能对编程和科学研究两个方向产生直接的推动。

OpenAI 提到，在未来，医疗保健研究人员可以使用 o1 来注释细胞测序数据，物理学家可以使用 o1 生成量子光学所需的复杂数学公式，所有领域的开发人员可以使用 o1 来构建和执行多步骤工作流程。

OpenAI提供了一个例子，真正做到了只使用提示词，就完成了一个游戏的编程。

视频截图

而推理能力的进步，如果能够进一步消除模型的幻觉，还可能对 AI 应用的建构产生间接的影响。对未来的AI安全也有积极的影响——之前的一些通过提示词工程误导模型进行错误输出的手段，可能会直接被模型通过更强的思考能力解决。

OpenAI o1-preview 将在今天开始能够在 ChatGPT 上使用，并提供给受信任的API用户。

02.价格没涨，OpenAI 用 o1-mini 解决推理成本问题

在 OpenAI 此次发布之前，曾有不少媒体爆料，新模型因为内部推理链条较长，对于推理的算力成本的需求进一步增高，OpenAI 很有可能将提高使用模型的费用，甚至最离谱的猜测数字达到每月 2000 美金。

而此次 OpenAI 的发布，却令人惊讶，新模型的使用价格并没有上涨，虽然因为推理成本的原因，使用次数受到了大大的限制。o1-preview 的每周限制使用条数为 30 条消息。

除了限制使用条数，OpenAI管控推理成本的另一个重要举措，是随着 o1 模型的推出，同时推出了 o1-mini 版。

OpenAI 没有具体说明 o1-mini 的参数量有多大，但通过技术文档可以看出，o1mini 版，和 o1 版上下文长度没有区别，甚至最大输出 token 数更高。

OpenAI 表示 o1-mini 尤其擅长准确生成和调试复杂代码，对于开发人员尤其有用。作为较小的模型，o1-mini 比 o1-preview 便宜 80%，这使其成为需要推理但不需要广泛的世界知识的应用程序的强大且经济高效的模型。

OpenAI 甚至还计划之后为所有 ChatGPT 免费用户提供 o1-mini 访问权限。

不过，作为新模型，o1 系列模型，目前仍然不能浏览网页以获取信息以及上传文件和图像。OpenAI 也提示道，GPT-4o 在短期内，在某些任务上会更强一些。

03.Scaling Law 后最重要的进展？

事实上，此次发布了新的模型，甚至不是 OpenAI 的发布中唯一重要的事情。

OpenAI 还提及了自己训练中发现的一个现象：随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能能持续提高。扩展这种方法的限制与 LLM 预训练的限制有很大不同。

事实上，英伟达的具身团队领导者 Jim Fan 直接在 X 上点评了这一事件的历史意义——模型不仅仅拥有训练时的 scaling law，还拥有推理层面的 scaling law，双曲线的共同增长，将突破之前大模型能力的提升瓶颈。

Jim Fan 表示，2022 年，人们提出了原始的 scaling law（尺度定律），大概意为随着模型的参数量、数据量和计算量的增加，模型的性能能够不断提高。

这指的是在模型的训练过程中。而 scaling law 在今年看起来，似乎已经有停滞的意味——他提到在 self-rewarding language 文章中，感受到 3 轮自我提升似乎是大语言模型的饱和极限了。

而此次 OpenAI 新模型，除了在训练时，通过增大参数量和数据量，得到了性能上的提升，同时通过增加推理时间——也就是前面所说的模型在自我内部思考的时间——得到了能力上的提升。

也就是说，如果模型未来自己和自己思考的时间越长，得到的答案可能会越准确。这很接近于我们对AI的终极想象了——像最早在 AlphaGo 中所展现出来的，AI 通过自己和自己下棋，提升自己的棋艺。

OpenAI 的新模型，展现出的，是一条新的大模型的提升路径。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/openai-fa-bu-xin-mo-xing-sam-altman-nai-xin-shi-ke-jie-shu

AI AlphaGo o1 OpenAI 人工智能博士级别的科学问题超越人类

Like (0)

点点

0 0

谷歌的人工智能笔记应用程序 NotebookLM 现在可以大声向你解释复杂的主题

Previous 2024年9月13日下午12:00

本周人工智能：OpenAI 的新 Strawberry 模型可能很聪明，但速度却很慢

Next 2024年9月13日下午2:00

AI前沿

人工智能人形机器人原型推出，供家庭使用

Neo Beta 助力该公司的人形机器人从概念化走向开发

点点
2024年9月5日
000
AI前沿

音频平台 Pocket FM 利用人工智能工具扩展其内容目录

印度音频平台Pocket FM的服务内容超过 20 万小时。不过，该公司首席执行官 Rohan Nayak 认为，该平台在创作原创内容和将其内容库扩展到多种类型和子类型方面仍有发展…

王浩然
2024年11月29日
000
AI前沿

DeepSeek AI 未通过多项安全测试，给企业敲响警钟

研究人员发现，流行的生成式人工智能模型允许出现幻觉、容易避开的护栏、易受越狱和恶意软件创建请求等，而且出现的频率极高在将中国生成式人工智能DeepSeek应用于商业应用之前，企业…

王浩然
2025年2月18日
000
AI前沿

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

在OpenAI的“12 Days of Shipmas”活动的第 10 天，该公司决定采取一些复古的方式，推出一个电话号码，供人们拨打并与 ChatGPT 交谈。美国用户可以在任…

王浩然
2024年12月20日
000
AI前沿

MIT的突破性研究揭示了大型模型在植入虚假记忆方面的潜力，马库斯警告其潜在风险。

当AI 有了自我意识，开始反过来训练人类了

点点
2024年9月6日
000
AI前沿

DeepSeek 首个推理模型 R1-Lite-Preview 引人注目，超越 OpenAI o1 表现

DeepSeek是中国量化对冲基金High-Flyer Capital Management旗下的 AI 分支，专注于发布高性能开源技术，现已推出其最新的以推理为重点的大型语言模型…

王浩然
2024年11月24日
000
AI前沿

索尼与 AI Singapore 合作攻读 SEA-LION 法学硕士学位

索尼研究公司和新加坡人工智能研究所(AISG) 将合作研究 SEA-LION 系列大型语言模型 (LLM)。 SEA-LION 是“东南亚语言一体化网络”的缩写，旨在提高人工智能模…

点点
2024年9月11日
000
AI前沿

Ai2 发布新语言模型，与 Meta 的 Llama 竞争

目前出现了一个新的 AI 模型家族，它是少数可以从头开始复制的模型之一。周二，已故微软联合创始人保罗·艾伦 (Paul Allen) 创立的非营利性 AI 研究机构 Ai2 发布…

王浩然
2024年11月29日
000
AI前沿

人工智能真的能与人类数据科学家竞争吗？OpenAI的新基准对它进行了测试

OpenAI推出了一种测量机器学习工程中人工智能能力的新工具。这个被称为MLE-bench的基准，通过来自机器学习竞赛的流行平台Kaggle的75场真实世界数据科学比赛来挑战人工智…

点点
2024年10月14日
000
AI前沿

训练数据提供商发布事后报告，Reflection 70B 事件仍在继续

2024 年 9 月 5 日，初创公司Hyperwrite AI（也称为 OthersideAI）的联合创始人兼首席执行官马特·舒默 (Matt Shumer) 在社交网络 X上发…

王浩然
2024年10月6日
000
AI前沿

Meta获监管机构批准，将在英国推出反欺诈面部识别测试‌

近日，科技巨头Meta宣布，其反欺诈面部识别技术已获得英国监管机构的批准，并将正式在英国启动相关测试。这一举措标志着Meta在加强网络安全、打击网络欺诈方面迈出了重要一步。据悉，…

王浩然
2025年3月6日
000
AI前沿

Salesforce 推出 Agentforce 测试中心，让座席人员接受测试

代理人工智能的下一阶段可能只是评估和监控，因为企业希望让他们开始部署的代理更具可观察性。虽然AI 代理基准可能会产生误导，但了解代理是否按其期望的方式工作却具有很大的价值。为此，…

王浩然
2024年11月26日
000
AI前沿

波音公司的星际客机在没有机组人员的情况下完美着陆，项目前景仍不确定

经过数月的延误和不确定性，波音公司的星际航线太空舱终于从国际空间站返回，并于周六午夜后降落在新墨西哥州白沙太空港。太空舱自动返回地球，但两名机组人员——美国宇航局宇航…

点点
2024年9月8日
000
AI前沿

在云中构建更好的产品：为什么现在正是时候

全球范围内对云计算的投资持续大规模展开，Gartner 预测，到 2027 年，公共云支出将达到惊人的 1 万亿美元。随着企业对生成式人工智能的投资不断增加，这一数字正在大幅增长，…

王浩然
2025年1月13日
000
AI前沿

以下是 2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据数据，人工智能公司在第三季度筹集了 189 亿美元。这一…

王浩然
2024年10月12日
000
AI前沿

OpenAI获英伟达B200最强超算，GPT-5训练无底洞，微软算力却严重不足

就在刚刚，OpenAI收到了来自英伟达的首批工程版DGX B200！此情此景，不得不让人联想到，刚刚成立的OpenAI在接收英伟达初代DGX时的画面。如今，早已物是人非。依然…

点点
2024年10月9日
000
AI前沿

了解 GE Healthcare 如何使用 AWS 构建解释 MRI 的新型 AI 模型

毫无疑问，MRI 图像非常复杂并且数据量巨大。因此，开发人员在训练大型语言模型(LLM) 进行 MRI 分析时，必须将捕获的图像切片成 2D。但这只能得到原始图像的近…

王浩然
2024年12月24日
000
AI前沿

PIN AI 推出移动应用程序，让您可以在手机上创建自己的个性化、私人 DeepSeek 或 Llama 驱动的 AI 模型

通过《她》和其他众多科幻作品，我们很容易想象这样一个世界：每个人都有自己的个性化人工智能助手——它知道我们是谁、我们的职业、我们的爱好、我们的目标和激情、我们的好恶…&…

王浩然
2025年2月14日
000
AI前沿

人工智能价格战：如何降低成本让人工智能更易于普及

十年前，开发人工智能 (AI)是只有大公司和资金充足的研究机构才能负担得起的事情。必要的硬件、软件和数据存储成本非常高。但从那时起，情况发生了很大变化。一切始于 2012 年的 A…

点点
2024年9月27日
000
AI前沿

ChatGPT for macOS：现可直接编辑代码‌

在科技日新月异的今天，ChatGPT再次为用户带来了惊喜。如今，macOS平台上的ChatGPT已经支持直接编辑代码，这一功能的加入无疑将极大地提升开发者的工作效率。 ChatGP…

王浩然
2025年3月9日
000