OpenAI 正在慢慢邀请选定的用户测试一整套新的推理模型,名为 o3 和 o3 mini,它们是本月初刚刚全面发布的o1 和 o1-mini 模型的后继者。
OpenAI o3 之所以被如此命名,是为了避免与电话公司 O2 的版权问题,也因为首席执行官 Sam Altman 表示,该公司“素来不擅长起名字”。今天,“OpenAI 12 天”直播的最后一天,OpenAI 宣布了这个名字。
奥尔特曼表示,两款新车型将首先向选定的第三方研究人员发布以进行安全测试,其中o3-mini预计于2025年1月底推出,而o3则“随后不久”推出。
“我们认为这是人工智能下一阶段的开始,你可以用这些模型来完成越来越复杂、需要大量推理的任务,”Altman 说。“在本次活动的最后一天,我们认为从一个前沿模型过渡到下一个前沿模型会很有趣。”
就在谷歌宣布这一消息的前一天,该公司刚刚发布并允许公众使用其新的 Gemini 2.0 Flash Thinking 模型,这是另一个竞争对手的“推理”模型,与 OpenAI o1 系列不同,它允许用户以文本要点的形式看到其“思考”过程的步骤。
Gemini 2.0 Flash Thinking 的发布以及现在 o3 的发布表明,OpenAI 与谷歌以及更广泛的 AI 模型提供商之间的竞争正在进入一个新的激烈阶段,因为他们不仅提供 LLM 或多模态模型,还提供高级推理模型。这些模型可以更适用于解决科学、数学、技术、物理等领域的更难的问题。
迄今为止第三方基准测试中的最佳表现
奥尔特曼还表示,o3 模型“在编码方面表现出色”,OpenAI 分享的基准测试也支持这一点,表明该模型在编程任务上的表现甚至超过了 o1。
•卓越的编码性能: o3 在 SWE-Bench Verified 上比 o1 高出 22.8 个百分点,并获得了 2727 的 Codeforces 评分,超过了 OpenAI 首席科学家的 2665 分。
•数学和科学掌握: o3 在 AIME 2024 考试中取得 96.7% 的成绩,仅缺席一道题,在 GPQA Diamond 考试中取得 87.7% 的成绩,远远超过人类专家的表现。
• Frontier 基准测试:该模型在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录,解决了 25.2% 的问题,而其他模型的解决率均未超过 2%。在 ARC-AGI 测试中,o3 的得分是 o1 的三倍,超过 85%(经 ARC Prize 团队现场验证),代表了概念推理领域的一个里程碑。
协商一致
除了这些进步之外,OpenAI 还加强了对安全和协调的承诺。
该公司推出了关于审议协调的新研究,这项技术有助于使 o1 成为迄今为止最强大和最协调的模型。
该技术将人类编写的安全规范嵌入到模型中,使它们能够在生成响应之前明确推理这些策略。
该策略旨在通过为模型配备思路链 (CoT) 推理来解决 LLM 中常见的安全挑战,例如易受越狱攻击和过度拒绝良性提示。此过程允许模型在推理过程中动态调用和应用安全规范。
审议性协调改进了以前的方法,例如从人类反馈中进行强化学习 (RLHF) 和体质 AI,这些方法仅依赖安全规范来生成标签,而不是将策略直接嵌入模型中。
通过对安全相关提示及其相关规范的 LLM 进行微调,该方法创建了能够进行策略驱动推理的模型,而无需过度依赖人工标记的数据。
OpenAI 研究人员在一篇新的非同行评审论文中分享的结果表明,该方法提高了安全基准的性能,减少了有害输出,并确保更好地遵守内容和风格指南。
主要发现突出了 o1 模型相对于 GPT-4o 等前代模型和其他最先进模型的进步。审慎对齐使 o1 系列能够出色地抵抗越狱并提供安全完成,同时最大限度地减少对良性提示的过度拒绝。此外,该方法还促进了分布外泛化,展示了多语言和编码越狱场景中的稳健性。这些改进符合 OpenAI 的目标,即随着 AI 系统能力的增长,使其更安全、更易于解释。
这项研究还将在协调o3和o3-mini方面发挥关键作用,确保它们的能力强大而负责。
如何申请测试o3和o3-mini
早期访问申请现已在OpenAI 网站上开放,并将于 2025 年 1 月 10 日截止。
申请者必须填写一份在线表格,表格中会要求他们提供各种信息,包括研究重点、过去的经验、之前发表的论文链接和 Github 上的代码库,并选择他们希望测试的模型(o3 或 o3-mini)以及他们计划将它们用于什么用途。
选定的研究人员将被授予访问 o3 和 o3-mini 的权限,以探索其功能并为安全评估做出贡献,但 OpenAI 的表格警告称,o3 将在数周内无法使用。
鼓励研究人员制定强有力的评估,创建高风险能力的受控演示,并在广泛采用的工具无法实现的场景上测试模型。
该计划以公司既定的实践为基础,包括严格的内部安全测试、与美国和英国人工智能安全研究所等组织的合作及其应急框架。
OpenAI 将滚动审查申请,并立即开始选拔。
新的飞跃?
o3和o3-mini的推出标志着人工智能性能的飞跃,特别是在需要高级推理和解决问题能力的领域。
这些模型在编码、数学和概念基准测试中取得了优异的成绩,凸显了人工智能研究的快速进展。
通过邀请更广泛的研究社区合作进行安全测试,OpenAI 旨在确保负责任地部署这些功能。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-que-ren-xin-qian-yan-mo-xing-o3-he-o3mini