OpenAI 确认新前沿模型 o3 和 o3-mini

王浩然 • 2024年12月21日下午2:00 • AI前沿 • 184 views

OpenAI 正在慢慢邀请选定的用户测试一整套新的推理模型，名为 o3 和 o3 mini，它们是本月初刚刚全面发布的o1 和 o1-mini 模型的后继者。

OpenAI o3 之所以被如此命名，是为了避免与电话公司 O2 的版权问题，也因为首席执行官 Sam Altman 表示，该公司“素来不擅长起名字”。今天，“OpenAI 12 天”直播的最后一天，OpenAI 宣布了这个名字。

奥尔特曼表示，两款新车型将首先向选定的第三方研究人员发布以进行安全测试，其中o3-mini预计于2025年1月底推出，而o3则“随后不久”推出。

“我们认为这是人工智能下一阶段的开始，你可以用这些模型来完成越来越复杂、需要大量推理的任务，”Altman 说。“在本次活动的最后一天，我们认为从一个前沿模型过渡到下一个前沿模型会很有趣。”

就在谷歌宣布这一消息的前一天，该公司刚刚发布并允许公众使用其新的 Gemini 2.0 Flash Thinking 模型，这是另一个竞争对手的“推理”模型，与 OpenAI o1 系列不同，它允许用户以文本要点的形式看到其“思考”过程的步骤。

Gemini 2.0 Flash Thinking 的发布以及现在 o3 的发布表明，OpenAI 与谷歌以及更广泛的 AI 模型提供商之间的竞争正在进入一个新的激烈阶段，因为他们不仅提供 LLM 或多模态模型，还提供高级推理模型。这些模型可以更适用于解决科学、数学、技术、物理等领域的更难的问题。

迄今为止第三方基准测试中的最佳表现

奥尔特曼还表示，o3 模型“在编码方面表现出色”，OpenAI 分享的基准测试也支持这一点，表明该模型在编程任务上的表现甚至超过了 o1。

•卓越的编码性能： o3 在 SWE-Bench Verified 上比 o1 高出 22.8 个百分点，并获得了 2727 的 Codeforces 评分，超过了 OpenAI 首席科学家的 2665 分。

•数学和科学掌握： o3 在 AIME 2024 考试中取得 96.7% 的成绩，仅缺席一道题，在 GPQA Diamond 考试中取得 87.7% 的成绩，远远超过人类专家的表现。

• Frontier 基准测试：该模型在 EpochAI 的 Frontier Math 等具有挑战性的测试中创下了新纪录，解决了 25.2% 的问题，而其他模型的解决率均未超过 2%。在 ARC-AGI 测试中，o3 的得分是 o1 的三倍，超过 85%（经 ARC Prize 团队现场验证），代表了概念推理领域的一个里程碑。

协商一致

除了这些进步之外，OpenAI 还加强了对安全和协调的承诺。

该公司推出了关于审议协调的新研究，这项技术有助于使 o1 成为迄今为止最强大和最协调的模型。

该技术将人类编写的安全规范嵌入到模型中，使它们能够在生成响应之前明确推理这些策略。

该策略旨在通过为模型配备思路链 (CoT) 推理来解决 LLM 中常见的安全挑战，例如易受越狱攻击和过度拒绝良性提示。此过程允许模型在推理过程中动态调用和应用安全规范。

审议性协调改进了以前的方法，例如从人类反馈中进行强化学习 (RLHF) 和体质 AI，这些方法仅依赖安全规范来生成标签，而不是将策略直接嵌入模型中。

通过对安全相关提示及其相关规范的 LLM 进行微调，该方法创建了能够进行策略驱动推理的模型，而无需过度依赖人工标记的数据。

OpenAI 研究人员在一篇新的非同行评审论文中分享的结果表明，该方法提高了安全基准的性能，减少了有害输出，并确保更好地遵守内容和风格指南。

主要发现突出了 o1 模型相对于 GPT-4o 等前代模型和其他最先进模型的进步。审慎对齐使 o1 系列能够出色地抵抗越狱并提供安全完成，同时最大限度地减少对良性提示的过度拒绝。此外，该方法还促进了分布外泛化，展示了多语言和编码越狱场景中的稳健性。这些改进符合 OpenAI 的目标，即随着 AI 系统能力的增长，使其更安全、更易于解释。

这项研究还将在协调o3和o3-mini方面发挥关键作用，确保它们的能力强大而负责。

如何申请测试o3和o3-mini

早期访问申请现已在OpenAI 网站上开放，并将于 2025 年 1 月 10 日截止。

申请者必须填写一份在线表格，表格中会要求他们提供各种信息，包括研究重点、过去的经验、之前发表的论文链接和 Github 上的代码库，并选择他们希望测试的模型（o3 或 o3-mini）以及他们计划将它们用于什么用途。

选定的研究人员将被授予访问 o3 和 o3-mini 的权限，以探索其功能并为安全评估做出贡献，但 OpenAI 的表格警告称，o3 将在数周内无法使用。

鼓励研究人员制定强有力的评估，创建高风险能力的受控演示，并在广泛采用的工具无法实现的场景上测试模型。

该计划以公司既定的实践为基础，包括严格的内部安全测试、与美国和英国人工智能安全研究所等组织的合作及其应急框架。

OpenAI 将滚动审查申请，并立即开始选拔。

新的飞跃？

o3和o3-mini的推出标志着人工智能性能的飞跃，特别是在需要高级推理和解决问题能力的领域。

这些模型在编码、数学和概念基准测试中取得了优异的成绩，凸显了人工智能研究的快速进展。

通过邀请更广泛的研究社区合作进行安全测试，OpenAI 旨在确保负责任地部署这些功能。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-que-ren-xin-qian-yan-mo-xing-o3-he-o3mini

Like (0)

王浩然作者

0 0

Perplexity 与Carbon 的集成将使企业更容易将其数据连接到 AI 搜索

Previous 2024年12月21日

Slack 正在成为人工智能工作场所：这对你的工作意味着什么

Next 2024年12月21日

AI前沿

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

2024年9月25日，腾研读书举办了一场对谈，腾讯研究院资深专家袁晓辉对谈前OpenAI研究员，也是《为什么伟大不能被计划》一书的两位作者肯尼斯·斯坦利（Kenneth Stanl…

点点
2024年10月12日
000
AI前沿

微软推出 10 个新 AI 代理，增强其企业自动化领先地位

微软在 Ignite 2024 大会上宣布，10 个自主 AI 代理现已可供企业使用，引起轰动。微软有效地宣布，AI 代理已准备好迎接黄金时段——实现其他人尚未实现的目标。微软的…

王浩然
2024年11月27日
000
AI前沿

基础设施、可持续性、人工智能、鸡尾酒

上周，Ars Technica 主编 Ken Fisher 和我一路向西，来到阳光明媚的加利福尼亚州圣何塞，参加一场名为“超越喧嚣：GenAI 的基础设施未来以及接下来会发生什么”…

点点
2024年10月1日
000
AI前沿

Meta 不愿透露是否利用智能眼镜拍摄的照片来训练 AI

Meta 的 AI 驱动雷朋眼镜正面有一个隐蔽的摄像头，不仅会在你要求时拍照，还会在 AI 功能触发某些关键词（例如“看”）时拍照。这意味着这款智能眼镜会收集大量照片，包括有意拍摄…

点点
2024年10月2日
000
AI前沿

为什么“亲社会人工智能”必须成为设计、部署和管理人工智能的框架

随着人工智能渗透到现代生活的各个领域，企业领导者、政策制定者和创新者面临的核心挑战不再是是否采用智能系统，而是如何采用。在一个两极分化加剧、资源枯竭、机构信任度下降和信息环境动荡的…

王浩然
2025年1月26日
000
AI前沿

SpaceX 北极星黎明任务将向我们展示太空飞行如何改变身体

8 月 27 日，所有人的目光都将聚焦在美国宇航局位于佛罗里达州的肯尼迪航天中心，观看一次历史性的飞行。 SpaceX 的猎鹰 9 号火箭将把 Dragon 载人太空舱和四名私人宇…

点点
2024年9月3日
000
AI前沿

Meta 的新款智能眼镜看起来是未来趋势

Meta 最令人印象深刻的新产品——代号为 Orion 的智能眼镜目前还无法购买。几年后，你也许可以买到类似产品，但大多数人甚至都无法戴上它们。不过，这并不一定会让它们变得不那么令…

王浩然
2024年9月30日
000
AI前沿

Visa的AI优势：RAG即服务与深度学习如何强化安全并加速数据检索

引言全球支付巨头Visa在200多个国家和地区开展业务，每个地方都有其独特且复杂的规则与法规。当客户服务团队面对政策相关问题时，比如“我们是否可以在这个国家处理这种类型的支付？”…

王浩然
2025年3月18日
000
AI前沿

巨头之争：谷歌、微软、OpenAI角逐生成式AI；Uber携手AI伙伴加速自动驾驶

生成式人工智能，作为AI领域的新星，能够创造出全新的内容，如文本、图像和音乐。谷歌、微软和OpenAI都在这一领域投入重金，希望能够开发出更加智能、更加高效的生成式AI系统。

点点
2024年9月7日
000
AI前沿

D-ID 推出可进行实时对话的全新高质量虚拟形象

AI 视频平台 D-ID 今天宣布推出两种用于内容创作的新类型化身——Express 和 Premium+。各家公司都在追逐创造更像人类的人工智能形象的金蛋，这些形象可能会减轻企…

王浩然
2024年11月2日
000
AI前沿

OpenAI 首席研究官随首席技术官 Mira Murati 离职而离职

OpenAI 首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 在 OpenAI 首席技术官 Mira Murati宣布离职数小时后也宣布离职。首席执行官 …

王浩然
2024年9月26日
000
AI前沿

网络安全专家需要更安全、更专业的 GenAI 工具

CrowdStrike委托对全球 1,022 名网络安全专业人士进行了一项调查，以评估他们对生成式人工智能 (GenAI) 的采用及其影响的看法。研究结果显示，人们对 GenAI…

王浩然
2024年12月24日
000
AI前沿

Adobe发布“项目幻灯片惊叹”（Project Slide Wow）：从原始客户数据自动生成PowerPoint演示文稿

在拉斯维加斯举行的Adobe年度数字创新大会Summit 2024上，Adobe公司展示了“项目幻灯片惊叹”（Project Slide Wow），这是一款基于生成式人工智能（AI…

王浩然
2025年3月22日
000
AI前沿

Zillow 升级人工智能搜索，将向你展示更多你买不起的房屋

Zillow 正在升级其 AI 搜索功能，能够根据房屋或出租房屋与办公室、学校或其他兴趣点的距离来查找房屋或出租房屋。现在，您无需通过选择特定位置或过滤器来缩小搜索范围，只需输入“…

王浩然
2024年9月4日
000
AI前沿

合成数据有其局限性——为什么人类来源的数据可以帮助防止人工智能模型崩溃

天哪，科技界的形势瞬息万变。就在两年前，人工智能还被誉为“统治一切的下一个变革性技术”。现在，人工智能非但没有达到天网的水平并统治世界，反而在逐渐退化。人工智能曾是新智能时代的…

王浩然
2024年12月16日
000
AI前沿

Appen 首席执行官 Ryan Kolln – 访谈系列

Ryan Kolln是Appen的首席执行官兼董事总经理。Ryan 拥有 20 多年的全球技术和电信经验，对 Appen 的业务和 AI 行业有着深刻的理解。他的职业生涯始于一名…

点点
2024年10月23日
000
AI前沿

人类新视野：Anthropic科学家揭示AI的“思考”方式，发现其秘密规划并偶尔说谎‌

在人工智能领域，科学家们一直致力于探索和理解大型语言模型（LLMs）如何处理信息并做出决策。近日，Anthropic公司的一项新研究为我们揭示了这些AI系统内部工作的惊人细节，发现…

王浩然
2025年3月31日
000
AI前沿

Chain of Experts（COE）：低成本高效能的大型语言模型框架

引言在人工智能（AI）领域，大型语言模型（LLM）的应用日益广泛，但高昂的成本和复杂的部署流程一直是阻碍其普及的关键因素。近日，一种名为Chain of Experts（COE）…

王浩然
2025年3月19日
000
AI前沿

Meta 正在制造能“感受”触觉的机械手

Meta 表示，它正在与传感器公司 GelSight 和韩国机器人公司 Wonik Robotics合作，将人工智能触觉传感器商业化。这些新设备并非面向消费者，而是面向科学家。M…

王浩然
2024年11月2日
000
AI前沿

为什么我的iPhone没有充电？

当您插入iPhone或将其放在无线充电器上为电池充电时，可是它还没有立即充电。发生了什么？很多事情都可能出错。让我们来看看一些最常见的iPhone充电问题，以及您可以做些什么。使…

free
2024年9月26日
000