OpenAI o1比博士还“聪明”，全球11位AI大咖怎么看？

点点 • 2024年9月13日下午3:00 • AI前沿 • 294 views

据国外媒体报道，美国当地时间周四，OpenAI推出了名为OpenAI o1的新人工智能模型，这也是其首个具有“推理”能力的大模型，它能通过类似人类的推理过程来逐步分析问题，直至得出正确结论。

OpenAI o1有o1-preview和o1-mini两个版本，仅支持文本，向所有ChatGPT的Plus和Team用户推出，并在API中向Tier 5开发者推出。根据OpenAI官网的评测，这款模型尤其擅长处理数学和代码问题，甚至在物理、生物和化学问题基准测试中的准确度超过了人类博士水平。

此外，OpenAI o1在物理、化学、数学、逻辑等多维度的基准测试中，水平均超过了GPT-4o：

（GPT-4o和01基准测试对比，来源：OpenAI）

比博士还聪明的OpenAI o1，调动了全球的AI名人好奇心，除了OpenAI的多位高管，英伟达高级科学家Jim Fan、纽约大学教授、美国知名AI学者加里·马库斯（Gary Marcus）、卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）等纷纷一睹为快，并在X上表达自己的看法。

我们汇总了全球11位关注AI的知名企业家、科学家的看法，有意思的是，整体的评价态度基本分为两个阵营：

一个阵营以OpenAI的高管和研究员为代表，他们大多数都给了“好评”，认为新模型开启了新一轮的AI技术范式，帮助大模型走向更复杂的推理时代；而在OpenAI之外的多数“编外人士”，给出的评价相对克制，虽然没有否定OpenAI o1的创新，但他们认为新模型的能力还没有被充分测试，并且它距离AGI依旧很遥远。

“好评”阵营：OpenAI o1打开了新的技术范式

在OpenAI发布OpenAI o1预览版及其极速版OpenAI o1-mini之后，该公司多位高管以及研究人员发帖，认为新模型将AI推向更复杂的推理时代。

OpenAI首席执行官山姆·奥特曼（Sam Altman）：OpenAI o1是我们迄今为止最强大的人工智能模型。尽管它并非尽善尽美，仍带有一定的缺陷与局限性，但初次体验便足以令人印象深刻。更重要的是，这也预示一个新范式的诞生——人工智能已迈入能够进行广泛而复杂推理的新时代。

OpenAI总裁格雷格·布罗克曼（Greg Brockman）：OpenAI o1是我们首个通过强化学习进行训练的模型，它在回答问题之前会进行深思熟虑。这是一个充满巨大机遇的新模型，无论在数量（推理度量已有显著提升）还是质量（通过简单英语“阅读模型的思维”，忠实的思维链让模型变得更可解释）上，都有明显改进。

这项技术仍处于早期阶段，带来了新的安全机会，我们正在积极探索，包括可靠性、幻觉问题以及对抗性攻击的鲁棒性。

思维链作者、OpenAI研究员Jason Wei：OpenAI o1是一个在给出最终答案之前会进行思考的模型，它不仅仅通过提示来训练思维链，而是通过强化学习让模型更好地完成思考过程。

在深度学习的历史上，我们一直在扩展训练计算，但思维链是一种自适应计算方式，也能在推理时进行扩展。

虽然OpenAI o1在AIME和GPQA的测试中显得很强大，但不一定能直接转化为用户可以感受到的效果。即使对科学工作者来说，找出GPT-4不如OpenAI o1的提示并不容易，但一旦找到，你会觉得非常惊奇。我们都需要找到更具挑战性的提示。

人工智能用人类语言模拟思维链在很多方面表现出色。这个模型能像人类一样处理问题，比如将复杂的步骤拆解成简单的步骤、识别并纠正错误，以及尝试不同的方法。

这个领域已经被完全重新定义了。

OpenAI研究员马克斯·施瓦泽（Max Schwarzer）：我一直认为，你不需要一个GPT-6级的基础模型来实现人类水平的推理能力，强化学习才是通往AGI的关键。今天，我们有了证明——OpenAI o1。

作为OpenAI创始成员之一，前特斯拉AI高级总监安德烈·卡帕西（Andrej Karpathy）的评论画风格外不同，他吐槽了模型的“懒惰”问题：OpenAI o1-mini一直拒绝为我解决黎曼假设（Riemann Hypothesis），模型的“懒惰”仍然是一个主要问题。

英伟达高级研究科学家Jim Fan和卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）虽然不是OpenAI工作人员，也给了好评。

英伟达高级研究科学家Jim Fan：这可能是自2022年原始Chinchilla缩放定律以来，大语言模型研究中最重要的进展。关键在于两个曲线的协同作用，而不是单一曲线。人们通过延伸训练缩放定律来预测大语言模型能力将陷入停滞，却未曾预见到推理缩放才是真正打破收益递减的关键。

我在2月份曾提到，任何自我提升的大语言模型算法都没能在三轮之后取得显著进展。没有人能在大语言模型领域重现AlphaGo的成功，在这个领域，更多的计算能力将可达到超越人类的水平。不过，现在我们翻开了新的一页。

博士生坎贝尔 VS 奥特曼：卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）发帖，展示了OpenAI o1预览版在美国数学邀请赛（AIME）上的表现，显示其解答了83%的问题。相较之下，GPT – 4o仅解答出13%的问题。坎贝尔写道：“一切都结束了！” 对此，OpenAI首席执行官山姆·奥特曼（Sam Altman）回复称：“我们还会回来的！”

“中差评”阵营：买家需谨慎，它并没有那么聪明

HuggingFace首席执行官兼联合创始人克莱门特·德兰吉（Clement Delangue）：再一次，人工智能系统并不是在“思考”，而是在“处理”和“运行预测”——就像谷歌或电脑一样。这种技术往往给人一种错误的印象，让你觉得这些系统像人类一样智能，但这只是廉价的宣传和营销策略，让你觉得它们比实际情况更聪明。

纽约大学教授、美国知名AI学者加里·马库斯（Gary Marcus）：OpenAI关于GPT的新模型确实令人印象深刻，但是：

1. 它不是AGI（通用人工智能），而且距离这个目标还很远。

2.仔细阅读并理解其中的细节。关于它如何工作的细节并不多，已测试的内容也没有全面披露。它与GPT-4的其余部分并未完全整合。（为什么？）

3.完整的新模型并未向付费订阅者发布，只推出了一个迷你版和预览版。因此，业界还未能对其进行充分测试。

4.报告显示，OpenAI o1在许多领域表现良好，但在某些方面旧模型表现更佳。它并不是一个全面超越旧模型的神奇改进。

5.我们不清楚具体的训练内容，但即使是一些基础任务，如井字棋（tic-tac-toe），也存在问题。

6.OpenAI夸大了它在法律考试上的成功，经过仔细审查，这些说法经不起推敲。科学审查需要时间，目前这些结果尚未经过同行评审。

7.它声称能在几秒钟内完成的任务，若给它一个月时间，可能会让人惊讶。但如果给它一个高度专业化的任务，比如编写复杂的软件代码，它可能会令人失望，因为OpenAI希望你认为它无所不能。

8. 买家需谨慎。

沃顿商学院管理学教授伊森·莫里克（Ethan Mollick）：我已经用了1个月的“草莓”（OpenAI o1），它在许多方面都很惊人，但也有些限制。也许最重要的是，这是一个信号，表明了未来事情的发展方向。

新的人工智能模型被称为“o1-预览”（为什么人工智能公司总是这么不擅长命名？），它在解决问题之前会先“思考”一下问题。这使得它能够解决那些需要计划和迭代的复杂问题，比如新颖的数学或科学难题。事实上，它在解决极其困难的物理问题上，现在甚至可以超过人类的博士专家。

需要明确的是，“o1-预览”并不是在所有方面都表现得更好。例如，它并不比GPT-4o更强。但对于需要规划的任务，表现却非常好。例如，我给它下达了这样的指令：参考下面的论文，考虑老师和学生的观点，弄清楚如何使用多个代理和生成式AI构建一个教学模拟器。编写代码并详细说明你的方法。然后我把我们论文的全文贴了上去，唯一的提示是要构建完整的代码。你可以看到下面系统生成的结果。

评估这些复杂的输出确实很困难，因此展示草莓模型的收益（以及局限性）最简单的方法是用一个游戏：填字游戏。我从一个非常难的填字游戏中提取了8条线索，并将其翻译成文本（因为我还不能看到图像）。不妨自己尝试一下这个谜题，我敢打赌你会觉得它很有挑战性。

填字游戏对大语言模型来说显得尤其棘手，因为它们需要反复试错：尝试并排除许多相互关联的答案。而大语言模型无法做到这一点，因为它们每次只能在其答案中添加一个Token。例如，当我把这个谜题给Claude时，它首先给出的答案是“STAR”（错误的），然后用这个错误的答案尝试解答剩下的谜题，最后甚至连答案都猜不出来。没有规划过程，它只能不断尝试。

但如果我把这个谜题给草莓会怎样呢？这个模型首先“思考”了整整108秒（大多数问题能在更短时间内解决）。你可以看到它的思路，下面是一个样本（还有很多我没包括），这些思路非常启发人——值得花时间读一读。

大语言模型会反复迭代，创造和排除想法，结果通常相当出色。然而，“o1-预览”似乎还是基于GPT-4o，有点过于字面化，难以破解这个较难的谜题。例如，“星系团”并不是指真正的星系，而是三星Galaxy手机（这也让我困惑）——答案是“应用程序”。在决定是否为COMA（一个真实的星系团）之前，它一直在尝试实际的星系名称。因此，剩下的结果虽然有创意，但不完全正确，也不符合规则。

为了尝试更进一步，我决定给它一个提示：“1向下是APPS。”人工智能又花了一分钟。再次，在它的思维样本中（见左边），你可以看到它如何迭代想法。最终，它给出的答案完全正确，解决了所有难题的提示，尽管它确实生成了一个新线索——这不是我给它的谜题。

所以，如果没有“草莓”，“o1-预览”所做的事情是不可能实现的，但它仍然不是完美的：错误和幻觉仍然存在，且它仍受限于GPT-4o作为底层模型的“智能”。自从有了新模型，我没停止用Claude来评论我的帖子，Claude在风格上仍然表现更好，但我确实停止用它处理任何复杂的计划或问题解决任务。0“o1-预览”在这些领域代表了巨大的飞跃。

使用“o1-预览”意味着面临人工智能的范式变化。计划成了一种代理形式，人工智能在没有我们帮助的情况下自己得出解决方案。可以看出，人工智能做了大量的思考，产生了完整的结果，作为人类伙伴的角色感觉被削弱了。人工智能会自主完成任务，然后给出答案。当然，我可以通过分析它的推理找出错误，但我不再感觉自己与人工智能的输出有联系，也不再觉得自己在解决方案的形成中扮演重要角色。这不一定是坏事，但确实是一种改变。

随着这些系统不断升级，逐渐走向真正的自主代理，我们需要弄清楚如何保持在这个循环中——既要捕捉错误，又要掌握我们试图解决问题的核心。“o1-预览”展示了可能前所未见的人工智能功能，即使它目前存在一些局限性。这给我们留下了一个关键问题：随着人工智能的发展，我们如何与它更好地合作？这是“o1-预览”目前还无法解决的问题。

和很多人直接的褒贬观点不同，作为对话式搜索引擎Perplexit CEO，阿拉温德·斯里尼瓦斯（Aravind Srinivas）试图“猜测”OpenAI o1模型的原理。他不认为“草莓”所给出的答案是经由反复批判性反馈精心提炼的结果，而且认为单纯依赖大型语言模型来得出答案并不足够可靠。他建议，将代码执行融入其中，并结合从知识图谱中直接提取的事实，这一做法在实际应用中可能更为有效。

总体而言，OpenAI o1的“思考”时间更长、更擅长处理标准化程度更高的“理科”问题了，这对科学领域的发展来说是一件好事。但除了是非分明的逻辑推理问题，世界上所存在的更多问题，都是没有标准答案的，对芸芸众生而言，一千个人眼中有一千个哈姆雷特，如果大模型能为人类解决这类非标问题，或许才能接近真正的AGI。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/openai-o1-bi-bo-shi-hai-cong-ming-quan-qiu-11-wei-ai-da-ka

Like (0)

点点

0 0

本周人工智能：OpenAI 的新 Strawberry 模型可能很聪明，但速度却很慢

Previous 2024年9月13日下午2:00

欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载

Next 2024年9月13日下午4:00

AI前沿

加州州长签署 9 项法案，规范人工智能生成内容

立法旨在解决深度伪造带来的风险

点点
2024年9月27日
000
AI前沿

谷歌的 Gemini AI 打破了视觉处理的规则——这对你来说意味着什么

谷歌的Gemini AI悄然颠覆了人工智能领域，实现了几乎没人认为可能的里程碑：实时同时处理多个视觉流。这项突破性技术让 Gemini 不仅能观看实时视频，还能同时分析静态图像。…

王浩然
2025年1月15日
000
AI前沿

微软开始向出版商支付 Copilot 展示内容的费用

微软将向出版商支付在 Copilot Daily 中出现的内容的费用，Copilot Daily 是其基于 AI 的跨平台助手 Copilot 的一项新功能。 Copilot Da…

点点
2024年10月2日
000
AI前沿

ARM与马来西亚签署2.5亿芯片供应协议‌

近日，全球领先的半导体知识产权供应商ARM宣布，将与马来西亚达成一项重大合作协议。根据协议，ARM将向马来西亚提供价值2.5亿芯片的解决方案，旨在助力马来西亚半导体产业的进一步发展…

王浩然
2025年3月6日
000
AI前沿

GPT-4o：OpenAI推出原生图像生成功能，惊艳用户

引言‌ 自OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来，近一年的时间里，这款模型始终保持着强大的竞争力。而今，OpenAI再次为ChatGPT的Plu…

王浩然
2025年3月27日
000
AI前沿

Emily Popson，CallRail 增长营销副总裁 – 访谈系列

Emily Popson 是CallRail的增长营销副总裁，负责领导需求生成、网站优化、客户营销和内容营销团队。Popson 自己之前也是一家小企业主，她热衷于让即使是最小的团…

点点
2024年10月17日
000
AI前沿

进入“Whisperverse”：人工智能语音代理将如何指导我们度过每一天

人们普遍批评大型科技公司，称它们的平台将用户视为可以通过定向广告赚钱的玻璃眼球。这种情况很快就会改变，但这并不是因为科技平台不再积极瞄准用户。相反，我们的耳朵即将成为最有效的渠道，…

王浩然
2024年11月4日
000
AI前沿

Mistral 推出其首款多模态模型 Pixtral 12B

法国人工智能初创公司Mistral发布了其首个可处理图像和文本的模型。这个名为 Pixtral 12B 的模型拥有 120 亿个参数，大小约为 24GB。参数大致对应于模型解决问…

王浩然
2024年9月13日
000
AI前沿

Kimi创始人杨植麟最新分享：关于OpenAI o1新范式的深度思考

OpenAI o1的发布，又一次引发了行业内关于大模型进化新范式的讨论。讨论的焦点是两个公认的大模型进化瓶颈：数据瓶颈——数据不够用了；以及算力瓶颈——3.2万张卡已是目前的天花…

点点
2024年9月16日
000
AI前沿

人工智能与区块链和去中心化数据相遇

区块链可以成为去中心化人工智能系统的基础，成为一股强大的力量，透明而公平——确保每个人不仅可以使用技术，还可以获得它带来的回报。随着 OpenAI、谷歌和 Anthropic 等…

点点
2024年10月21日
000
AI前沿

无需再训练：Sakana 的新 AI 模型改变了机器学习的方式

Sakana AI是一家专注于研究自然启发算法的人工智能研究实验室，其研究人员开发了一种自适应语言模型，该模型无需微调即可学习新任务。该模型称为Transformer² (Tran…

王浩然
2025年1月25日
000
AI前沿

好戏还没完：2024 年人工智能投资将大幅增加

2024 年第三季度，全球人工智能交易量达到 1,245 笔，达到 2022 年第一季度以来的最高水平，反映出投资者对投资人工智能的信心和韧性。全球人工智能交易同比增长 24%，…

王浩然
2024年11月3日
000
AI前沿

网络保险的新挑战：为什么AI驱动的攻击正在突破保险覆盖范围以及未来的应对之策

在当今时代，网络攻击对于现代企业而言可能是致命的，且成本极高。黑客利用AI技术，能够比以往任何时候都更快地利用漏洞。然而，标准的商业保险产品，如一般责任险或专业责任险（即错误与遗漏…

王浩然
2025年2月23日
000
AI前沿

司法部新提案：谷歌仍需剥离Chrome浏览器，但允许AI领域投资‌

近日，美国司法部针对谷歌公司提出了一项新的提案。该提案依旧要求谷歌剥离其Chrome浏览器业务，但同时明确表示，允许谷歌在人工智能（AI）领域进行投资。此提案一出，立即引发了业界…

王浩然
2025年3月11日
000
AI前沿

美国财政部称人工智能工具在 2024 年阻止了 10 亿美元的欺诈行为

美国财政部表示，其扩大使用机器学习系统有助于在 2024 年发现和防止数十亿美元的欺诈性支付。财政部是许多联邦项目的开具机构，每年为社会保障和医疗补助等项目处理约 14 亿笔价值…

王浩然
2024年10月20日
000
AI前沿

诺奖花落机器学习：一万年前人类驯化小麦，现在驯化AI

2024年诺贝尔物理学奖的揭晓，将机器学习这一看似与物理学相距甚远的领域推到了聚光灯下，从1956年达特茅斯会议起，到近年ChatGPT横空出世，无论是前沿科研还是日常工作生活中，…

点点
2024年10月12日
000
AI前沿

Meta 有很大机会赢得 AI 硬件竞赛

在人工智能设备失败的一年里，雷朋 Meta 智能眼镜的表现超出预期。但它能保持这种势头吗？人工智能可穿戴设备经历了糟糕的一年。就在几个月前，科技界还坚信人工智能硬件将成为下一个…

王浩然
2024年9月23日
000
AI前沿

Voyage AI 正在构建 RAG 工具，以减少 AI 产生幻觉

人工智能往往会编造事实。这对于几乎所有经常使用人工智能的人来说都是不具吸引力的，尤其是对于企业来说，错误的结果可能会损害企业的利润。在 Salesforce 最近的一项调查中，半数…

王浩然
2024年10月5日
000
AI前沿

Tennr 完成 3700 万美元 B 轮融资，利用人工智能革新医疗文档处理方式

医疗 AI 初创公司Tennr在 B 轮融资中获得了3700 万美元，而就在六个月前，该公司刚刚完成了1800 万美元的 A 轮融资。此轮融资由Lightspeed Venture…

点点
2024年10月23日
000
AI前沿

微软和 a16z 搁置分歧，联手反对人工智能监管

两个深度交织的科技生态系统中的两大力量——大型既有企业和初创公司——停止数钱，联合恳求政府停止甚至放弃考虑可能影响他们的经济利益（或者用他们喜欢的话说，创新）的监管。 “我们两家公…

王浩然
2024年11月2日
000