OpenAI 推出可自我核实事实的模型 o1

王浩然 • 2024年9月14日上午9:00 • AI前沿 • 122 views

ChatGPT制造商 OpenAI 宣布了其下一个主要产品发布：代号为 Strawberry 的生成式 AI 模型，正式名称为 OpenAI o1。

更准确地说，o1 实际上是一系列模型。周四，ChatGPT 和 OpenAI 的 API 中将提供两个模型：o1-preview 和 o1-mini，后者是一个更小、更高效的模型，旨在生成代码。

您必须订阅 ChatGPT Plus或Team才能在 ChatGPT 客户端中看到 o1。企业和教育用户将于下周初获得访问权限。

请注意，o1 聊天机器人体验目前相当简陋。与 o1 的前身GPT-4o 不同，o1 尚无法浏览网页或分析文件。该模型确实具有图像分析功能，但这些功能已被禁用，等待进一步测试。而且 o1 有速率限制；目前 o1-preview 的每周限制为 30 条消息，o1-mini 的每周限制为 50 条消息。

另一个缺点是，o1 很昂贵。非常昂贵。在 API 中，o1-preview 每 100 万个输入令牌收费 15 美元，每 100 万个输出令牌收费 60 美元。与 GPT-4o 相比，输入成本是其 3 倍，输出成本是其 4 倍。（“令牌”是原始数据位；100 万个令牌相当于大约 75 万个单词。）

OpenAI 表示计划向所有 ChatGPT 免费用户提供 o1-mini 访问权限，但尚未确定发布日期。我们将要求该公司遵守这一规定。

推理链

OpenAI o1 避免了一些通常会绊倒生成式 AI 模型的推理陷阱，因为它可以通过花更多时间考虑问题的各个部分来有效地自我核实事实。OpenAI 表示，o1 与其他生成式 AI 模型的“感觉”质量不同之处在于，它能够在回答问题之前“思考”。

当有更多时间“思考”时，o1 可以全面推理一项任务——提前规划并在较长时间内执行一系列操作，帮助模型得出答案。这使得 o1 非常适合需要综合多个子任务结果的任务，例如检测律师收件箱中的特权电子邮件或集思广益制定产品营销策略。

OpenAI 研究科学家 Noam Brown 周四在 X 上发布了一系列帖子，称“o1 接受了强化学习训练”。他表示，这教会系统“在通过私人思维链做出反应之前‘思考’”，当 o1 答对时给予奖励，答错时则受到惩罚。

布朗提到，OpenAI 利用了一种新的优化算法和训练数据集，其中包含专门针对推理任务的“推理数据”和科学文献。“[o1] 思考的时间越长，它做得就越好，”他说。

TechCrunch 在 o1 首次亮相之前没有机会对其进行测试；我们会尽快试用。但据一位确实有权限的人——汤森路透副总裁 Pablo Arredondo 称，在分析法律摘要和确定 LSAT 逻辑游戏中问题的解决方案等方面，o1 比 OpenAI 之前的模型（例如 GPT-4o）更好。

“我们发现它可以处理更实质性、更全面的分析，”Arredondo 告诉 TechCrunch。“我们的自动化测试还表明，它在处理一系列简单任务时都有所进步。”

OpenAI 表示，在国际数学奥林匹克 (IMO)（一项高中数学竞赛）的资格考试中，o1 正确解答了 83% 的题目，而 GPT-4o 仅解答了 13%。（考虑到谷歌 DeepMind 最近的人工智能在相当于实际 IMO 竞赛的比赛中获得了银牌，这一成绩就没那么令人印象深刻了。）OpenAI 还表示，在在线编程挑战赛 Codeforces 中，o1 达到了参与者的第 89 个百分位——比。DeepMind 的旗舰系统AlphaCode 2更好，值得一提。

OpenAI 表示，总体而言，o1 在数据分析、科学和编码问题上应该表现得更好。（GitHub 使用其 AI 编码助手GitHub Copilot对 o1 进行了测试，报告称该模型擅长优化算法和应用程序代码。）而且，至少根据 OpenAI 的基准测试，o1 在多语言技能方面比 GPT-4o 有所提高，尤其是在阿拉伯语和韩语等语言方面。

沃顿商学院管理学教授伊桑·莫里克在个人博客上发表了使用 o1 一个月后的感受。他说，在一场颇具挑战性的填字游戏中，o1 表现不错——所有答案都正确（尽管出现了幻觉，出现了新的线索）。

OpenAI o1 并不完美

现在，存在一些缺点。

OpenAI o1 的速度可能比其他模型慢，具体取决于查询。Arredondo 表示，o1 可能需要 10 秒以上才能回答某些问题；它通过显示当前正在执行的子任务的标签来显示其进度。

鉴于生成式人工智能模型的不可预测性，o1 可能还存在其他缺陷和局限性。例如，布朗承认，o1 有时会在井字游戏中出错。OpenAI 在一篇技术论文中表示，它从测试人员那里听到了一些轶事反馈，即 o1 比 GPT-4o更容易产生幻觉（即自信地编造东西）——而且当它没有问题的答案时，它很少承认。

“错误和幻觉仍然会发生（o1），”莫里克在他的帖子中写道。“它仍然不是完美无缺的。”

毫无疑问，我们会及时了解更多有关各种问题的信息，并有机会亲自面对困难。

竞争激烈

如果我们不指出 OpenAI 远非唯一一家研究这些类型的推理方法以提高模型真实性的 AI 供应商，那我们就太失职了。

Google DeepMind 研究人员最近发表了一项研究成果，表明通过为模型提供更多的计算时间和指导以满足请求，这些模型的性能可以得到显著提高，而无需进行任何额外的调整。

OpenAI表示，为了说明竞争的激烈程度，它决定不在 ChatGPT 中展示 o1 的原始“思维链”，部分原因是“竞争优势”。（相反，该公司选择展示思维链的“模型生成的摘要”。）

OpenAI 可能是第一个推出 o1 的公司。但假设竞争对手很快也会效仿，推出类似的模型，那么该公司真正的考验将是让 o1 广泛普及——并且更便宜。

从此，我们将看到 OpenAI 能够以多快的速度推出 o1 的升级版本。该公司表示，其目标是试验推理时间长达数小时、数天甚至数周的 o1 模型，以进一步提升其推理能力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/openai-tui-chu-ke-zi-wo-he-shi-shi-shi-de-mo-xing-o1

Like (0)

王浩然作者

0 0

Meta 正在使其用 AI 工具编辑或修改的内容看上去不那么明显。

Previous 2024年9月14日上午8:00

黑客诱骗 ChatGPT 泄露自制炸弹的详细说明

Next 2024年9月14日

AI前沿

Together AI 有望通过私有云企业 AI 平台实现更快的推理速度和更低的成本

在公共云中运行人工智能可能会给企业带来许多有关数据隐私和安全的担忧。这就是为什么一些企业会选择在私有云或本地环境中部署 AI。Together AI是寻求解决挑战的供应商之一，这…

王浩然
2024年9月24日
000
AI前沿

OpenAI 首席技术官 Mira Murati 表示她将离开公司

OpenAI首席技术官米拉·穆拉蒂周三在 X 上发帖称，她将离开公司。穆拉蒂表示，在这家人工智能初创公司工作了六年多后，她将离开公司，从事自己的探索。 “经过深思熟虑，我做出了离开…

王浩然
2024年9月26日
000
AI前沿

开源开发者：以智慧与决心对抗AI爬虫

在数字世界的广袤疆域中，一场无声的战役正在悄然上演。这场战役的主角是开源开发者，他们正以前所未有的智慧和决心，对抗着日益猖獗的AI爬虫。这些爬虫，利用人工智能技术，无孔不入地搜集着…

王浩然
2025年3月28日
000
AI前沿

ConverzAI 获 1600 万美元融资，为企业带来 30% 效率提升

总部位于华盛顿州雷德蒙德的初创公司ConverzAI是一家人工智能招聘自动化提供商，该公司在A 轮融资中筹集了 1600 万美元，以帮助其推动产品创新并扩大市场范围。此轮融资由 …

王浩然
2025年2月12日
000
AI前沿

揭秘！新型开源AI模型引领材料设计革命

可持续材料开发专家 Orbital Materials 开源了一种最先进的 AI 模型，用于模拟先进材料以支持全球脱碳。该模型名为 Orb，是该公司从头开…

点点
2024年9月7日
000
AI前沿

超越 RAG：缓存增强生成如何降低较小工作负载的延迟和复杂性

检索增强生成 (RAG) 已成为定制大型语言模型 (LLM) 以处理定制信息的实际方法。然而，RAG 需要前期技术成本，而且速度可能很慢。现在，得益于长上下文 LLM 的进步，企业…

王浩然
2025年1月18日
000
AI前沿

Google Cloud 将搜索和 YouTube 背后的技术引入企业 AI 应用

随着生成式人工智能的不断进步，对于许多企业来说，一个简单的聊天机器人可能已不再足够。云计算超大规模提供商正在竞相建立自己的数据库和工具，以帮助企业快速高效地部署运营数据，从而构建…

点点
2024年10月4日
000
AI前沿

Harness 如何“驾驭”代理 AI，通过自动数据收集和剧本来帮助改善企业事件响应

事件响应是应对系统中断和减速的过程，是 IT 运营的一个重要方面。这也是一项传统上涉及大量手动、耗时流程的活动。 Harness正致力于通过一项新的事件响应服务应对这一挑战。该技术…

王浩然
2025年1月23日
000
AI前沿

许多组织对人工智能网络安全威胁毫无准备

人工智能在提高网络安全威胁检测能力的同时，也带来了更为高级的挑战。 Keeper Security的研究发现，尽管实施了与人工智能相关的政策，但许多组织仍然没有充分做好应对人工智能…

点点
2024年10月11日
000
AI前沿

企鹅兰登书屋保护其书籍免受人工智能训练的影响

企鹅兰登书屋（PRH）针对人们对使用知识产权训练人工智能系统日益增长的担忧采取了重要举措。出版商在新书和重印书的版权页上添加了一条新声明，指出“不得以任何方式使用或复制本书的任何…

点点
2024年10月24日
000
AI前沿

Canva 已提高其 Teams 产品的价格

设计平台 Canva 正在大幅提高部分客户的价格。该公司将此举部分归咎于生成式人工智能。在美国，部分使用旧定价计划的 Canva Teams 用户发现，五人计划的标价从每年 11…

王浩然
2024年9月4日
000
AI前沿

“未来的你”人工智能让你遇见未来的自己

该系统使用大型语言模型，根据信息生成可关联的虚拟版本

点点
2024年10月8日
000
AI前沿

从 2.2 亿个数据点到收入：人工智能如何改变体育娱乐投资回报率

超级碗是全球最大的体育娱乐赛事之一，吸引了超过一亿观众和十亿美元的收入。但对于 NFL 球队和体育娱乐活动总体而言，通往冠军的道路还很漫长，因为球队的目标是打造品牌、扩大粉丝群并…

王浩然
2025年2月9日
000
AI前沿

Observo 的 AI 原生数据管道将嘈杂遥测减少了 70%，增强了企业安全性

人工智能热潮引发了数据爆炸式增长。人工智能模型需要大量数据集进行训练，它们所支持的工作负载（无论是内部工具还是面向客户的应用程序）正在生成大量遥测数据：日志、指标、跟踪等等。即使…

王浩然
2025年2月4日
000
AI前沿

OpenAI 推出适用于 iPhone 的 ChatGPT，与 Apple 实现具有里程碑意义的 AI 整合

随着iOS 18.2向用户推出，OpenAI于周三展示了其新的 iPhone 集成，将 ChatGPT 直接引入 Siri、写作工具和相机功能。该功能更新在 OpenAI 的“ …

王浩然
2024年12月12日
000
AI前沿

OpenAI翅膀硬了要单飞？急欲摆脱对微软数据中心依赖

划重点： OpenAI抱怨称，微软在为其供应服务器方面的响应速度不够快。 OpenAI正与甲骨文洽谈，计划联手构建一个全球最顶尖的AI数据中心。微软已承诺，将在2025年底之前向…

点点
2024年10月9日
000
AI前沿

Cohere 最小、最快的 R 系列模型在 RAG 方面表现出色，能够推理 23 种语言

人工智能初创公司Cohere发布了 Command R7B，这是其 R 模型系列中最小、最快的模型，以证明其支持广泛企业用例的意图，包括那些不需要昂贵、资源密集型的大型语言模型(L…

王浩然
2024年12月16日
000
AI前沿

AI的生态进化：模应一体的终结与新商业逻辑的诞生

9 月 4 日，文心一言大模型的移动端应用发布了 4.0.0 版本，最大的改动是 App 名字从“文心一言”改名为“文小言”；同一天，支付宝旗下 AI 应用“支小宝”最新版本也正式…

点点
2024年9月7日
000
AI前沿

谷歌利用人工智能识别量子误差

谷歌的DeepMind和Quantum AI团队开发了AlphaQubit，这是一种基于神经网络的解码器，可以比以前的方法更准确地识别量子计算错误。量子计算机可以解决传统计算机目…

王浩然
2024年12月2日
000
AI前沿

OpenAI 雄心勃勃的增长战略伴随着巨大的财务风险

据 The Information最近的一份报告称， OpenAI的内部财务预测揭示了一项高风险战略，即将激进的收入目标与巨额预计损失相结合。该公司的计划凸显了快速发展的人工智能领…

点点
2024年10月11日
000

发表回复

Please Login to Comment

OpenAI 推出可自我核实事实的模型 o1

推理链

OpenAI o1 并不完美

竞争激烈

相关推荐

发表回复

Share To :