OpenAI 昨天下午震惊世界,它发布的不是传闻中的“Strawberry”,也不是 GPT-5,而是一个名为 o1 的全新“推理”大型语言模型 (LLM) 系列,旨在为与科学、技术、工程和数学 (STEM) 领域相关的任务提供高性能和准确性。
OpenAI 的两个新模型是 o1-preview 和参数较低(不太先进)的 o1-mini,目前可供 ChatGPT Plus 用户以及使用OpenAI 付费应用程序编程接口 (API) 的开发人员使用。这样,开发人员可以将它们作为现有第三方应用和服务的后端进行测试,或者在它们之上构建新的应用和服务。
OpenAI 表示,新的 o1 模型使用一种“推理”形式,它们“尝试不同的策略,识别错误,并进行完整的思考过程”,OpenAI 的 API 技术负责人 Michelle Pokrass 在接受 VentureBeat 视频电话采访时分享了这些模型开发背后的一些想法。
“在我们的测试中,这些模型在一些最具挑战性的基准上的表现与博士生的表现非常相似,”Pokrass 指出。
具体来说,o1 模型在“推理相关问题”上“表现得比”GPT 系列“好得多”,OpenAI 产品部门的 Nikunj Handa 表示,他还花时间向 VentureBeat 分享了对 o1 模型系列的看法。
以下是第三方开发人员应该了解的有关新 o1-preview 和 o1-mini 模型的信息。
仅限于文本 — 没有图像或文件分析 — 并且速度较慢……
目前o1-preview 和 o1-min 模型目前仅限于文本输入和输出,因此目前不太可能取代第三方开发人员对 GPT-4o 的使用,GPT-4o 是 OpenAI 的最新最先进的模型,提供多模式输入和输出,包括分析文件附件和生成图像。
Pokrass 和 Handa 表示,o1 系列车型不是多式联运的。
o1 模型还不能连接到网络浏览,这意味着在其训练截止日期(2023 年 10 月)之后没有任何外部知识,尽管用户当然可以以文本输入的形式提供自己的知识供模型参考和分析。
它们的输出响应速度也较慢,在某些情况下需要一分钟甚至几分钟才能做出响应。
然而,一些在过去几周和几个月内获得早期 alpha 访问权限的开发人员报告称,他们在编码和起草法律文件等任务上的性能有所提高,因此对于希望进行实验并支付更多费用来提高性能的开发人员来说,使用其中一种仍然是一个不错的选择。
正如 OpenAI 在其新的 o1-preview 和 o1-mini 推理模型的API 文档中所写:“对于需要图像输入、函数调用或持续快速响应时间的应用程序,GPT-4o 和 GPT-4o mini 模型将继续是正确的选择。但是,如果您的目标是开发需要深度推理并能适应更长响应时间的应用程序,那么 o1 模型可能是一个绝佳的选择。”
o1 的价格比其他 OpenAI 模型贵很多,但 o1-mini 很划算
首先,您需要是 OpenAI API 的重度用户才能获得资格。o1-preview 和 o1-mini 模型最初面向“第 5 级”用户开放,即那些通过 API 花费 1,000 美元并至少在 30 天(或更早)前向公司付款的用户。
OpenAI 警告称,新的 o1 模型是预览版,每分钟限制为 20 个请求(或每分钟 20 个调用),而其他 OpenAI 模型的限制则更高,或者每分钟/每天受代币限制。
该公司目前也不接受其他低价型号那样的“批量”请求——本质上是将不需要立即响应的输入集中到 API 中,而是在 24 小时内(或更短时间内)进行分析并输出相应的响应。
Pokrass 表示,主要的 o1 预览模型提供了更多关于 STEM 以外学科的“世界知识”,它是目前 OpenAI 提供的最昂贵的 AI 模型,成本高出很多——每输入 100 万个代币的成本为 15 美元,每输出 100 万个代币的成本为 60 美元(15 美元 / 60 美元),而 GPT-4o 的成本为 5 美元 / 15 美元,新的完整 o1 预览模型的价格要贵 200%-300%。
然而,o1-mini 模型的价格非常便宜,每 100 万个输入代币售价 3 美元,每 100 万个输出代币售价 12 美元,即便宜了 80%。
波克拉斯表示:“当然,我们将在未来几周和几个月内调整价格,以使其达到正确的水平。”
以下是 OpenAI 通过其 API 对其各种领先模型的定价明细
当谈到上下文时——或者一个给定的 LLM 在一次交互、输入和输出中可以处理多少个标记——o1系列的限制为 128,000,与 GPT-4o 和 OpenAI 的其他顶级模型相当。
o1-preview 模型在单个输出或响应中最多可以产生 32,768 个标记,而 o1-mini 可以产生该数字的两倍,即 65,536 个。
到目前为止,开发人员使用 OpenAI o1-preview 和 o1-mini 的目的是什么……
OpenAI 发布 o1-previews 和 o1-mini 还不到 24 小时,但一些开发人员已经在思考它的用途并对其进行测试,以了解它的优点和缺点。
而且,如前所述,OpenAI 确实在过去几周和一个月内在一个选定的早期 alpha 用户和测试人员群体中“播下”了它的种子。
基于这项工作,以下是迄今为止 o1-preview 和 o1-mini 模型的一些最有趣的用途:
制定计划和白皮书
许多用户报告说,o1 模型系列可以根据简单的提示生成完善的行动计划,甚至生成带有引文的完整文档(如白皮书) 。
规划、基础设施和风险评估
人工智能影响者和企业顾问Allie K. Miller在 X 上发布了一个帖子,介绍了 OpenAI 的 o1 预览模型的各种令人印象深刻的输出,包括自动(比人类快得多)优化组织人员的时间表、评估合并风险、设计高效的仓库,甚至平衡城市电网。
快速创建应用程序和游戏
OpenAI o1-preview 似乎是对 Anthropic 的 Claude 家族,特别是 Artifacts 功能的直接警告,因为它也是用户生成自己的交互式应用程序和游戏的一种有效且快速的方式,正如 AI 语音和音频初创公司 ElevenLabs 的设计主管 Ammaar Reshi在 X 上指出的那样。请注意,他使用了另一个软件工具 Cursor Composer 来运行该模型。
不过,正如网络通知初创公司 Engagespot 的首席技术官 Anand Sukumaran在其 X 账户上所发布的那样,GPT-4o 在编写简单程序(例如显示“Hello, World!”)时仍然能实现更快的速度。
自行完成提案请求 (RFP)
承包商,特别是那些为政府机构提供产品的承包商,都非常熟悉征求建议书(RFP) ——由机构以标准化格式征求合同投标的一份文件,填写起来可能非常繁琐和耗时。
虽然已经出现了专门的人工智能软件来帮助承包商更有效地填写这些文件,但宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 是一位领先的人工智能影响者和早期采用者,他在 alpha 测试阶段曾使用过 o1 ,他在 X 上发帖称 o1 可以自行填写 RFP — — 当然,它仅限于文本并且不接受文件上传,因此用户需要将 RFP 的文本版本复制并粘贴到 ChatGPT 中或通过其他应用程序的 o1 上下文窗口中。
制定参与和增长黑客策略
Ruben Hassid 是 EasyGen 的创始人,EasyGen 是一款用于自动生成 LinkedIn 帖子的 Chrome 应用程序,他在 X 上发布了一个演示视频,展示了 o1-preview 如何生成一个全面且合理的计划,以使用 Reddit 来帮助他的公司发展。https://twitter.com/RubenHssd/status/1834281243510538671?12
“我简直不敢相信答案这么长。法学硕士不可能有这么多的策略,”他写道。
在哪里可以访问 OpenAI o1-preview 和 o1-mini?
开发人员当然可以通过该公司的公共 API以及Microsoft Azure OpenAI 服务、Azure AI Studio 和 GitHub Models 访问新的 OpenAI o1 模型。
虽然 o1 系列显然并不适合所有(甚至可能不适合大多数)开发人员,但 o1 系列的首次亮相对于那些拥有实验空间并希望构建新应用程序和服务的人来说是一个激动人心的时刻。
OpenAI 还致力于继续开发 o1 系列和 GPT 系列的功能,因此对于那些希望在领先的 AI 公司平台上进行构建的人来说,并不缺乏选择。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-de-o1preview-he-o1mini-mo-xing-dui-kai-fa-ren-yuan