ChatGPT制造商 OpenAI 宣布了其下一个主要产品发布:代号为 Strawberry 的生成式 AI 模型,正式名称为 OpenAI o1。
更准确地说,o1 实际上是一系列模型。周四,ChatGPT 和 OpenAI 的 API 中将提供两个模型:o1-preview 和 o1-mini,后者是一个更小、更高效的模型,旨在生成代码。
您必须订阅 ChatGPT Plus或Team才能在 ChatGPT 客户端中看到 o1。企业和教育用户将于下周初获得访问权限。
请注意,o1 聊天机器人体验目前相当简陋。与 o1 的前身GPT-4o 不同,o1 尚无法浏览网页或分析文件。该模型确实具有图像分析功能,但这些功能已被禁用,等待进一步测试。而且 o1 有速率限制;目前 o1-preview 的每周限制为 30 条消息,o1-mini 的每周限制为 50 条消息。
另一个缺点是,o1 很昂贵。非常昂贵。在 API 中,o1-preview 每 100 万个输入令牌收费 15 美元,每 100 万个输出令牌收费 60 美元。与 GPT-4o 相比,输入成本是其 3 倍,输出成本是其 4 倍。(“令牌”是原始数据位;100 万个令牌相当于大约 75 万个单词。)
OpenAI 表示计划向所有 ChatGPT 免费用户提供 o1-mini 访问权限,但尚未确定发布日期。我们将要求该公司遵守这一规定。
推理链
OpenAI o1 避免了一些通常会绊倒生成式 AI 模型的推理陷阱,因为它可以通过花更多时间考虑问题的各个部分来有效地自我核实事实。OpenAI 表示,o1 与其他生成式 AI 模型的“感觉”质量不同之处在于,它能够在回答问题之前“思考”。
当有更多时间“思考”时,o1 可以全面推理一项任务——提前规划并在较长时间内执行一系列操作,帮助模型得出答案。这使得 o1 非常适合需要综合多个子任务结果的任务,例如检测律师收件箱中的特权电子邮件或集思广益制定产品营销策略。
OpenAI 研究科学家 Noam Brown 周四在 X 上发布了一系列帖子,称“o1 接受了强化学习训练”。他表示,这教会系统“在通过私人思维链做出反应之前‘思考’”,当 o1 答对时给予奖励,答错时则受到惩罚。
布朗提到,OpenAI 利用了一种新的优化算法和训练数据集,其中包含专门针对推理任务的“推理数据”和科学文献。“[o1] 思考的时间越长,它做得就越好,”他说。
TechCrunch 在 o1 首次亮相之前没有机会对其进行测试;我们会尽快试用。但据一位确实有权限的人——汤森路透副总裁 Pablo Arredondo 称,在分析法律摘要和确定 LSAT 逻辑游戏中问题的解决方案等方面,o1 比 OpenAI 之前的模型(例如 GPT-4o)更好。
“我们发现它可以处理更实质性、更全面的分析,”Arredondo 告诉 TechCrunch。“我们的自动化测试还表明,它在处理一系列简单任务时都有所进步。”
OpenAI 表示,在国际数学奥林匹克 (IMO)(一项高中数学竞赛)的资格考试中,o1 正确解答了 83% 的题目,而 GPT-4o 仅解答了 13%。 (考虑到谷歌 DeepMind 最近的人工智能在相当于实际 IMO 竞赛的比赛中获得了银牌,这一成绩就没那么令人印象深刻了。)OpenAI 还表示,在在线编程挑战赛 Codeforces 中,o1 达到了参与者的第 89 个百分位——比。DeepMind 的旗舰系统AlphaCode 2更好,值得一提。
OpenAI 表示,总体而言,o1 在数据分析、科学和编码问题上应该表现得更好。(GitHub 使用其 AI 编码助手GitHub Copilot对 o1 进行了测试,报告称该模型擅长优化算法和应用程序代码。)而且,至少根据 OpenAI 的基准测试,o1 在多语言技能方面比 GPT-4o 有所提高,尤其是在阿拉伯语和韩语等语言方面。
沃顿商学院管理学教授伊桑·莫里克在个人博客上发表了使用 o1 一个月后的感受。他说,在一场颇具挑战性的填字游戏中,o1 表现不错——所有答案都正确(尽管出现了幻觉,出现了新的线索)。
OpenAI o1 并不完美
现在,存在一些缺点。
OpenAI o1 的速度可能比其他模型慢,具体取决于查询。Arredondo 表示,o1 可能需要 10 秒以上才能回答某些问题;它通过显示当前正在执行的子任务的标签来显示其进度。
鉴于生成式人工智能模型的不可预测性,o1 可能还存在其他缺陷和局限性。例如,布朗承认,o1 有时会在井字游戏中出错。OpenAI 在一篇技术论文中表示,它从测试人员那里听到了一些轶事反馈,即 o1 比 GPT-4o更容易产生幻觉(即自信地编造东西)——而且当它没有问题的答案时,它很少承认。
“错误和幻觉仍然会发生(o1),”莫里克在他的帖子中写道。“它仍然不是完美无缺的。”
毫无疑问,我们会及时了解更多有关各种问题的信息,并有机会亲自面对困难。
竞争激烈
如果我们不指出 OpenAI 远非唯一一家研究这些类型的推理方法以提高模型真实性的 AI 供应商,那我们就太失职了。
Google DeepMind 研究人员最近发表了一项研究成果,表明通过为模型提供更多的计算时间和指导以满足请求,这些模型的性能可以得到显著提高,而无需进行任何额外的调整。
OpenAI表示,为了说明竞争的激烈程度,它决定不在 ChatGPT 中展示 o1 的原始“思维链”,部分原因是“竞争优势”。 (相反,该公司选择展示思维链的“模型生成的摘要”。)
OpenAI 可能是第一个推出 o1 的公司。但假设竞争对手很快也会效仿,推出类似的模型,那么该公司真正的考验将是让 o1 广泛普及——并且更便宜。
从此,我们将看到 OpenAI 能够以多快的速度推出 o1 的升级版本。该公司表示,其目标是试验推理时间长达数小时、数天甚至数周的 o1 模型,以进一步提升其推理能力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-tui-chu-ke-zi-wo-he-shi-shi-shi-de-mo-xing-o1