OpenAI 凭借其o1 模型开创了大型语言模型 (LLM) 的新推理范式,该模型最近进行了重大升级。然而,尽管 OpenAI 在推理模型方面遥遥领先,但它可能会落后于迅速崛起的开源竞争对手。
o1 之类的模型有时被称为大型推理模型 (LRM),它们使用额外的推理时间计算周期来“思考”更多,审查其响应并纠正其答案。这使它们能够解决传统 LLM 难以解决的复杂推理问题,并使它们特别适用于编码、数学和数据分析等任务。
然而,最近几天,开发人员对 o1 的反应褒贬不一,尤其是在更新版本发布之后。一些人发布了 o1 完成惊人任务的示例,而另一些人则对该模型令人困惑的响应表示沮丧。开发人员遇到了各种各样的问题,从对代码进行不合逻辑的更改到忽略指令。
o1 细节保密
部分混乱是由于 OpenAI 的保密和拒绝透露 o1 工作原理的细节。LRM 成功的秘诀是模型在达到最终响应时生成的额外标记,称为模型的“想法”或“推理链”。例如,如果您提示经典 LLM 为任务生成代码,它将立即生成代码。相比之下,LRM 将生成推理标记,用于检查问题、规划代码结构并在发出最终答案之前生成多个解决方案。
o1 隐藏了思考过程,只显示最终响应以及一条显示模型思考时间的消息,并可能显示推理过程的概述。这在一定程度上是为了避免响应混乱并提供更流畅的用户体验。但更重要的是,OpenAI 将推理链视为商业机密,并希望让竞争对手难以复制 o1 的能力。
训练新模型的成本不断增长,利润率却没有跟上,这迫使一些人工智能实验室变得更加隐秘,以扩大领先优势。即使是对该模型进行红队测试的阿波罗研究部门也没有获得其推理链的访问权限。
这种缺乏透明度的情况导致用户做出各种猜测,包括指责 OpenAI 降低模型质量以降低推理成本。
开源模型完全透明
另一方面,阿里巴巴的Qwen with Questions和Marco-o1等开源替代方案展示了其模型的完整推理链。另一种替代方案是DeepSeek R1,它不是开源的,但仍然揭示了推理标记。看到推理链使开发人员能够排除提示故障,并通过添加其他指令或上下文示例来找到改进模型响应的方法。
当您想要将模型的响应集成到需要一致结果的应用程序和工具中时,对推理过程的可见性尤其重要。此外,在企业应用程序中,控制底层模型非常重要。私有模型和支持它们的框架(例如测试其输入和输出的保护措施和过滤器)在不断变化。虽然这可能会导致更好的整体性能,但它可能会破坏许多提示和在其之上构建的应用程序。相比之下,开源模型将模型的完全控制权交给开发人员,这对于企业应用程序来说可能是一个更强大的选择,因为在企业应用程序中,特定任务上的表现比一般技能更重要。
QwQ 和 R1 仍处于预览版本,而 o1 在准确性和易用性方面处于领先地位。对于许多用途,例如进行一般的临时提示和一次性请求,o1 仍然是比开源替代方案更好的选择。
但开源社区很快就赶上了私有模型,我们可以期待未来几个月出现更多模型。它们可以成为可视性和控制至关重要的合适替代方案。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/openai-de-o1-mo-xing-mei-you-zhan-xian-qi-si-wei-zhe-rang