中国电子商务巨头阿里巴巴发布了其不断扩展的 Qwen 家族中的最新模型。这个模型被称为 Qwen with Questions (QwQ),是OpenAI 的 o1推理模型的最新开源竞争对手。
与其他大型推理模型 (LRM) 一样,QwQ 在推理过程中使用额外的计算周期来审查其答案并纠正其错误,使其更适合需要逻辑推理和规划的任务,如数学和编码。
什么是 Qwen with Questions(OwQ?),它可以用于商业目的吗?
阿里巴巴发布了 QwQ 的 320 亿参数版本,其上下文有 32,000 个 token。该模型目前处于预览阶段,这意味着性能更高的版本可能会随之推出。
根据阿里巴巴的测试,QwQ 在评估数学问题解决能力的 AIME 和 MATH 基准测试中胜过 o1-preview。它在科学推理基准 GPQA 上也胜过 o1-mini。QwQ 在 LiveCodeBench 编码基准测试中不如 o1,但仍优于其他前沿模型,例如GPT-4o和Claude 3.5 Sonnet。
QwQ 没有附带描述数据或用于训练模型的过程的论文,这使得模型结果很难重现。然而,由于该模型是开放的,与 OpenAI o1 不同,它的“思考过程”并不隐藏,可以用来理解模型在解决问题时如何推理。
阿里巴巴还根据 Apache 2.0 许可证发布了该模型,这意味着它可用于商业用途。
“我们发现了一些深刻的东西”
根据与该模型同时发布的一篇博客文章,“通过深入探索和无数次尝试,我们发现了一些深刻的现象:当给予我们时间去思考、去质疑和去反思时,该模型对数学和编程的理解就会像一朵向太阳绽放的花朵一样绽放……这种仔细反思和自我质疑的过程会在解决复杂问题方面带来显著的突破。”
这与我们了解的推理模型的工作原理非常相似。通过生成更多标记并检查其先前的响应,模型更有可能纠正潜在的错误。阿里巴巴最近发布的另一个推理模型 Marco -o1可能也包含 QwQ 工作原理的提示。Marco-o1 在推理时使用蒙特卡洛树搜索(MCTS) 和自我反思来创建不同的推理分支并选择最佳答案。该模型是在思路链 (CoT) 示例和使用 MCTS 算法生成的合成数据的混合基础上进行训练的。
阿里巴巴指出,QwQ 仍然存在一些局限性,例如混合语言或陷入循环推理循环。该模型可在Hugging Face上下载,在线演示可在Hugging Face Spaces上找到。
LLM 时代让位于 LRM:大型推理模型
o1 的发布引发了人们对创建 LRM 日益增长的兴趣,尽管除了使用推理时间尺度来改进模型的响应之外,人们对该模型的内部工作原理知之甚少。
目前,o1 在中国有数家竞争对手。中国人工智能实验室 DeepSeek 最近发布了R1-Lite-Preview,这是 o1 的竞争对手,目前只能通过该公司的在线聊天界面使用。据报道,R1-Lite-Preview 在几个关键基准测试中均胜过 o1。
另一个最近发布的模型是LLaVA-o1,由中国多所大学的研究人员开发,它将推理时间推理范式引入开源视觉语言模型 (VLM)。
在模型缩放定律的未来充满不确定性之际,LRM 成为关注的焦点。报告显示,OpenAI、Google DeepMind 和 Anthropic 等人工智能实验室在训练大型模型方面的收益正在减少。而且,由于模型已经在互联网上收集了数万亿个 token 进行训练,因此创建大量高质量的训练数据变得越来越困难。
同时,推理时间尺度提供了一种替代方案,可能为提高下一代人工智能模型的能力提供下一个突破。有报道称,OpenAI 正在使用 o1 生成合成推理数据来训练其下一代 LLM。开放推理模型的发布可能会刺激进步并使该领域更具竞争力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/a-li-ba-ba-fa-bu-qwen-with-questions-yi-zhong-chao-yue