阿里巴巴发布 Qwen with Questions，一种超越 o1-preview 的开放式推理模型

王浩然 • 2024年12月1日下午5:00 • AI前沿 • 110 views

中国电子商务巨头阿里巴巴发布了其不断扩展的 Qwen 家族中的最新模型。这个模型被称为 Qwen with Questions (QwQ)，是OpenAI 的 o1推理模型的最新开源竞争对手。

与其他大型推理模型 (LRM) 一样，QwQ 在推理过程中使用额外的计算周期来审查其答案并纠正其错误，使其更适合需要逻辑推理和规划的任务，如数学和编码。

什么是 Qwen with Questions（OwQ？），它可以用于商业目的吗？

阿里巴巴发布了 QwQ 的 320 亿参数版本，其上下文有 32,000 个 token。该模型目前处于预览阶段，这意味着性能更高的版本可能会随之推出。

根据阿里巴巴的测试，QwQ 在评估数学问题解决能力的 AIME 和 MATH 基准测试中胜过 o1-preview。它在科学推理基准 GPQA 上也胜过 o1-mini。QwQ 在 LiveCodeBench 编码基准测试中不如 o1，但仍优于其他前沿模型，例如GPT-4o和Claude 3.5 Sonnet。

QwQ 没有附带描述数据或用于训练模型的过程的论文，这使得模型结果很难重现。然而，由于该模型是开放的，与 OpenAI o1 不同，它的“思考过程”并不隐藏，可以用来理解模型在解决问题时如何推理。

阿里巴巴还根据 Apache 2.0 许可证发布了该模型，这意味着它可用于商业用途。

“我们发现了一些深刻的东西”

根据与该模型同时发布的一篇博客文章，“通过深入探索和无数次尝试，我们发现了一些深刻的现象：当给予我们时间去思考、去质疑和去反思时，该模型对数学和编程的理解就会像一朵向太阳绽放的花朵一样绽放……这种仔细反思和自我质疑的过程会在解决复杂问题方面带来显著的突破。”

这与我们了解的推理模型的工作原理非常相似。通过生成更多标记并检查其先前的响应，模型更有可能纠正潜在的错误。阿里巴巴最近发布的另一个推理模型 Marco -o1可能也包含 QwQ 工作原理的提示。Marco-o1 在推理时使用蒙特卡洛树搜索(MCTS) 和自我反思来创建不同的推理分支并选择最佳答案。该模型是在思路链 (CoT) 示例和使用 MCTS 算法生成的合成数据的混合基础上进行训练的。

阿里巴巴指出，QwQ 仍然存在一些局限性，例如混合语言或陷入循环推理循环。该模型可在Hugging Face上下载，在线演示可在Hugging Face Spaces上找到。

LLM 时代让位于 LRM：大型推理模型

o1 的发布引发了人们对创建 LRM 日益增长的兴趣，尽管除了使用推理时间尺度来改进模型的响应之外，人们对该模型的内部工作原理知之甚少。

目前，o1 在中国有数家竞争对手。中国人工智能实验室 DeepSeek 最近发布了R1-Lite-Preview，这是 o1 的竞争对手，目前只能通过该公司的在线聊天界面使用。据报道，R1-Lite-Preview 在几个关键基准测试中均胜过 o1。

另一个最近发布的模型是LLaVA-o1，由中国多所大学的研究人员开发，它将推理时间推理范式引入开源视觉语言模型 (VLM)。

在模型缩放定律的未来充满不确定性之际，LRM 成为关注的焦点。报告显示，OpenAI、Google DeepMind 和 Anthropic 等人工智能实验室在训练大型模型方面的收益正在减少。而且，由于模型已经在互联网上收集了数万亿个 token 进行训练，因此创建大量高质量的训练数据变得越来越困难。

同时，推理时间尺度提供了一种替代方案，可能为提高下一代人工智能模型的能力提供下一个突破。有报道称，OpenAI 正在使用 o1 生成合成推理数据来训练其下一代 LLM。开放推理模型的发布可能会刺激进步并使该领域更具竞争力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/a-li-ba-ba-fa-bu-qwen-with-questions-yi-zhong-chao-yue

Like (0)

王浩然作者

0 0

为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

Previous 2024年12月1日

“每一毫秒都很重要”：为什么电动方程式车队选择 Cato Networks 来连接其维修站

Next 2024年12月1日

AI前沿

英特尔蒙面人形控制器：一种实现物理逼真且可引导的人体运动的全新方法

英特尔实验室的研究人员与学术界和行业专家合作，推出了一项突破性技术，可以从稀疏的多模态输入中生成逼真且可引导的人体运动。他们的工作在欧洲计算机视觉会议(ECCV 2024) 上亮相…

点点
2024年10月4日
000
AI前沿

苹果两颗自研芯片，将发布

苹果或自研Wi-Fi及5G芯片，减少对供应商依赖。据台湾行业刊物《电子时报》报道，传闻苹果自主研发的 Wi-Fi 芯片可能最早于明年在设备中首次亮相。报道援引苹果供应链内部人士…

点点
2024年9月20日
000
AI前沿

微软如何防御每秒 7000 名密码攻击者

最近采访了微软安全、合规、身份、管理和隐私公司副总裁Vasu Jakkal ，以了解她对人工智能、机器学习 (ML)、生成式人工智能和新兴技术如何重新定义网络安全的见解。 Jakk…

王浩然
2024年12月6日
000
AI前沿

Hugging Face 将“Pi-Zero”引入 LeRobot，使人工智能机器人更易于构建和部署

Hugging Face和Physical Intelligence本周悄然推出了Pi0（Pi-Zero），这是第一个将自然语言命令直接转化为身体动作的机器人基础模型。 Hugg…

王浩然
2025年2月9日
000
AI前沿

Nvidia 刚刚爆料：其新 AI 模型开放、规模庞大，可与 GPT-4 竞争

Nvidia发布了强大的开源人工智能模型，可与 OpenAI 和 Google 等行业领导者的专有系统竞争。该公司新推出的NVLM 1.0系列大型多模态语言模型，以 720 亿参…

点点
2024年10月2日
000
AI前沿

人工智能与人工智能：权威手机数据如何帮助预防人工智能欺诈

人工智能（AI）与任何其他技术一样，本质上没有好坏之分——它仅仅是人们可以用于正当或恶意目的的工具。例如，许多公司在语音和面部识别中使用人工智能生物识别解决方案来简化登录流程，并…

点点
2024年9月28日
000
AI前沿

开源AI模型超越GPT-4o：创新算法实现自我幻觉纠正，数学测试成绩高达99.2分

探索开源AI模型的突破：自我纠错技术，数学测试高分，挑战传统GPT-4o。

点点
2024年9月6日
000
AI前沿

谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

谷歌的 Gemini 系列人工智能大型语言模型 (LLM) 在近一年前刚开始并不顺利，出现了一些令人尴尬的图像生成错误事件，但自那以后，它一直在稳步改进，而且该公司似乎有意让其第二…

王浩然
2025年2月6日
000
AI前沿

OpenText 扩展 AI 功能以提高企业生产力和投资回报率

关于人工智能及其能为企业带来什么，人们有着很多炒作和承诺。对于企业软件供应商OpenText来说，超越炒作，真正展示人工智能的价值，已经成为日常任务。今天，OpenText 宣布…

王浩然
2024年11月22日
000
AI前沿

引导人工智能投资：平衡创新与可持续性的 5 种策略

随着人工智能领域的快速发展，企业和技术领导者在平衡当前人工智能投资与长期可持续发展目标方面面临着越来越大的挑战。在急于采用人工智能的过程中，许多企业忽视了这种平衡，优先考虑短期收益…

点点
2024年10月5日
000
AI前沿

ChatGPT 获得屏幕共享和实时视频分析功能，可与 Gemini 2 相媲美

OpenAI终于在其先进的语音模式中添加了期待已久的视频和屏幕共享功能，允许用户以不同的方式与聊天机器人进行交互。目前，ChatGPT Teams、Plus 和 Pro 用户的。…

王浩然
2024年12月13日
000
AI前沿

OpenAI 称其商业用户已达 100 万

OpenAI 的付费商业产品达到了一个里程碑，ChatGPT Enterprise、Team 和 Edu 产品的付费商业用户达到一百万。 100 万用户大关较该公司今年 4 月公…

王浩然
2024年9月9日
000
AI前沿

使用 LangChain 在聊天机器人中集成语境理解

近年来，数字世界发生了重大变化，聊天机器人成为客户服务、虚拟助理和许多其他领域的重要工具。这些由人工智能驱动的代理发展迅速，现在可以处理各种任务，从回答简单的问题到管理复杂的客户互…

王浩然
2024年8月31日
000
AI前沿

人工智能价格战：如何降低成本让人工智能更易于普及

十年前，开发人工智能 (AI)是只有大公司和资金充足的研究机构才能负担得起的事情。必要的硬件、软件和数据存储成本非常高。但从那时起，情况发生了很大变化。一切始于 2012 年的 A…

点点
2024年9月27日
000
AI前沿

Zenlytic 获得 900 万美元融资，与 AI 数据分析师 Zoë 共同革新商业智能

Zenlytic是人工智能商业智能(BI) 领域的先驱，已成功筹集 900 万美元 A 轮融资，由M13领投，贝恩资本风险投资公司 ( Bain Capital Ventures …

点点
2024年9月27日
000
AI前沿

AWS Bedrock 升级添加模型教学、幻觉检测器

由于企业希望模型具有更高的定制化程度和准确性， AWS宣布了 Bedrock 的更多更新，旨在发现幻觉并更快地构建更小的模型。 AWS 在 re:Invent 2024 期间宣布…

王浩然
2024年12月4日
000
AI前沿

Matt Mullenweg 称 WP Engine 是“WordPress 的毒瘤”，并敦促社区更换提供商

Automattic 首席执行官兼 WordPress 联合创始人马特·穆伦维格 (Matt Mullenweg)本周对竞争对手发起了严厉批评，称WP Engine是“WordPr…

点点
2024年9月23日
000
AI前沿

AMD 裁员 4%

AMD 已确认将裁员 4%，以专注于“巨大的增长机会”。目前尚不清楚此次裁员影响了多少员工，以及哪些部门受到影响。根据AMD 的年度 10-K 文件，截至去年，AMD 拥有约 2…

王浩然
2024年11月14日
000
AI前沿

大型科技公司产生的核废料将去往何处

缅因州威斯卡西特（人口 3,742）有一块田地，由武装警卫把守。田地上是一道铁丝网围栏，围着一块混凝土垫。垫子上有 60 个水泥和钢罐，里面装有 1,400 根用过的核燃料棒，这些…

王浩然
2024年12月23日
000
AI前沿

人工智能在医疗保健领域的应用，用于药物研发、数据和成像

Nvidia 正在帮助促进数字健康代理的采用，以在美国医疗保健系统中部署人工智能

点点
2024年10月16日
000