微软的新 rStar-Math 技术升级小型模型，在数学问题上超越 OpenAI 的 o1 预览版

王浩然 • 2025年1月10日下午12:00 • AI前沿 • 62 views

随着rStar-Math 的推出，微软加倍挖掘了小型语言模型 (SLM) 的潜力。rStar -Math是一种新的推理技术，可应用于小型模型，利用推理技术提高其在数学问题上的性能 — — 性能类似于、在某些情况下甚至超过了 OpenAI 的 o1 预览模型。

虽然该技术仍处于研究阶段（如在预审网站 arXiv.org 上发表的一篇论文所述，该论文的作者来自微软、北京大学和中国清华大学），但该技术已应用于几个不同的小型开源模型，包括微软自己的 Phi-3 mini、阿里巴巴的 Qwen-1.5B（15 亿参数模型）和 Qwen-7B（70 亿参数模型）。它在所有这些模型上都表现出了更好的性能，甚至在数学（文字问题解决）第三方基准测试中超过了 OpenAI 之前最先进的模型，该基准测试包含 12,500 个问题，涵盖几何和代数等各个分支以及所有难度级别。

最终，根据Hugging Face 上的一篇文章，研究人员计划将他们的代码和数据发布在 Github 上，网址为https://github.com/microsoft/rStar，尽管该论文的作者之一 Li Lyna Zhang 在 Hugging Face 文章的评论中写道，该团队“仍在进行开源发布的内部审查过程”。因此，“存储库目前仍处于私密状态。请继续关注！”

社区成员对此表现出极大热情，称这些创新“令人印象深刻”，并称赞蒙特卡洛树搜索 (MCTS) 与分步推理的结合。一位评论者强调了使用 Q 值进行步骤评分的简单性和实用性，而其他人则推测其未来将在几何证明和符号推理中得到应用。

这一消息紧随微软 Phi-4 模型的开源之后，Phi-4 模型是一个较小的、拥有 140 亿个参数的人工智能系统，目前可根据 MIT 的许可在 Hugging Face 上使用。

虽然 Phi-4 版本扩展了对高性能小型模型的访问，但 rStar-Math 展示了一种专门的方法：使用较小的 AI 系统来实现数学推理的最先进的结果。

rStar-Math 通过使用几种不同的模型和组件来帮助目标小模型“自我进化”

rStar-Math 的关键在于它利用了蒙特卡洛树搜索 (MCTS)，这是一种通过迭代地逐步完善数学问题的解决方法来模仿人类“深度思考”的方法。

研究人员使用 MCTS 是因为它“将复杂的数学问题分解为更简单的单步生成任务，从而降低了较小模型的难度”。

然而，他们并不像其他研究人员那样仅仅应用 MCTS。相反，他们还巧妙地要求他们训练的模型始终将其“思路链”推理步骤输出为自然语言描述和Python 代码。

他们要求模型将自然语言响应作为 Python 代码注释包含在内，并且只有使用 Python 的输出才会用于训练模型。

研究人员还训练了一个“策略模型”来生成数学推理步骤，以及一个过程偏好模型（PPM）来选择最有希望解决问题的步骤，并在四轮“自我进化”中对它们进行了改进，每个模型都相互改进。

研究人员表示，对于起始数据，他们使用了“来自公开来源的 747,000 道数学应用题”及其解决方案，但使用上面描述的两个模型生成了解决这些问题的新步骤。

创纪录的成绩

经过四轮自我进化，rStar-Math 取得了重大进展：

• 在MATH 基准上，Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%，超过了 OpenAI o1-preview。

• 在美国邀请数学考试（AIME）中，该校解答题正确率为 53.3%，位列高中生选手前 20%。

这些结果凸显了 SLM 在处理复杂数学推理方面的能力，而传统上，这种推理通常由较大的系统主导。

越小越好？

近年来，人工智能创新主要由语言模型的规模化推动，增加参数被视为提高性能的一种方式。然而，这些庞大模型的成本高昂，从计算资源到能耗，引发了人们对可扩展性的质疑。

微软提供了一条替代路径，专注于效率。rStar-Math 的发布进一步强调了这一承诺，展示了 SLM 如何能够与规模更大的同类产品相媲美（在某些情况下甚至超越）其能力。

微软发布的 Phi-4 和 rStar-Math 论文表明，紧凑、专业的模型可以为业界最大的系统提供强大的替代方案。

此外，通过在关键基准测试中超越大型竞争对手，这些模型挑战了“越大越好”的观念。它们为中型组织和学术研究人员打开了大门，使他们能够获得尖端能力，而无需承担大型模型的财务或环境负担。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/wei-ruan-de-xin-rstarmath-ji-shu-sheng-ji-xiao-xing-mo-xing

Like (0)

王浩然作者

0 0

LlamaIndex 超越了 RAG，因此代理可以做出复杂的决策

Previous 2025年1月10日

Diffbot 的人工智能模型无需猜测——它能够知道，这要归功于万亿事实知识图谱

Next 2025年1月10日

AI前沿

Salesforce豪掷10亿美元投资新加坡，力推AI技术普及‌

在科技日新月异的今天，人工智能（AI）已经成为推动各行各业发展的重要力量。近日，全球领先的客户关系管理软件提供商Salesforce宣布了一项重大投资决策——将在新加坡投入高达10…

王浩然
2025年3月13日
000
AI前沿

OpenAI 似乎准备以每月 200 美元的价格推出 ChatGPT Pro 订阅计划

OpenAI 似乎正在为其标志性聊天机器人产品 ChatGPT 推出新的订阅层服务。第三方 AI 工程师 Tibor Blaho 在 X上发布的截图显示，新的服务级别 ChatG…

王浩然
2024年12月6日
000
AI前沿

麻省理工学院研究团队设计出解决计算能源问题的量子解决方案

计算能力的不断进步长期以来依赖于我们制造更小、更高效的电子元件的能力。这一进步的核心是不起眼的晶体管——现代电子产品的基本组成部分。然而，随着我们的数字世界不断扩大，人工智能应用变…

王浩然
2024年11月10日
000
AI前沿

开始使用 AI 代理（第 1 部分）：捕获流程、角色和连接

现代的 AI 代理至少包含一个能够调用某些工具的大型语言模型(LLM)。有了合适的编码工具集，它就可以开始生成代码，能够在容器中运行代码，观察结果，修改代码，从而更有可能生成有用的…

王浩然
2024年11月27日
000
AI前沿

Google NotebookLM 负责人表示，AI 生成的播客将拥有更多控制权

谷歌的NotebookLM是“笔记本语言模型”的缩写，这是一个独立的基于云的 AI 工作区，用户可以在其中上传文档和链接，并通过聊天机器人风格的文本界面向他们提问。最近，它因推出一…

free
2024年10月3日
000
AI前沿

病毒式传播的 AI 图片如何帮助一家墨西哥初创公司获得阿迪达斯的重要合同

有人在某处证明人工智能可以为工匠创造就业机会，而不是取代他们

点点
2024年9月8日
000
AI前沿

Perplexity 推出 Sonar API，通过实时 AI 搜索与 Google 和 OpenAI 竞争

Perplexity积极竞标以占领企业 AI 搜索市场，并推出了Sonar，这是一项 API 服务，其在关键基准上的表现优于Google、OpenAI和Anthropic的产品，同…

王浩然
2025年1月22日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

人工智能领域的女性：Rebecca Portnoff 博士正在保护儿童免受有害的深度伪造行为的侵害

Rebecca Portnoff 博士接受采访，她是非营利组织 Thorn 的数据科学副总裁，该组织致力于开发保护儿童免受性虐待的技术。该系列报道旨在让专注于人工智能的女性学者和…

王浩然
2024年10月20日
000
AI前沿

SandboxAQ 获 3 亿美元融资，推动大型量化模型创新

SandboxAQ 宣布获得超过 3 亿美元的资金，用于加速其大型量化模型 (LQM) 和其他 AI 应用程序的开发。此轮融资由 Fred Alger Management、T.…

王浩然
2024年12月25日
000
AI前沿

平衡成本、功耗和性能，实现生成式人工智能的民主化

如今，生成式人工智能还只是早期采用者使用的新事物，但明天，它将成为我们日常生活中不可或缺的一部分。因此，它必须可以在各种消费设备上使用，独立于基于云的处理，并且可供所有人使用，而不…

王浩然
2025年2月6日
000
AI前沿

Google 在全球推出适用于 iOS 的 Gemini 应用

周四，谷歌在全球 iOS 上推出了一款专门针对其人工智能助手 Gemini 的应用。到目前为止，iOS 用户必须使用谷歌应用或移动网络才能与人工智能技术聊天。新的 Gemini …

王浩然
2024年11月16日
000
AI前沿

微软的 TorchGeo 如何为机器学习专家简化地理空间数据

在当今数据驱动的世界中，地理空间信息对于洞察气候变化、城市发展、灾害管理和全球安全至关重要。尽管地理空间数据潜力巨大，但由于其规模、复杂性和缺乏标准化，处理地理空间数据面临着重大挑…

点点
2024年10月5日
000
AI前沿

佳士得宣布人工智能艺术品拍卖，但并非所有人都满意

艺术品拍卖行佳士得此前曾出售过人工智能生成的艺术品。但很快，佳士得计划举办首场专门展示人工智能创作作品的展览，这一消息引发了褒贬不一的评价。佳士得将此次拍卖称为“增强智能”，拍卖…

王浩然
2025年2月10日
000
AI前沿

Mistral AI发布新型开源AI模型，性能超越GPT-4o Mini，参数量却大幅减少‌

法国人工智能创新企业Mistral AI近期揭晓了其最新的开源AI模型——Mistral Small 3.1。据Mistral AI宣称，该模型在性能上超越了行业内的其他佼佼者，包…

王浩然
2025年3月20日
000
AI前沿

Hugging Face 展示了测试时间扩展如何帮助小型语言模型发挥其最大作用

在一项新的案例研究中，Hugging Face 的研究人员展示了如何配置小型语言模型(SLM)，使其表现优于大型模型。他们的研究结果表明，具有 3B 参数的 Llama 3 模型在…

王浩然
2024年12月21日
000
AI前沿

飞行汽车公司利用人工智能进行车辆设计

SkyDrive 与 Braid Technologies 合作，利用人工智能对数千种设计模式进行微调，以优化其电动飞行器

点点
2024年9月27日
000
AI前沿

Perplexity 与Carbon 的集成将使企业更容易将其数据连接到 AI 搜索

2024 年是Perplexity辉煌的一年。这家由前 DeepMind 和 OpenAI 研究员 Aravind Srinivas 创立的人工智能搜索初创公司筹集了数亿美元——据…

王浩然
2024年12月21日
000
AI前沿

XAI是否对Grok 3基准测试结果造假？

近日，有关XAI（Explainable AI，可解释人工智能）公司对其最新产品Grok 3的基准测试结果真实性的质疑声四起。据指控，XAI可能夸大了Grok 3在某些关键性能指标…

王浩然
2025年2月26日
000