随着rStar-Math 的推出,微软加倍挖掘了小型语言模型 (SLM) 的潜力。rStar -Math是一种新的推理技术,可应用于小型模型,利用推理技术提高其在数学问题上的性能 — — 性能类似于、在某些情况下甚至超过了 OpenAI 的 o1 预览模型。
虽然该技术仍处于研究阶段(如在预审网站 arXiv.org 上发表的一篇论文所述,该论文的作者来自微软、北京大学和中国清华大学),但该技术已应用于几个不同的小型开源模型,包括微软自己的 Phi-3 mini、阿里巴巴的 Qwen-1.5B(15 亿参数模型)和 Qwen-7B(70 亿参数模型)。它在所有这些模型上都表现出了更好的性能,甚至在数学(文字问题解决)第三方基准测试中超过了 OpenAI 之前最先进的模型,该基准测试包含 12,500 个问题,涵盖几何和代数等各个分支以及所有难度级别。
最终,根据Hugging Face 上的一篇文章,研究人员计划将他们的代码和数据发布在 Github 上,网址为https://github.com/microsoft/rStar,尽管该论文的作者之一 Li Lyna Zhang 在 Hugging Face 文章的评论中写道,该团队“仍在进行开源发布的内部审查过程”。因此,“存储库目前仍处于私密状态。请继续关注!”
社区成员对此表现出极大热情,称这些创新“令人印象深刻”,并称赞蒙特卡洛树搜索 (MCTS) 与分步推理的结合。一位评论者强调了使用 Q 值进行步骤评分的简单性和实用性,而其他人则推测其未来将在几何证明和符号推理中得到应用。
这一消息紧随微软 Phi-4 模型的开源之后,Phi-4 模型是一个较小的、拥有 140 亿个参数的人工智能系统,目前可根据 MIT 的许可在 Hugging Face 上使用。
虽然 Phi-4 版本扩展了对高性能小型模型的访问,但 rStar-Math 展示了一种专门的方法:使用较小的 AI 系统来实现数学推理的最先进的结果。
rStar-Math 通过使用几种不同的模型和组件来帮助目标小模型“自我进化”
rStar-Math 的关键在于它利用了蒙特卡洛树搜索 (MCTS),这是一种通过迭代地逐步完善数学问题的解决方法来模仿人类“深度思考”的方法。
研究人员使用 MCTS 是因为它“将复杂的数学问题分解为更简单的单步生成任务,从而降低了较小模型的难度”。
然而,他们并不像其他研究人员那样仅仅应用 MCTS。相反,他们还巧妙地要求他们训练的模型始终将其“思路链”推理步骤输出为自然语言描述和Python 代码。
他们要求模型将自然语言响应作为 Python 代码注释包含在内,并且只有使用 Python 的输出才会用于训练模型。
研究人员还训练了一个“策略模型”来生成数学推理步骤,以及一个过程偏好模型(PPM)来选择最有希望解决问题的步骤,并在四轮“自我进化”中对它们进行了改进,每个模型都相互改进。
研究人员表示,对于起始数据,他们使用了“来自公开来源的 747,000 道数学应用题”及其解决方案,但使用上面描述的两个模型生成了解决这些问题的新步骤。
创纪录的成绩
经过四轮自我进化,rStar-Math 取得了重大进展:
• 在MATH 基准上,Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%,超过了 OpenAI o1-preview。
• 在美国邀请数学考试(AIME)中,该校解答题正确率为 53.3%,位列高中生选手前 20%。
这些结果凸显了 SLM 在处理复杂数学推理方面的能力,而传统上,这种推理通常由较大的系统主导。
越小越好?
近年来,人工智能创新主要由语言模型的规模化推动,增加参数被视为提高性能的一种方式。然而,这些庞大模型的成本高昂,从计算资源到能耗,引发了人们对可扩展性的质疑。
微软提供了一条替代路径,专注于效率。rStar-Math 的发布进一步强调了这一承诺,展示了 SLM 如何能够与规模更大的同类产品相媲美(在某些情况下甚至超越)其能力。
微软发布的 Phi-4 和 rStar-Math 论文表明,紧凑、专业的模型可以为业界最大的系统提供强大的替代方案。
此外,通过在关键基准测试中超越大型竞争对手,这些模型挑战了“越大越好”的观念。它们为中型组织和学术研究人员打开了大门,使他们能够获得尖端能力,而无需承担大型模型的财务或环境负担。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/wei-ruan-de-xin-rstarmath-ji-shu-sheng-ji-xiao-xing-mo-xing