
根据上海人工智能实验室的一项新研究,非常小的语言模型(SLMs)在推理任务中能够超越领先的大型语言模型(LLMs)。研究人员展示,通过正确的工具和测试时缩放技术,一个具有10亿参数的SLM在复杂的数学基准测试中能够超越一个4050亿参数的LLM。在复杂推理任务中部署SLMs的能力非常有用,因为企业正在寻找在新环境和应用中使用这些新模型的新方法。
测试时缩放解释
测试时缩放(TTS)是指在推理过程中为LLMs提供额外的计算资源以提高其在各种任务上的性能。领先的推理模型,如OpenAI的GPT-1和DeepSeek-R1,使用“内部TTS”,这意味着它们被训练成通过生成一长串思维链(CoT)标记来“缓慢思考”。另一种方法是“外部TTS”,其中模型性能通过外部帮助得到增强。外部TTS适用于在不进一步微调的情况下将现有模型重新用于推理任务。外部TTS设置通常由一个“策略模型”(主要生成答案的LLM)和一个过程奖励模型(PRM,评估策略模型的答案)组成。这两个组件通过采样或搜索方法耦合在一起。
不同的测试时缩放方法
- “最佳N选”(Best-of-N):策略模型生成多个答案,PRM选择一个或多个最佳答案来组成最终响应。
- “束搜索”(Beam Search):模型将答案分解为多个步骤。对于每个步骤,它采样多个答案并通过PRM运行它们,然后选择一个或多个合适的候选者并生成答案的下一步。
- “多样化验证树搜索”(DVTS):模型生成多个答案分支以创建一个更多样化的候选响应集,然后将其合成为最终答案。
选择正确的缩放策略
研究作者对不同的策略模型和PRM如何影响TTS方法的效率进行了系统调查。他们的发现表明,效率在很大程度上取决于策略模型和PRM。例如,对于小型策略模型,基于搜索的方法优于最佳N选。然而,对于大型策略模型,最佳N选更有效,因为这些模型具有更好的推理能力,不需要奖励模型来验证其推理的每一步。此外,研究发现正确的TTS策略还取决于问题的难度。
小模型为何能击败大模型
研究人员发现,使用计算最优的TTS策略,SLM可以在计算预算内超越比其大100-1000倍的大型模型。例如,一个具有32亿参数的Llama模型在MATH-500和AIME24这两个复杂的数学基准测试中超越了具有4050亿参数的Llama模型。这表明,对于推理能力较弱的模型,测试时计算缩放会带来实质性改进,而对于推理能力较强的模型,增益则有限。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xiao-yu-yan-mo-xing-ru-he-tong-guo-ce-shi-shi-suo-fang-jie