在一项新的案例研究中,Hugging Face 的研究人员展示了如何配置小型语言模型(SLM),使其表现优于大型模型。他们的研究结果表明,具有 3B 参数的 Llama 3 模型在解决复杂数学问题时的表现优于 70B 版本的模型。
Hugging Face完整记录了整个过程,并为想要创建自己的定制推理模型的企业提供了路线图。
扩展测试时间计算
这项工作受到OpenAI o1的启发,它使用额外的“思考”来解决复杂的数学、编码和推理问题。
o1 等模型背后的关键思想是扩展“测试时计算”,这实际上意味着在推理过程中使用更多计算周期来测试和验证不同的响应和推理路径,然后再得出最终答案。当内存不足以运行大型模型时,扩展测试时计算尤其有用。
由于 o1 是一个私有模型,OpenAI 对其内部工作原理守口如瓶,研究人员一直在猜测其工作原理,并试图逆向工程该过程。目前已经有几种o1 的公开替代方案。
Hugging Face 的工作基于DeepMind 于 8 月发布的一项研究,该研究调查了推理时间和预训练计算之间的权衡。该研究提供了有关如何平衡训练和推理计算以在固定预算内获得最佳结果的全面指导。
除了使用额外的推理时间计算之外,该技术的成功还取决于两个关键组件:评估 SLM 答案的奖励模型,以及优化改进答案所需路径的搜索算法。
不同的推理算法
使用测试时间扩展的最简单方法是“多数投票”,即向模型发送相同的提示多次,并选择得票最高的提示。在简单问题中,多数投票可能很有用,但在复杂推理问题或错误在几代人之间一致的任务上,其收益很快就会停滞不前。
一种更高级的推理方法是“N 中最佳”。在这种技术中,SLM 会生成多个答案,但不是采用多数投票,而是使用奖励模型来评估答案并选择最佳答案。这种方法的更细致的版本是“加权 N 中最佳”,它考虑了一致性来选择可信度高且出现频率高的答案。
研究人员使用了一种“过程奖励模型”(PRM),该模型不仅根据最终答案对 SLM 的响应进行评分,还根据其得出该答案所经历的多个阶段进行评分。他们的实验表明,加权最佳 N 和 PRM 使Llama-3.2 1B在困难的 MATH-500 基准测试中接近 Llama-3.2 8B 的水平。
添加搜索
为了进一步提高模型的性能,研究人员在模型的推理过程中添加了搜索算法。他们没有一次性生成答案,而是使用了“定向搜索”算法,这是一种逐步引导模型回答过程的算法。
在每个步骤中,SLM 都会生成多个部分答案。搜索算法使用奖励模型来评估答案并选择值得进一步探索的子集。这个过程会重复进行,直到模型耗尽其推理预算或得出正确答案。这样,推理预算就可以缩小到最有希望的答案。
研究人员发现,虽然集束搜索可以提高模型在复杂问题上的表现,但它在简单问题上的表现往往不如其他技术。为了应对这一挑战,他们在推理策略中增加了两个元素。
首先是多样化验证器树搜索 (DVTS),这是集束搜索的一种变体,可确保 SLM 不会陷入错误的推理路径并使其响应分支多样化。其次,他们开发了一种“计算最优扩展策略”,正如 DeepMind 论文中所建议的那样,它根据输入问题的难度动态选择最佳测试时间扩展策略。
这些技术的结合使 Llama-3.2 1B 能够发挥超乎寻常的性能,并显著超越 8B 模型。他们还发现该策略具有可扩展性,当应用于 Llama-3.2 3B 时,它们能够超越更大的 70B 模型。
尚未有一个完美的解决方案
扩展测试时间计算会改变模型成本的动态。企业现在可以选择将计算资源分配到何处。例如,如果您的内存不足或可以容忍较慢的响应时间,则可以使用小型模型并花费更多的推理时间周期来生成更准确的答案。
然而,测试时间扩展也有其局限性。例如,在 Hugging Face 进行的实验中,研究人员使用经过特殊训练的 Llama-3.1-8B 模型作为 PRM,这需要并行运行两个模型(即使它比 70B 模型更节省资源)。研究人员承认,测试时间扩展的终极目标是实现“自我验证”,即原始模型验证自己的答案,而不是依赖外部验证器。这是一个开放的研究领域。
本研究提出的测试时间缩放技术也仅限于答案可以明确评估的问题,例如编码和数学。为创意写作和产品设计等主观任务创建奖励模型和验证器需要进一步研究。
但有一点很明显,测试时间扩展已经引起了人们的极大兴趣和活动,我们可以期待在未来几个月内出现更多的工具和技术。企业应该密切关注形势的发展。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/hugging-face-zhan-shi-le-ce-shi-shi-jian-kuo-zhan-ru-he