
在人工智能领域,大型语言模型(LLMs)的推理能力一直是研究者和开发者关注的焦点。近期,来自谷歌研究和加州大学伯克利分校的研究人员发表了一篇新论文,揭示了一种令人惊讶的简单测试时间缩放方法,能够显著提升LLMs的推理能力。这一发现不仅挑战了传统观念,即高度专业化的训练或复杂架构是实现顶级性能的必要条件,而且为企业应用提供了全新的可能性。
采样基搜索:一种简单而强大的方法
研究人员发现,通过增加采样基搜索的使用,可以显著提高LLMs的推理表现。采样基搜索是一种依赖生成多个响应并利用模型本身进行验证的技术。这种方法的核心在于其简单性和可扩展性:模型生成多个候选响应,并通过自我验证机制选择最佳响应。
论文指出,即使是最小化的采样基搜索实现——仅使用随机采样和自我验证——也能在流行基准测试中使模型的推理性能超越那些经过专门训练的模型。例如,使用这种方法,Gemini 1.5 Pro在AIME和MATH等推理基准测试中的表现甚至超过了专门为推理问题训练的o1-Preview模型。
测试时间缩放的新策略
当前,LLMs中流行的测试时间缩放方法是通过强化学习训练模型,以生成带有思维链(CoT)痕迹的更长响应。这种方法虽然有效,但通常需要在训练阶段投入大量资源。另一种方法是“自我一致性”,即模型对查询生成多个响应,并选择出现次数最多的答案。然而,当处理复杂问题时,这种方法可能会达到极限,因为最重复的答案并不一定是正确的。
相比之下,采样基搜索提供了一种更简单且高度可扩展的替代方案。它允许模型生成多个响应,并通过验证机制选择最佳响应。这种方法不仅可以与其他测试时间计算缩放策略相辅相成,而且具有独特的优势:它极易并行化,并允许任意缩放——只需生成更多响应即可。
自我验证:模型自我评估的新途径
在这项研究中,研究人员使用了一种“自我验证”过程,其中模型评估自己的输出,而不依赖外部真实答案或符号验证系统。这一算法通过几个简单步骤实现:首先,模型使用非零温度设置多次生成候选解决方案;然后,对每个候选响应进行多次验证,以确定其正确性;最后,选择得分最高的响应作为最终答案。
研究还探讨了两种关键的测试时间缩放轴:采样(模型为每个输入问题生成的响应数量)和验证(为每个生成的解决方案计算的验证分数数量)。研究结果显示,即使测试时间计算远超过自我一致性饱和的点,采样基搜索的推理性能也会继续提升。
成本与效益的平衡
尽管采样基搜索的结果令人印象深刻,但其成本也可能变得非常高昂。例如,在AIME基准测试中,使用200个样本和每个样本50个验证步骤,将生成约1.3亿个令牌,使用Gemini 1.5 Pro的成本约为650美元。然而,研究人员指出,通过更智能的采样和验证方法,可以显著降低推理成本。例如,使用Gemini 1.5 Flash进行验证,每个问题的成本可以降低到12美元。
未来的展望
这项研究不仅展示了采样基搜索在提升LLMs推理能力方面的巨大潜力,而且为企业应用提供了新的思路。通过分配更多的计算资源用于采样和验证,企业可以显著增加LLMs的性能。此外,随着模型学会利用隐式缩放和输出样式适宜性原则,模型的自我验证能力预计将在短期内迅速提高,从而推动采样基搜索的缩放速率。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/shao-ji-shi-duo-jia-zhou-da-xue-bo-ke-li-fen-xiao-yu-gu-ge