
一、引言
在人工智能领域,大型语言模型(LLM)通过“链式思考”(Chain of Thought,简称CoT)进行推理已成为最新一代模型的关键特征。这种推理过程涉及将复杂问题分解为一系列可管理的“思考步骤”,然后从中推导出答案。然而,随着模型生成越来越多的CoT标记,推理的成本迅速累积,成为大规模应用的主要瓶颈。
二、LLM推理的成本问题
LLM,如OpenAI的GPT系列和DeepSeek等,通常通过强化学习(RL)进行训练,以在测试时扩展并使用CoT跟踪来生成答案。经验证据表明,当模型的“思考”时间更长时,其在推理任务上的表现通常会更好。然而,这导致CoT链变得更长,虽然提高了准确性,但也极大地增加了计算需求。
在实际应用中,对测试时计算预算的控制非常有限,序列可以轻松扩展到数万个标记,而性能提升却并不显著。这种情况限制了LLM在需要高效推理的企业级应用中的广泛部署。
三、长度控制策略优化(LCPO)技术
为了克服这一挑战,卡内基梅隆大学的研究人员提出了一种新的LLM训练技术——长度控制策略优化(Length Controlled Policy Optimization,简称LCPO)。LCPO旨在同时实现两个训练目标:获得正确结果,并将CoT链的长度控制在特定标记预算内。
在LCPO框架下,如果模型产生了正确响应但生成了过多的CoT标记,它将受到惩罚,并被迫生成一个同样正确但标记预算更少的推理链。这种训练方式使得模型能够在满足长度约束的同时优化推理性能,而无需依赖手动设计的启发式方法。
LCPO有两种变体:LCPO-exact,要求生成的推理链长度精确等于目标长度;LCPO-max,要求输出长度不超过目标长度。
四、LCPO技术的实验验证
为了验证LCPO的有效性,研究人员对一个具有15亿参数的推理模型(Qwen-Distilled-R1-1.5B)进行了微调,创建了L1-max和L1-exact模型。训练基于数学问题,这些问题具有明确且可验证的结果。评估则包括数学问题以及分布外任务,如衡量大规模多任务语言理解(MMLU)能力和研究生水平的Google证明问答基准(GPQA)。
实验结果显示,L1模型能够精确平衡标记预算和推理性能。通过向模型提供不同的长度约束,它可以在短、高效的推理和长、更准确的推理之间平滑插值。在某些任务上,L1模型甚至能以更低的标记预算再现原始推理模型的性能。
与另一种限制CoT长度的方法S1相比,L1模型在不同标记预算下表现出高达150%的性能增益。这种显著差异归因于L1能够智能地调整其CoT以适应指定的长度约束,而不破坏推理过程,而S1则经常在推理中途截断。此外,L1在相同生成长度下,其性能也优于非推理对应模型和GPT-4o。
值得注意的是,L1模型的CoT表明,它学会了根据其标记预算调整推理过程。在较长的预算下,模型更可能生成与自我纠正和验证(如“但是”和“等等”)以及结论得出(“因此”和“所以”)相关的标记。
五、LCPO技术的实际应用潜力
除了在标准数学推理设置中改进长度控制外,L1模型在MMLU和GPQA等分布外任务上也表现出惊人的泛化能力。这种新型研究为能够调整其推理预算的模型提供了重要用途,使企业能够在不产生失控费用的情况下扩展推理模型。
LCPO技术是部署更大、更昂贵模型的强大替代方案,并可能是使AI在高体积、现实世界应用中更具经济可行性的关键因素。研究人员已经开源了LCPO的代码和L1模型的权重,以促进这项技术的广泛应用。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/llm-xin-ji-shu-kong-zhi-cot-chang-du-you-hua-tui-li-jiang