
DeepSeek AI,这家以强大开源语言模型著称的中国研究实验室,最近公布了一项重大技术突破。其新研发的Self-Principled Critique Tuning(SPCT)技术,旨在创建更加通用和可扩展的AI奖励模型(RMs),为大型语言模型(LLMs)带来全新的进步。这一创新有望推动AI应用在开放性和复杂性更高的任务中的表现,填补当前模型在处理环境和用户细微差别上的空白。
奖励模型的关键作用与挑战
强化学习(RL)作为开发先进LLMs的关键技术,依赖于反馈信号来优化模型响应。奖励模型(RM)作为这一过程中的“裁判”,负责评估LLM的输出并赋予相应的分数或“奖励”,从而指导RL过程,使LLM生成更有用的响应。然而,当前的奖励模型存在局限性,尤其是在处理复杂、开放或主观查询时表现不佳。
SPCT技术的诞生
DeepSeek团队认识到,通用奖励模型需要具备处理多种输入类型、生成高质量奖励信号、在推理时高效扩展,以及学习可扩展行为的能力。为了克服这些挑战,他们开发了SPCT技术。这一技术通过训练奖励模型(GRM)动态生成原则和批评,使模型能够根据查询和响应自适应地调整奖励生成过程。
SPCT的工作原理
SPCT技术分为两个主要阶段:
- 拒绝式微调:在这一阶段,GRM被训练为为不同类型的输入生成原则和批评,并使用正确的格式。只有当预测的奖励与真实情况相符(例如,正确识别出更好的响应)时,生成的轨迹才会被接受,否则会被拒绝。这一过程通过筛选后的示例反复进行,以改进模型的原则和批评生成能力。
- 基于规则的强化学习:在第二阶段,模型通过基于结果的强化学习进一步微调。GRM为每个查询生成原则和批评,奖励信号则基于简单的准确性规则计算(例如,是否选择了已知的最佳响应)。然后,模型根据这些反馈进行更新,以学习如何动态生成有效的原则和准确的批评。
解决推理时的扩展性问题
为了应对推理时的扩展性挑战,研究人员在推理阶段多次运行GRM,生成不同的原则和批评集合。最终的奖励通过投票(即聚合样本分数)确定,这允许模型在考虑更广泛视角的基础上做出更准确和细致的最终判断。此外,他们还引入了一个“元奖励模型”(meta RM),这是一个单独的、轻量级的标量奖励模型,专门用于预测由主GRM生成的原则和批评是否可能导致正确的最终奖励。在推理过程中,元奖励模型会评估生成的样本,过滤掉低质量的判断,从而进一步提高扩展性能。
DeepSeek-GRM的实践与应用
研究人员将SPCT应用于Google的开源模型Gemma-2-27B,创建了DeepSeek-GRM-27B。通过多项基准测试,他们发现DeepSeek-GRM-27B在性能上超越了多个强大的基线奖励模型,包括LLM-as-a-Judge、标量奖励模型和半标量奖励模型。在推理时通过扩展生成更多样本,DeepSeek-GRM-27B的性能显著提升,甚至超过了像Nemotron-4-340B-Reward和GPT-4o这样的大型模型。元奖励模型的引入进一步提高了扩展性能,实现了最佳结果。
对企业AI应用的影响
开发更通用和可扩展的奖励模型对企业AI应用具有重要意义。它们可以应用于创造性任务以及需要适应动态环境(如不断变化的客户偏好)的应用中。尽管DeepSeek-GRM在纯粹可验证任务上的表现可能不如专用标量奖励模型,但其在通用性和扩展性方面的优势使其在处理复杂、开放和主观任务时更具潜力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseek-fa-bu-xin-ji-shu-da-zao-geng-zhi-neng-ke-kuo-zhan