
在AI领域,一款新的编码模型正崭露头角,它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出,其性能表现令人瞩目,与OpenAI的o3-mini等领先专有模型不相上下。
DeepCoder-14B构建于DeepSeek-R1的基础之上,为将高性能代码生成和推理能力融入现实世界应用提供了更多灵活性。尤为值得一提的是,研究团队已将该模型、其训练数据、代码、日志以及系统优化措施全面开源。这一举措无疑将助力研究人员改进工作,加速整体进展。
卓越性能,跨越多重编码基准
研究团队的实验充分展示了DeepCoder-14B在多个具有挑战性的编码基准上的强劲表现,这些基准包括LiveCodeBench(LCB)、Codeforces和HumanEval+。团队在描述该模型的博客文章中写道:“我们的模型在所有编码基准上都表现出色……其性能与o3-mini(低)和o1相当。”
值得注意的是,尽管DeepCoder-14B主要接受编码任务的训练,但它在数学推理方面也展现出了提升。在AIME 2024基准上,该模型得分73.8%,较其基础模型DeepSeek-R1-Distill-Qwen-14B提高了4.1%。这表明,通过强化学习(RL)在代码上开发的推理技能可以有效地泛化到其他领域。
高效模型,小体积大能量
DeepCoder-14B最令人印象深刻的特点在于,它仅以140亿参数就实现了如此高水平的性能。这使得DeepCoder相较于许多前沿模型而言,体积更小、运行效率更高。对于寻求在资源受限环境中部署高性能AI模型的企业和组织而言,这无疑是一个巨大的优势。
克服挑战,强化学习助力模型训练
在开发DeepCoder-14B的过程中,研究人员解决了训练编码模型时使用强化学习所面临的一些关键挑战。
首要挑战在于训练数据的整理。强化学习需要可靠的奖励信号来指示模型的输出是否正确。然而,与数学领域在互联网上存在大量高质量、可验证的数据不同,编码领域在这类数据方面相对匮乏。为了解决这个问题,DeepCoder团队实施了一条严格的管道,从多个数据集中收集示例,并对它们进行有效性、复杂性和重复性的筛选。这一过程产生了24,000个高质量问题,为有效的强化学习训练奠定了坚实基础。
团队还设计了一个简洁明了的奖励函数,该函数仅在生成的代码在特定时间限制内通过所有采样单元测试时提供正信号。结合高质量的训练示例,这种以结果为导向的奖励系统防止了模型学习诸如打印记忆答案以通过公开测试或针对简单边缘案例进行优化而不解决核心问题等技巧。
核心算法与训练优化
DeepCoder-14B的核心训练算法基于Group Relative Policy Optimization(GRPO),这是一种在DeepSeek-R1中证明非常成功的强化学习算法。然而,团队对算法进行了多项修改,以提高其稳定性,并允许模型在训练时间延长的情况下继续改进。
此外,团队还逐步扩展了模型的上下文窗口,首先对其进行较短推理序列的训练,然后逐渐增加长度。他们还开发了一种过滤方法,以避免在模型创建超出解决难题时上下文限制的推理链时对其进行惩罚。研究人员的核心理念是:“为了在保留长上下文推理的同时实现高效训练,我们融入了超长过滤技术……在训练期间,此技术会屏蔽被截断的序列,从而确保模型不会因为生成深思熟虑但冗长的输出(超出当前上下文限制)而受到惩罚。”
训练大型模型进行强化学习,特别是在需要生成长序列的任务(如编码或复杂推理)上,计算量大且速度缓慢。一个主要瓶颈是“采样”步骤,在这一步骤中,模型可能需要为批次中的每个示例生成数千个令牌。响应长度的差异意味着一些响应比其他响应完成得更晚,导致GPU闲置并减慢整个训练循环的速度。
为了加速这一过程,团队开发了verl-pipeline,这是强化学习从人类反馈(RLHF)的开源verl库的一个优化扩展。他们称之为“一次性流水线”的关键创新重新安排了响应采样和模型更新,以减少瓶颈和加速器空闲时间。实验表明,与基线实现相比,一次性流水线为编码强化学习任务提供了高达2倍的速度提升。这一优化对于在合理时间框架内(在32个H100上训练2.5周)训练DeepCoder至关重要,并且现在作为verl-pipeline的一部分开源,供社区使用和构建。
全面开源,赋能社区
研究团队已将训练和运行DeepCoder-14B所需的所有工件发布在GitHub和Hugging Face上,并采用了宽松许可协议。团队在博客文章中写道:“通过全面共享我们的数据集、代码和训练方案,我们旨在赋能社区复现我们的工作,并使强化学习训练对所有研究人员开放。”
AI领域的新趋势:高效、开源与可访问性
DeepCoder-14B有力地诠释了AI领域正在加速发展的一大趋势:即高性能、高效且易于访问的开源模型的崛起。对于企业而言,这一转变意味着更多选择和更高水平的先进模型可访问性。前沿性能不再是超大规模企业或愿意支付高额API费用的企业的专属领域。像DeepCoder这样的模型能够使各种规模的组织利用复杂的代码生成和推理功能,根据特定需求定制解决方案,并在其环境中安全部署。
这一趋势有望降低AI采用的门槛,并促进一个更具竞争力和创新性的生态系统的形成,其中进展是通过开源协作推动的。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepcoder14b-yi-gao-xiao-140-yi-can-shu-mo-xing-zhan-xian