DeepCoder-14B：以高效140亿参数模型展现顶级编码性能

王浩然 • 4天前 • AI前沿 • 58 views

在AI领域，一款新的编码模型正崭露头角，它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出，其性能表现令人瞩目，与OpenAI的o3-mini等领先专有模型不相上下。

DeepCoder-14B构建于DeepSeek-R1的基础之上，为将高性能代码生成和推理能力融入现实世界应用提供了更多灵活性。尤为值得一提的是，研究团队已将该模型、其训练数据、代码、日志以及系统优化措施全面开源。这一举措无疑将助力研究人员改进工作，加速整体进展。

‌卓越性能，跨越多重编码基准‌

研究团队的实验充分展示了DeepCoder-14B在多个具有挑战性的编码基准上的强劲表现，这些基准包括LiveCodeBench（LCB）、Codeforces和HumanEval+。团队在描述该模型的博客文章中写道：“我们的模型在所有编码基准上都表现出色……其性能与o3-mini（低）和o1相当。”

值得注意的是，尽管DeepCoder-14B主要接受编码任务的训练，但它在数学推理方面也展现出了提升。在AIME 2024基准上，该模型得分73.8%，较其基础模型DeepSeek-R1-Distill-Qwen-14B提高了4.1%。这表明，通过强化学习（RL）在代码上开发的推理技能可以有效地泛化到其他领域。

‌高效模型，小体积大能量‌

DeepCoder-14B最令人印象深刻的特点在于，它仅以140亿参数就实现了如此高水平的性能。这使得DeepCoder相较于许多前沿模型而言，体积更小、运行效率更高。对于寻求在资源受限环境中部署高性能AI模型的企业和组织而言，这无疑是一个巨大的优势。

‌克服挑战，强化学习助力模型训练‌

在开发DeepCoder-14B的过程中，研究人员解决了训练编码模型时使用强化学习所面临的一些关键挑战。

首要挑战在于训练数据的整理。强化学习需要可靠的奖励信号来指示模型的输出是否正确。然而，与数学领域在互联网上存在大量高质量、可验证的数据不同，编码领域在这类数据方面相对匮乏。为了解决这个问题，DeepCoder团队实施了一条严格的管道，从多个数据集中收集示例，并对它们进行有效性、复杂性和重复性的筛选。这一过程产生了24,000个高质量问题，为有效的强化学习训练奠定了坚实基础。

团队还设计了一个简洁明了的奖励函数，该函数仅在生成的代码在特定时间限制内通过所有采样单元测试时提供正信号。结合高质量的训练示例，这种以结果为导向的奖励系统防止了模型学习诸如打印记忆答案以通过公开测试或针对简单边缘案例进行优化而不解决核心问题等技巧。

‌核心算法与训练优化‌

DeepCoder-14B的核心训练算法基于Group Relative Policy Optimization（GRPO），这是一种在DeepSeek-R1中证明非常成功的强化学习算法。然而，团队对算法进行了多项修改，以提高其稳定性，并允许模型在训练时间延长的情况下继续改进。

此外，团队还逐步扩展了模型的上下文窗口，首先对其进行较短推理序列的训练，然后逐渐增加长度。他们还开发了一种过滤方法，以避免在模型创建超出解决难题时上下文限制的推理链时对其进行惩罚。研究人员的核心理念是：“为了在保留长上下文推理的同时实现高效训练，我们融入了超长过滤技术……在训练期间，此技术会屏蔽被截断的序列，从而确保模型不会因为生成深思熟虑但冗长的输出（超出当前上下文限制）而受到惩罚。”

训练大型模型进行强化学习，特别是在需要生成长序列的任务（如编码或复杂推理）上，计算量大且速度缓慢。一个主要瓶颈是“采样”步骤，在这一步骤中，模型可能需要为批次中的每个示例生成数千个令牌。响应长度的差异意味着一些响应比其他响应完成得更晚，导致GPU闲置并减慢整个训练循环的速度。

为了加速这一过程，团队开发了verl-pipeline，这是强化学习从人类反馈（RLHF）的开源verl库的一个优化扩展。他们称之为“一次性流水线”的关键创新重新安排了响应采样和模型更新，以减少瓶颈和加速器空闲时间。实验表明，与基线实现相比，一次性流水线为编码强化学习任务提供了高达2倍的速度提升。这一优化对于在合理时间框架内（在32个H100上训练2.5周）训练DeepCoder至关重要，并且现在作为verl-pipeline的一部分开源，供社区使用和构建。

‌全面开源，赋能社区‌

研究团队已将训练和运行DeepCoder-14B所需的所有工件发布在GitHub和Hugging Face上，并采用了宽松许可协议。团队在博客文章中写道：“通过全面共享我们的数据集、代码和训练方案，我们旨在赋能社区复现我们的工作，并使强化学习训练对所有研究人员开放。”

‌AI领域的新趋势：高效、开源与可访问性‌

DeepCoder-14B有力地诠释了AI领域正在加速发展的一大趋势：即高性能、高效且易于访问的开源模型的崛起。对于企业而言，这一转变意味着更多选择和更高水平的先进模型可访问性。前沿性能不再是超大规模企业或愿意支付高额API费用的企业的专属领域。像DeepCoder这样的模型能够使各种规模的组织利用复杂的代码生成和推理功能，根据特定需求定制解决方案，并在其环境中安全部署。

这一趋势有望降低AI采用的门槛，并促进一个更具竞争力和创新性的生态系统的形成，其中进展是通过开源协作推动的。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepcoder14b-yi-gao-xiao-140-yi-can-shu-mo-xing-zhan-xian

Like (0)

王浩然作者

0 0

揭秘LLM：Ai2的OLMoTrace将追溯源头‌

Previous 4天前

Google发布Agent2Agent互操作性协议，旨在标准化智能体通信‌

Next 4天前

AI前沿

人工智能中的幻觉：葛兰素史克如何解决药物开发中的关键问题

生成式人工智能已成为许多行业的关键基础设施，医疗保健也不例外。然而，随着葛兰素史克等组织不断突破生成式人工智能所能实现的界限，它们面临着重大挑战——尤其是在可靠性方面。幻觉，即人工…

王浩然
2025年1月15日
000
AI前沿

Nvidia 推出 Omniverse 实时物理数字孪生

Nvidia 宣布了其 Nvidia Omniverse Blueprint，这是一项使行业软件开发人员能够构建具有逼真的实时物理特性的数字孪生技术。它使航空航天、汽车、制造、能…

王浩然
2024年11月20日
000
AI前沿

加州议会通过有争议的人工智能安全法案

加州议会批准了《前沿人工智能模型安全创新法案》（SB 1047）。该法案在硅谷及其他地区引发了激烈争论，旨在对在加州运营的人工智能公司实施一系列安全措施。这些预防措施必须在训练高…

AI News
2024年9月1日
000
AI前沿

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。根据该公司的许可协议，新模型可通过H…

王浩然
2024年12月28日
000
AI前沿

Midjourney 增加了类似 Pinterest 的“情绪板”并支持多种自定义 AI 图像模型

MidJourney是一款流行的 AI 图像生成器，拥有超过 1900 万用户，它推出了新功能来增强用户定制。今天，这家小公司推出了受 Pinterest 启发的“情绪板”并支持…

王浩然
2024年12月19日
000
AI前沿

Verizon 以 200 亿美元收购 Frontier Communications

此次收购扩大了 Verizon 的覆盖范围，并扩展了其智能边缘网络，以实现包括人工智能和物联网在内的数字创新

点点
2024年9月7日
000
AI前沿

ServiceNow 提倡使用“隐形”人工智能代理来简化工人的采用

企业开始部署人工智能代理。但是，如果组织计划大规模部署代理生态系统并提高员工接受度，他们可能会考虑将人工智能代理视为在后台工作的工具，以避免吓倒那些认为他们必须知道如何使用这些工具…

王浩然
2024年10月26日
000
AI前沿

Anthropic 的代理计算机使用正在赋予人们“超能力”

Anthropic发布其新的 Claude 功能“计算机使用”仅两天时间，但不同技术能力的早期采用者已经找到了各种方法来使用它——从复杂的编码任务到深入研究，再到收集“分散”的信息…

王浩然
2024年10月27日
000
AI前沿

科学家如何在太空中研究宇航员的心理健康

保持宇航员在太空中的健康不仅仅是确保他们有足够的运动和好的食物。考虑他们的心理健康也很重要。这是任何工作的一个重要因素，但对于在国际空间站（ISS）上生活在太空中的人来说尤其重要。…

点点
2024年9月29日
000
AI前沿

Pegasystems 首席技术官 Don Schuerman – 访谈系列

Don Schuerman 是 Pegasystems 的首席技术官兼产品营销副总裁，负责 Pega 的平台和客户关系管理 (CRM) 应用程序。他拥有 20 年为财富 500 …

点点
2024年10月16日
000
AI前沿

D-ID推出AI视频翻译工具

D-ID 的工具与 YouTube 和 Vimeo 等平台竞争，面向个人创作者和企业，通过先进的 AI 技术提供无缝的多语言观看体验。 D-ID 最近推出了一款创新的AI 视频翻译…

王浩然
2024年8月23日
010
AI前沿

科学家构建推动通用人工智能发展的AI模型

一、引言在人工智能领域，通用人工智能（Artificial General Intelligence, AGI）一直是研究者们追求的终极目标。近日，来自澳大利亚悉尼科技大学的研究…

王浩然
2025年3月14日
000
AI前沿

Mistral 推出 Pixtral Large，并将 Le Chat 升级为 ChatGPT 的全面竞争对手

法国初创公司Mistral去年凭借创纪录的欧洲种子资金融资额引起轰动，今天该公司发布了一系列更新，包括一个名为 Pixtral Large 的全新大型基础模型。该公司正在进一步升…

王浩然
2024年11月20日
000
AI前沿

人工智能悖论：未来的尖端工具如何成为危险的网络威胁（以及需要做好哪些准备）

人工智能正在改变企业的运营方式。虽然这种转变在很大程度上是积极的，但它也带来了一些独特的网络安全问题。像agentic AI这样的下一代人工智能应用对组织的安全态势构成了特别值得注…

王浩然
2025年2月4日
000
AI前沿

XAI是否对Grok 3基准测试结果造假？

近日，有关XAI（Explainable AI，可解释人工智能）公司对其最新产品Grok 3的基准测试结果真实性的质疑声四起。据指控，XAI可能夸大了Grok 3在某些关键性能指标…

王浩然
2025年2月26日
000
AI前沿

研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

机器学习模型是如何做到的？它们真的像我们一样“思考”或“推理”吗？这既是一个哲学问题，也是一个实践问题，但周五发表的一篇新论文表明，答案至少就目前而言，是一个相当明确的“不”。苹…

点点
2024年10月13日
000
AI前沿

Uber ChatGPT AI 助手鼓励人们使用电动汽车

在 OpenAI 的 GPT-4o 的支持下，Uber 的司机应用程序将配备人工智能助手，为所有可以想象到的电动汽车问题提供类似人类的答案

点点
2024年10月16日
000
AI前沿

爱尔兰数据监管机构调查X公司利用欧洲用户数据训练Grok AI模型

在数据隐私与安全日益受到重视的今天，任何涉及用户数据的使用都需谨慎行事。近日，爱尔兰数据保护委员会（Data Protection Commission，简称DPC）宣布对X公司展…

王浩然
1天前
000
AI前沿

CES 2025：机器人、人工智能、自动驾驶和智能物联的展望

预计将有超过 135,000 名参会者和 4,000 名参展商挤满拉斯维加斯会议中心年度大型技术贸易展会CES本周末在拉斯维加斯拉开帷幕，展会上将展示机器人、人工智能和移动领域的…

王浩然
2025年1月4日
000
AI前沿

我们能教机器像人类一样思考吗？

介绍当我开始学习人工智能时，最令人着迷的想法之一就是机器像人类一样思考。但是，当我仔细研究人工智能和机器学习方法的实际作用时，我惊讶地发现，课程和书籍中关于人类思维方式（即人类认…

王浩然
2024年10月20日
000

发表回复

Please Login to Comment

DeepCoder-14B：以高效140亿参数模型展现顶级编码性能

相关推荐

发表回复

Share To :