
中国人工智能初创公司DeepSeek以使用开源技术挑战领先的人工智能供应商而闻名,最近它又抛出了一颗重磅炸弹:一项名为 DeepSeek-R1 的全新开放式推理法学硕士学位课程。
基于最近推出的DeepSeek V3混合专家模型,DeepSeek-R1 在数学、编码和推理任务方面的表现与 OpenAI 的前沿推理 LLM o1 相当。最好的部分是什么?它以更具吸引力的成本实现了这一点,事实证明它比后者便宜 90-95%。
此次发布标志着开源领域的一次重大飞跃。它表明,在通用人工智能 (AGI) 竞赛中,开放模型正在进一步缩小与封闭商业模型的差距。为了展示其工作的实力,DeepSeek 还使用 R1 提炼了六个 Llama 和 Qwen 模型,将其性能提升到了新的水平。在一个案例中,Qwen-1.5B 的提炼版本在选定的数学基准测试中优于更大的模型 GPT-4o 和 Claude 3.5 Sonnet。
这些提炼模型以及主要的 R1都已开源,并可根据 MIT 许可在 Hugging Face上使用。
DeepSeek-R1 带来了什么?
重点是加强通用人工智能 (AGI),即能够像人类一样执行智力任务的人工智能。许多团队都在加倍努力提高模型的推理能力。OpenAI 凭借其o1 模型在该领域迈出了第一步,该模型使用思路链推理过程来解决问题。通过 RL(强化学习或奖励驱动优化),o1 学会磨练其思路链并改进其使用的策略——最终学会识别和纠正错误,或者在当前方法不起作用时尝试新方法。
现在,DeepSeek 继续朝这个方向努力,发布了 DeepSeek-R1,它使用 RL 和监督微调的组合来处理复杂的推理任务,并与 o1 的性能相匹配。
经过测试,DeepSeek-R1 在 AIME 2024 数学测试中得分为 79.8%,在 MATH-500 中得分为 97.3%。它在 Codeforces 上也获得了 2,029 分——比 96.3% 的人类程序员要好。相比之下,o1-1217 在这些基准测试中的得分分别为 79.2%、96.4% 和 96.6%。
它还表现出强大的常识性,MMLU 的准确率为 90.8%,仅低于 o1 的 91.8%。

训练流程
DeepSeek-R1 的推理性能标志着这家中国初创企业在美国主导的人工智能领域取得了巨大胜利,尤其是整个工作都是开源的,包括该公司如何训练整个系统。
然而,这项工作并不像听起来那么简单。
根据描述研究的论文,DeepSeek-R1 是作为 DeepSeek-R1-Zero 的增强版本开发的,后者是一种仅通过强化学习训练的突破性模型。
该公司首先使用 DeepSeek-V3-base 作为基础模型,在不使用监督数据的情况下开发其推理能力,本质上只专注于通过纯 RL 的反复试验过程进行自我进化。这种能力是从工作中内在开发的,它确保模型能够利用扩展的测试时间计算来更深入地探索和改进其思维过程,从而解决日益复杂的推理任务。
研究人员在论文中指出:“在训练过程中,DeepSeek-R1-Zero 自然而然地呈现出许多强大而有趣的推理行为。经过数千个 RL 步骤后,DeepSeek-R1-Zero 在推理基准测试中表现出超强的性能。例如,AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%,通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的性能相当。”
然而,尽管初始模型表现出了更好的性能,包括反思和探索替代方案等行为,但它确实存在一些问题,包括可读性差和语言混合。为了解决这个问题,该公司在 R1-Zero 的基础上,采用了一种结合监督学习和强化学习的多阶段方法,从而提出了增强型 R1 模型。
“具体来说,我们首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型,”研究人员解释道。“接下来,我们执行面向推理的 RL,例如 DeepSeek-R1-Zero。在 RL 过程接近收敛后,我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据,并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后,检查点将经历额外的 RL 过程,同时考虑所有场景的提示。完成这些步骤后,我们获得了一个称为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。”
比o1便宜多了
除了在各项基准测试中性能增强到几乎与 OpenAI 的 o1 相当之外,新款 DeepSeek-R1 的价格也非常实惠。具体来说,OpenAI o1 每百万输入令牌的成本为 15 美元,每百万输出令牌的成本为 60 美元,而基于 R1 模型的 DeepSeek Reasoner每百万输入令牌的成本为0.55 美元,每百万输出令牌的成本为 2.19 美元。 https://twitter.com/EMostaque/status/1881310721746804810
该模型可以在DeepSeek 聊天平台(类似于 ChatGPT)上以“DeepThink”的形式进行测试。感兴趣的用户可以通过 Hugging Face 在 MIT 许可下访问模型权重和代码存储库,也可以使用 API 直接集成。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/kai-yuan-deepseekr1-shi-yong-chun-qiang-hua-xue-xi-lai-pi