开源 DeepSeek-R1 使用纯强化学习来匹敌 OpenAI o1 — 成本降低 95%

王浩然 • 2025年1月21日下午2:00 • 技术评测 • 168 views

中国人工智能初创公司DeepSeek以使用开源技术挑战领先的人工智能供应商而闻名，最近它又抛出了一颗重磅炸弹：一项名为 DeepSeek-R1 的全新开放式推理法学硕士学位课程。

基于最近推出的DeepSeek V3混合专家模型，DeepSeek-R1 在数学、编码和推理任务方面的表现与 OpenAI 的前沿推理 LLM o1 相当。最好的部分是什么？它以更具吸引力的成本实现了这一点，事实证明它比后者便宜 90-95%。

此次发布标志着开源领域的一次重大飞跃。它表明，在通用人工智能 (AGI) 竞赛中，开放模型正在进一步缩小与封闭商业模型的差距。为了展示其工作的实力，DeepSeek 还使用 R1 提炼了六个 Llama 和 Qwen 模型，将其性能提升到了新的水平。在一个案例中，Qwen-1.5B 的提炼版本在选定的数学基准测试中优于更大的模型 GPT-4o 和 Claude 3.5 Sonnet。

这些提炼模型以及主要的 R1都已开源，并可根据 MIT 许可在 Hugging Face上使用。

DeepSeek-R1 带来了什么？

重点是加强通用人工智能 (AGI)，即能够像人类一样执行智力任务的人工智能。许多团队都在加倍努力提高模型的推理能力。OpenAI 凭借其o1 模型在该领域迈出了第一步，该模型使用思路链推理过程来解决问题。通过 RL（强化学习或奖励驱动优化），o1 学会磨练其思路链并改进其使用的策略——最终学会识别和纠正错误，或者在当前方法不起作用时尝试新方法。

现在，DeepSeek 继续朝这个方向努力，发布了 DeepSeek-R1，它使用 RL 和监督微调的组合来处理复杂的推理任务，并与 o1 的性能相匹配。

经过测试，DeepSeek-R1 在 AIME 2024 数学测试中得分为 79.8%，在 MATH-500 中得分为 97.3%。它在 Codeforces 上也获得了 2,029 分——比 96.3% 的人类程序员要好。相比之下，o1-1217 在这些基准测试中的得分分别为 79.2%、96.4% 和 96.6%。

它还表现出强大的常识性，MMLU 的准确率为 90.8%，仅低于 o1 的 91.8%。

训练流程

DeepSeek-R1 的推理性能标志着这家中国初创企业在美国主导的人工智能领域取得了巨大胜利，尤其是整个工作都是开源的，包括该公司如何训练整个系统。

然而，这项工作并不像听起来那么简单。

根据描述研究的论文，DeepSeek-R1 是作为 DeepSeek-R1-Zero 的增强版本开发的，后者是一种仅通过强化学习训练的突破性模型。

该公司首先使用 DeepSeek-V3-base 作为基础模型，在不使用监督数据的情况下开发其推理能力，本质上只专注于通过纯 RL 的反复试验过程进行自我进化。这种能力是从工作中内在开发的，它确保模型能够利用扩展的测试时间计算来更深入地探索和改进其思维过程，从而解决日益复杂的推理任务。

研究人员在论文中指出：“在训练过程中，DeepSeek-R1-Zero 自然而然地呈现出许多强大而有趣的推理行为。经过数千个 RL 步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出超强的性能。例如，AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%，通过多数投票，分数进一步提高到 86.7%，与 OpenAI-o1-0912 的性能相当。”

然而，尽管初始模型表现出了更好的性能，包括反思和探索替代方案等行为，但它确实存在一些问题，包括可读性差和语言混合。为了解决这个问题，该公司在 R1-Zero 的基础上，采用了一种结合监督学习和强化学习的多阶段方法，从而提出了增强型 R1 模型。

“具体来说，我们首先收集数千个冷启动数据来微调 DeepSeek-V3-Base 模型，”研究人员解释道。“接下来，我们执行面向推理的 RL，例如 DeepSeek-R1-Zero。在 RL 过程接近收敛后，我们通过对 RL 检查点进行拒绝采样来创建新的 SFT 数据，并结合 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据，然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后，检查点将经历额外的 RL 过程，同时考虑所有场景的提示。完成这些步骤后，我们获得了一个称为 DeepSeek-R1 的检查点，其性能与 OpenAI-o1-1217 相当。”

比o1便宜多了

除了在各项基准测试中性能增强到几乎与 OpenAI 的 o1 相当之外，新款 DeepSeek-R1 的价格也非常实惠。具体来说，OpenAI o1 每百万输入令牌的成本为 15 美元，每百万输出令牌的成本为 60 美元，而基于 R1 模型的 DeepSeek Reasoner每百万输入令牌的成本为0.55 美元，每百万输出令牌的成本为 2.19 美元。 https://twitter.com/EMostaque/status/1881310721746804810

该模型可以在DeepSeek 聊天平台（类似于 ChatGPT）上以“DeepThink”的形式进行测试。感兴趣的用户可以通过 Hugging Face 在 MIT 许可下访问模型权重和代码存储库，也可以使用 API 直接集成。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/kai-yuan-deepseekr1-shi-yong-chun-qiang-hua-xue-xi-lai-pi

Like (0)

王浩然作者

0 0

DeepSeek 声称其“推理”模型在某些基准上击败了 OpenAI 的 o1

Previous 2025年1月21日

帕尔默·卢基的人工智能防御公司 Anduril 正在俄亥俄州建造一座价值 10 亿美元的工厂

Next 2025年1月21日

技术评测

3 个令人惊艳的 GitHub 项目，诞生了！

最近这段时间，各大互联网公司在 AI 科技圈的各种动作可谓热闹非凡，每隔一段时间就有王炸产品放出！开源图像模型 Flux 重磅来袭，图像生成质量直逼 Midjourney；强大的…

AI评测师
2024年9月2日
000
AI前沿

利用人工智能节省照片筛选时间

如果您是摄影师，没有什么比在大型活动或拍摄后整理数百张（甚至数千张）照片更耗时的事情了。您是否知道专业摄影师平均每小时拍摄一次，要花 3-4 个小时进行编辑？我最近偶然发现了Af…

AI评测师
2024年10月7日
000
技术评测

Omnitron Sensors 的 MEMS 可以让自动驾驶汽车摆脱陀螺（同时降低成本）

生产 MEMS 传感器芯片的Omnitron Sensors已筹集 1300 万美元，用于为自动驾驶汽车制造廉价传感器。如果成功，我们就可以告别自动驾驶汽车顶部的大型旋转圆顶了。 …

王浩然
2025年2月3日
000
技术评测

iPhone 16 Pro Max 评测：1200 美元的售价让你一窥更智能的未来

所有消费电子产品都是不断更新的。这就是更新周期的本质。大约每年都会有一款具有新功能的新产品问世，吸引你进行升级。你肯定已经注意到，电子产品在几年后会显露出它们的老旧。从早期采用者的…

王浩然
2024年9月19日
000
技术评测

「AI小说神器」MidReal：网页版互动小说，可互动选择剧情走向，自动配图

📚✨ MidReal AI互动小说神器迎来了重大升级，全新网页版的推出让创作和阅读变得更加便捷！ MidReal简介 MidReal是一款革命性的AI小说生成工具，它通过沉浸式的写…

AI评测师
2024年9月2日
000
技术评测

苹果宣布推出 M4 Max 芯片，首次亮相 MacBook Pro

苹果公司周三发布了 M 系列芯片的最新成员，结束了为期半周的 Mac 发布会。在发布M4 Pro和新款超薄 Mac mini 的第二天，该公司又展示了即将加入MacBook Pro…

王浩然
2024年10月31日
000
技术评测

人工智能如何帮助您的企业快速起步

如今，还有什么问题是人工智能无法解决的？老实说，似乎没有多少。通过使用算法、深入研究大量数据并应用从中吸取的经验教训，人工智能可以发现模式并构建类似说明书的方法来解决某些任务。而…

AI News
2024年9月1日
000
技术评测

Phrasly 评论：它真的能让 AI 内容听起来像人类吗？

您是否想过，人工智能生成的内容是否真的听起来像人类？我最近遇到了Phrasly，事实证明，它可以将人工智能的效率与人类写作的真实性融为一体！在这篇 Phrasly 评论中，我将讨…

王浩然
2025年1月14日
000
AI前沿

利用人类注意力可以改善人工智能生成的图像

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型（LDM）生成的图像质量的方法。该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。新研究发现，显著性图（左…

点点
2024年10月17日
000
技术评测

AI一键生成“类黑神话”，腾讯推出游戏视频模型GameGen-O，业内人士：游戏工作室的ChatGPT时刻

什么？大模型也许很快就能生成《黑神话·悟空》这种3A大作了？！直接看一则demo，《西游记》这就上桌：搭配BGM，是不是有内味儿了（doge）。这就是腾讯近日推出的GameG…

点点
2024年9月16日
000
AI前沿

“这是一个游戏规则的改变者”：Runway 发布新的 AI 面部表情动作捕捉功能 Act-One

自2022 年底首批模型首次亮相以来，人工智能视频在过去几年中取得了令人难以置信的进步，其真实感、分辨率、保真度、提示依从性（与用户输入的文本提示或视频描述的匹配程度）和数量都有所…

王浩然
2024年10月25日
000
技术评测

苹果升级 watchOS，添加翻译等 AI 功能

苹果公司在周一的 2024 年苹果活动上宣布，其 watchOS 将进行一些人工智能升级。大多数升级都是在 6 月份的全球开发者大会 (WWDC)上发布的，但苹果在今天上午的主题演…

王浩然
2024年9月10日
000
技术评测

什么是 ChatGPT Plus？订阅前您需要了解以下信息

ChatGPT完全免费使用，但这并不意味着 OpenAI 对赚钱不感兴趣。 ChatGPT Plus 是一项订阅服务，让您可以访问GPT-4o大型语言模型，同时享受更快的速度、更高…

王浩然
2024年9月16日
000
技术评测

Altered AI：用AI克隆声音，未来已来

作为内容创作者或自媒体专业人士，提供多样化、高质量的配音表演极具挑战性。无论是同时扮演多个角色还是管理紧张的预算，聘请配音演员的成本都会让您不堪重负。我最近遇到了Altered …

AI评测师
2024年9月7日
000
技术评测

原生集成GitHub，让AI成为协作者，Claude企业版馋哭个人开发者

Anthropic推出Claude企业版，集成GitHub和500K上下文长度。

AI评测师
2024年9月6日
000
技术评测

iOS 18 的隐藏功能和小更新指南

苹果的iOS 18 更新于 9 月 16 日向所有用户推出。在 Apple Intelligence 发布之前，最重要的新功能是能够在主屏幕上自定义图标、在锁定屏幕上交换应用程序快…

AI评测师
2024年9月23日
000
技术评测

开源字符识别 OCR 引擎- 5.5万星星！很多项目都需要

Tesseract 开源 OCR 引擎（主存储库）源代码 https://github.com/tesseract-ocr/tesseract 官方网址 tesseract-oc…

AI评测师
2024年8月29日
000
技术评测

谷歌悄然在 Chrome 地址栏中推出了 Gemini AI 集成

谷歌周二对其Chrome 浏览器进行了重大更新，将其先进的Gemini AI聊天机器人直接集成到地址栏中。此举已广泛向用户开放，标志着人工智能技术民主化的关键时刻，并可能重塑数百万…

王浩然
2024年9月5日
000
技术评测

Agility Robotics 的 Digit：自动化劳动力的未来

在当今瞬息万变的世界，自动化正在以惊人的速度重塑行业，使机器人成为劳动力的重要组成部分。Agility Robotics凭借其先进的人形机器人引领着这一激动人心的变革。其旗舰产品D…

AI评测师
2024年8月27日
000
技术评测

从微调稳定扩散模型中提取训练数据

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。当艺术家的风格被抄袭，或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时，这可能会提供法…

AI评测师
2024年10月8日
000