DeepSeek 声称其“推理”模型在某些基准上击败了 OpenAI 的 o1

王浩然 • 2025年1月21日下午12:00 • AI前沿 • 89 views

中国人工智能实验室 DeepSeek 发布了其所谓的推理模型 DeepSeek-R1 的开放版本，声称该模型在某些人工智能基准上的表现与 OpenAI 的o1一样好。

R1 可从 AI 开发平台 Hugging Face 获得，并采用 MIT 许可，这意味着它可以不受限制地用于商业用途。据 DeepSeek 称，R1 在基准测试 AIME、MATH-500 和 SWE-bench Verified 上均胜过 o1。AIME 使用其他模型来评估模型的性能，而 MATH-500 是一组文字问题。而 SWE-bench Verified 则专注于编程任务。

作为一个推理模型，R1 可以有效地对自身进行事实核查，这有助于它避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比，推理模型需要更长的时间（通常要多几秒到几分钟）才能得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

DeepSeek 在一份技术报告中透露，R1 包含 6710 亿个参数。参数大致对应模型解决问题的能力，参数较多的模型通常比参数较少的模型表现更好。

6710 亿个参数非常庞大，但 DeepSeek 还发布了 R1 的“精简”版本，其大小从 15 亿个参数到 700 亿个参数不等。最小的版本可以在笔记本电脑上运行。至于完整的 R1，它需要更强大的硬件，但可以通过DeepSeek 的 API 获得，价格比 OpenAI 的 o1 便宜 90%-95%。

R1 也有缺点。作为中国模式，它必须接受中国互联网监管机构的评估，以确保其回应“体现社会主义核心价值观”。例如，R1 不会回答有关天安门广场或台湾自治的问题。

许多中国人工智能系统，包括其他推理模型，拒绝回应可能引起中国监管机构愤怒的话题，例如有关习近平政权的猜测。

R1 发布前几天，即将离任的拜登政府提议对中国企业实施更严格的AI 技术出口规则和限制。中国企业已经被禁止购买先进的 AI 芯片，但如果新规则按书面规定生效，企业将面临更严格的半导体技术和模型限制，这些技术是引导复杂 AI 系统所必需的。

OpenAI在上周的一份政策文件中敦促美国政府支持美国人工智能的发展，以免中国模型在能力上赶上或超过它们。在接受采访时，OpenAI 政策副总裁 Chris Lehane 特别指出 DeepSeek 的母公司 High Flyer Capital Management 是一个特别令人担忧的组织。

到目前为止，至少有三家中国实验室——DeepSeek、阿里巴巴和中国独角兽公司Moonshot AI旗下的Kimi——已经制作出他们声称可以与 o1 相媲美的模型。（值得注意的是，DeepSeek 是第一家——它在 11 月下旬宣布了R1 的预览版。）乔治梅森大学人工智能研究员 Dean Ball 在 X 上的一篇文章中表示，这一趋势表明中国人工智能实验室将继续成为“快速跟随者”。

Ball 写道：“DeepSeek 提炼模型的出色表现意味着，非常有能力的推理器将继续广泛扩散，并可在本地硬件上运行，远离任何自上而下的控制机制的监控。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepseek-sheng-cheng-qi-tui-li-mo-xing-zai-mou-xie-ji-zhun

AI 芯片 DeepSeek Kimi Moonshot OpenAI 推理模型阿里巴巴

Like (0)

王浩然作者

0 0

Luma AI 发布 Ray2 生成视频模型，具有“快速、自然”的运动和更好的物理特性

Previous 2025年1月20日

开源 DeepSeek-R1 使用纯强化学习来匹敌 OpenAI o1 — 成本降低 95%

Next 2025年1月21日

AI前沿

Mistral 推出其首款多模态模型 Pixtral 12B

法国人工智能初创公司Mistral发布了其首个可处理图像和文本的模型。这个名为 Pixtral 12B 的模型拥有 120 亿个参数，大小约为 24GB。参数大致对应于模型解决问…

王浩然
2024年9月13日
000
AI前沿

谷歌将于今年晚些时候开始在搜索中标记人工智能生成的图像

谷歌表示，它计划对谷歌搜索进行改进，以更清楚地显示搜索结果中的哪些图像是由人工智能生成的，或者由人工智能工具编辑的。在接下来的几个月里，谷歌将开始在搜索、Google Lens和…

王浩然
2024年9月19日
000
AI前沿

Cohere 最小、最快的 R 系列模型在 RAG 方面表现出色，能够推理 23 种语言

人工智能初创公司Cohere发布了 Command R7B，这是其 R 模型系列中最小、最快的模型，以证明其支持广泛企业用例的意图，包括那些不需要昂贵、资源密集型的大型语言模型(L…

王浩然
2024年12月16日
000
AI前沿

数据中心技术正在蓬勃发展，但对于初创企业来说采用并不容易

数据中心行业正在迅速扩张，以跟上人工智能飞轮式增长的步伐。虽然这些数据中心是人工智能基础设施的必需品，但它们存储着人工智能公司的计算能力，建造成本高昂，运行成本似乎更高，而且耗能巨…

王浩然
2024年10月14日
000
AI前沿

xpander.ai 的 Agent Graph System 使 AI 代理更加可靠，并逐步为其提供信息

以色列初创公司xpander.ai推出了代理图形系统 (AGS)，据称这是基于 OpenAI 的 GPT-4o 系列等底层 AI 模型构建更可靠、更高效的多步骤 AI 代理的重要新…

王浩然
2024年11月25日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

我们终于对开源人工智能有了“官方”定义

开源人工智能终于有了“官方”定义。开放源代码促进会 (OSI) 是一家长期存在的机构，旨在定义和“管理”所有开源事物，今天发布了其开放源代码 AI 定义 (OSAID) 1.0 …

王浩然
2024年10月29日
000
AI前沿

“strawberry”问题：如何克服人工智能的局限性

到目前为止，ChatGPT 和 Claude 等大型语言模型 ( LLM ) 已成为全球的日常用语。许多人开始担心人工智能会抢走他们的工作，因此，几乎所有基于 LLM 的系统都无法…

王浩然
2024年10月15日
000
AI前沿

Patronus AI推出Judge-Image：旨在确保AI诚信，Etsy已率先采用

Patronus AI近日宣布推出业界首款多模态大型语言模型评判工具（MLLM-as-a-Judge），名为Judge-Image。该工具专为评估解释图像并生成文本的AI系统而设计…

王浩然
2025年3月17日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

阿里巴巴研究人员推出具有高级推理能力的法学硕士 Marco-o1

OpenAI o1的近期发布引起了人们对大型推理模型 (LRM) 的极大关注，并启发了旨在解决经典语言模型经常遇到的复杂问题的新模型。基于 o1 的成功和 LRM 的概念，阿里巴巴…

王浩然
2024年11月28日
000
AI前沿

人工智能解决方案：移民如何克服美国的交通障碍

美国的信用评分体系不仅应用于银行和大型企业，还评估每一位居民在日常生活中各个方面的信用状况。然而，这一体系也歧视了广大民众，尤其是移民。对于移民和政治难民来说，在美国，如果没有合…

点点
2024年10月7日
000
AI前沿

Meta 发布了谷歌播客生成器的“开放”版本

Meta 发布了Google NotebookLM 中病毒式生成播客功能的“开放”实现。该项目名为NotebookLlama，不出所料，它使用 Meta 自己的Llama模型进行…

王浩然
2024年10月28日
000
AI前沿

周三亚马逊Alexa活动前瞻‌

在科技日新月异的今天，智能助手已成为我们生活中不可或缺的一部分。亚马逊的Alexa作为智能助手的佼佼者，其每一次更新都备受瞩目。本文将为您揭秘周三即将举行的亚马逊Alexa活动，带…

王浩然
2025年2月27日
000
AI前沿

美国、英国和欧盟签署欧洲理事会高级别人工智能安全条约

目前我们还不清楚人工智能法规将如何实施和确保，但今天包括美国、英国和欧盟在内的许多国家签署了由国际标准和人权组织欧洲委员会 (COE) 制定的人工智能安全条约。欧洲委员会将该条约…

王浩然
2024年9月8日
000
AI前沿

Lambda 推出“推理即服务” API，宣称成本为人工智能行业最低

Lambda是一家成立 12 年的旧金山公司，以向机器学习研究人员以及 AI 模型构建者和训练人员按需提供图形处理单元 (GPU) 而闻名。但今天，该公司推出了Lambda&nb…

王浩然
2024年12月18日
000
AI前沿

AWS 将数据库价格降低近 50%，并增加了分布式扩展功能

AWS正在扩展其云数据库产品组合的功能，同时降低企业成本。在今天的AWS re:invent 2024会议上，这家云计算巨头概述了一系列云数据库创新。其中包括新的 Amazon …

王浩然
2024年12月6日
000
AI前沿

Telefónica 的 Wayra 支持人工智能应答引擎 Perplexity

西班牙电信 (Telefónica) 的企业风险投资部门Wayra宣布投资人工智能解答引擎Perplexity。 Perplexity 的 AI 驱动平台旨在通过使用自然语言处理为…

点点
2024年10月16日
000
AI前沿

AI 超大规模提供商 Nscale 获得 1.55 亿美元 A 轮融资，助力扩张并满足 AI 计算需求

Nscale是 AI 超大规模基础设施领域的领先创新者，该公司宣布完成1.55 亿美元的 A 轮融资。此轮融资由Sandton Capital Partners领投，Kestrel…

王浩然
2024年12月9日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000

发表回复

Please Login to Comment

DeepSeek 声称其“推理”模型在某些基准上击败了 OpenAI 的 o1

相关推荐

发表回复

Share To :