超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

王浩然 • 2024年12月28日下午1:00 • AI前沿 • 85 views

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。

根据该公司的许可协议，新模型可通过Hugging Face获得，它带有 671B 个参数，但使用混合专家架构来仅激活选定的参数，以便准确高效地处理给定的任务。根据 DeepSeek 分享的基准测试，该产品已经名列前茅，超越了领先的开源模型，包括Meta 的 Llama 3.1-405B，并与 Anthropic 和 OpenAI 的封闭模型的性能非常接近。

此次发布标志着闭源 AI 与开源 AI 之间的差距又一次重大缩小。DeepSeek 最初是中国量化对冲基金High-Flyer Capital Management的一个分支，它希望这些发展能为通用人工智能 (AGI) 铺平道路，通用人工智能的模型将有能力理解或学习人类能够完成的任何智力任务。

DeepSeek-V3 带来了什么？

与前代 DeepSeek-V2 一样，新的超大型模型使用相同的基本架构，围绕多头潜在注意力 (MLA)和DeepSeekMoE。这种方法确保它保持高效的训练和推理——专门和共享的“专家”（大型模型内单独的、较小的神经网络）为每个 token 激活 671B 中的 37B 个参数。

在基本架构确保DeepSeek-V3强劲性能的同时，该公司还推出了两项创新，以进一步提高标准。

第一个是辅助无损负载平衡策略。该策略动态监控和调整专家的负载，以平衡的方式利用它们，而不会损害整体模型性能。第二个是多令牌预测 (MTP)，它允许模型同时预测多个未来令牌。这项创新不仅提高了训练效率，还使模型的执行速度提高了三倍，每秒生成 60 个令牌。

该公司在介绍新模型的技术论文中写道：“在预训练期间，我们用 14.8T 高质量、多样化的 token 训练了 DeepSeek-V3……接下来，我们对 DeepSeek-V3 进行了两阶段的上下文长度扩展。” “在第一阶段，最大上下文长度扩展到 32K，在第二阶段，进一步扩展到 128K。此后，我们在 DeepSeek-V3 的基础模型上进行了后训练，包括监督微调 (SFT) 和强化学习 (RL)，以使其与人类偏好保持一致并进一步释放其潜力。在后训练阶段，我们从DeepSeekR1 系列模型中提取推理能力，同时小心地保持模型准确率和生成长度之间的平衡。”

值得注意的是，在训练阶段，DeepSeek 使用了多种硬件和算法优化，包括 FP8 混合精度训练框架和用于流水线并行的 DualPipe 算法，以降低流程成本。

总体而言，该公司声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的全部训练，假设每 GPU 小时的租赁价格为 2 美元，则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。

以Llama-3.1为例，预计其培训投资已超过5亿美元。

目前最强大的开源模型

尽管训练成本低廉，DeepSeek-V3 已成为市场上最强大的开源模型。

该公司运行了多个基准测试来比较 AI 的性能，并指出它的表现令人信服地优于领先的开放模型，包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中都优于闭源GPT-4o，除了以英语为中心的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的得分领先（而后者为 24.9 和 73.3）。

值得注意的是，DeepSeek-V3 在中文和数学基准测试中表现尤为突出，得分高于所有同类产品。在 Math-500 测试中，它的得分为 90.2，其次是 Qwen 的 80 分。

唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的 Claude 3.5 Sonnet，它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中均以更高的分数超越了 DeepSeek-V3。

这项研究表明，开源模型正在接近闭源模型，有望在不同任务上实现几乎相同的性能。此类系统的开发对行业来说非常有利，因为它有可能消除一家大型人工智能公司统治游戏的可能性。它还为企业在编排堆栈时提供了多种选择和使用方式。

目前，DeepSeek-V3 的代码可通过GitHub在 MIT 许可下获得，而模型则根据公司的模型许可提供。企业还可以通过类似 ChatGPT 的平台DeepSeek Chat测试新模型，并访问 API 以供商业使用。DeepSeek 提供的 API 价格与 DeepSeek-V2 相同，直到 2 月 8 日。此后，它将收取每百万输入令牌 0.27 美元（缓存命中时每百万令牌 0.07 美元）和每百万输出令牌 1.10 美元的费用。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chao-da-xing-kai-yuan-ai-deepseekv3-fa-bu-shi-biao-xian

Like (0)

王浩然作者

0 0

DeepSeek 的新 AI 模型似乎是迄今为止最好的“公开”挑战者之一

Previous 2024年12月28日

2024 年无法实现的人工智能智能手机

Next 2024年12月28日

AI前沿

Nvidia 的 AI 代理游戏现已推出新模型和编排蓝图

随着Nvidia宣布推出多项新服务和模型以促进 AI 代理的创建和部署，业界继续推动代理 AI 的发展。今天，Nvidia 推出了 Nemotron，这是基于Meta的 Lla…

王浩然
2025年1月8日
000
AI前沿

2025 年的网络安全：混合策略、深度伪造和加密敏捷性

全面审视 2025 年网络安全格局的演变，新兴技术带来新的威胁和机遇随着技术的出现，不良行为者不可避免地会试图利用它们来使网络攻击变得更加复杂和有效。生成式人工智能、混合云基础…

王浩然
2025年1月3日
000
AI前沿

Cerebras 成为世界上最快的 DeepSeek R1 主机，速度比 Nvidia GPU 快 57 倍

Cerebras Systems今天宣布，它将在美国服务器上托管 DeepSeek 的突破性 R1 人工智能模型，承诺速度比基于 GPU 的解决方案快 57 倍，同时将敏感数据保留…

王浩然
2025年2月1日
000
AI前沿

临床环境中的人工智能：了解护士的怀疑态度并找到前进的方向

由于普遍的职业倦怠和劳动力短缺，不断变化的医疗保健领域一直在寻找“下一个大事件”来支持劳动力赋能，而人工智能目前是领先的竞争者。人工智能在临床环境中的应用越来越普遍，并且将继续存在…

点点
2024年10月27日
000
AI前沿

ElevenLabs 聘请了阅读应用 Omnivore 背后的团队

生成式人工智能公司ElevenLabs聘请了开源稍后阅读应用程序Omnivore背后的团队。 Omnivore 联合创始人杰克逊·哈珀 (Jackson Harper) 和吴洪波 …

王浩然
2024年10月30日
000
AI前沿

Chain of Experts（COE）：低成本高效能的大型语言模型框架

引言在人工智能（AI）领域，大型语言模型（LLM）的应用日益广泛，但高昂的成本和复杂的部署流程一直是阻碍其普及的关键因素。近日，一种名为Chain of Experts（COE）…

王浩然
2025年3月19日
000
AI前沿

为什么必须挑战人工智能独裁者才能做得更好

如果说我们从人工智能时代学到了什么，那就是这个行业正在努力应对巨大的能源挑战。这些挑战既是字面意义上的挑战——比如如何找到满足人工智能数据中心巨大能源需求的方法——也是比喻意义上的…

点点
2024年9月5日
000
AI前沿

OpenAI 推出 o3-mini 高级推理模型，对抗 DeepSeek 的崛起

OpenAI 及时发布了新的专有 AI 模型，以对抗开源竞争对手 DeepSeek-R1 的快速崛起——但这足以削弱后者的成功吗？今天，经过几天的谣言和社交媒体上人工智能用户的日…

王浩然
2025年2月2日
000
AI前沿

企业现在可以通过 Google Cloud 最先进的虚拟机运行实时数据

几个月前，Google Cloud推出了C4A，这是由其首款基于 Arm 的 CPU Axion 驱动的虚拟机 (VM) 实例。现在，作为这项工作的下一步，它推出了搭载Titani…

王浩然
2025年1月19日
000
AI前沿

尽管人工智能军备竞赛激烈，但我们仍将迎来多模式未来

每周，有时甚至每天，都会有一个新的最先进的人工智能模型诞生。随着我们进入 2025 年，新模型的发布速度令人眼花缭乱，甚至令人精疲力竭。过山车的曲线继续呈指数级增长，疲劳和惊奇已成…

王浩然
2024年12月30日
000
AI前沿

埃隆·马斯克的 xAI 搬进了 OpenAI 的旧总部

旧金山的 Mission 区并不以公司办公室而闻名，但它现在是两家全球资金最雄厚的人工智能初创公司的所在地。据《旧金山商业时报》报道，埃隆马斯克的人工智能初创公司 xAI 最近搬…

王浩然
2024年10月4日
000
AI前沿

许多公司不愿透露是否会遵守加州的人工智能培训透明度法

周日，加州州长加文·纽瑟姆签署了一项法案AB-2013，要求开发生成式人工智能系统的公司发布用于训练其系统的数据的高级摘要。除其他事项外，摘要必须涵盖谁拥有数据、数据是如何获得或授…

王浩然
2024年10月7日
000
AI前沿

开源模型上下文协议（MCP）重大更新：AI互操作性迈入新纪元

重写并翻译的文章内容 ‌开源模型上下文协议（MCP）重大更新：AI互操作性迈入新纪元‌ 在人工智能领域，一项旨在提升AI代理与工具、数据及接口间无缝交互能力的开源标准——模型上下文…

王浩然
2025年3月29日
000
AI前沿

Google的Gemini 2.5 Pro：企业AI领域的智慧新星

在AI技术日新月异的今天，各大科技巨头纷纷推出自己的先进模型，以争夺市场的主导地位。近日，Google悄然发布了Gemini 2.5 Pro，这一模型虽然未能在发布时引起轰动，但其…

王浩然
5天前
000
AI前沿

Nvidia 推出 Omniverse 实时物理数字孪生

Nvidia 宣布了其 Nvidia Omniverse Blueprint，这是一项使行业软件开发人员能够构建具有逼真的实时物理特性的数字孪生技术。它使航空航天、汽车、制造、能…

王浩然
2024年11月20日
000
AI前沿

Scope3 开始追踪人工智能的碳足迹

是香蕉起了作用。布莱恩·奥凯利 (Brian O’Kelley) 最近以 16 亿美元的价格将他之前的创业公司广告平台 AppNexus 卖给了 AT&T。在…

王浩然
2024年10月12日
000
AI前沿

Adobe 为 AWS 带来生成式 AI 和实时个性化：以下是下一步计划

Adobe正在积极进军亚马逊的云计算领域，将其体验平台扩展到AWS，这一合作标志着企业处理人工智能和客户数据方式的重大转变。 Adobe 领导层表示，该交易于上周在亚马逊网络服务r…

王浩然
2024年12月10日
000
AI前沿

Airtel 部署人工智能遏制垃圾邮件，呼吁印度对 WhatsApp 进行监管

印度第二大电信运营商巴帝电信周三向所有客户推出了一款免费的人工智能垃圾信息检测系统，旨在遏制该国猖獗的垃圾电话和信息，同时呼吁对 WhatsApp 和其他消息平台进行更严格的监管。…

王浩然
2024年9月28日
000
AI前沿

Fastn 使用 AI 代理促进复杂应用程序开发的数据集成

在数字化转型时代，可组合性或模块化组件的使用已成为新领域。许多企业正在寻求这种架构来开发与其技术堆栈相关的复杂系统。然而，将这样的系统付诸实践也相当困难，尤其是由于数据孤岛和分散的…

王浩然
2024年9月9日
000
AI前沿

初创公司寻求开发物理人工智能，筹集 4 亿美元

总部位于旧金山的人工智能机器人初创公司 Physical Intelligence 本周宣布已筹集 4 亿美元资金，估值达到 28 亿美元。主要投资者包括亚马逊的杰夫·贝佐斯、O…

王浩然
2024年11月8日
000

发表回复

Please Login to Comment

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

DeepSeek-V3 带来了什么？

目前最强大的开源模型

相关推荐

发表回复

Share To :