
中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名,今天发布了一种新的超大模型:DeepSeek-V3。
根据该公司的许可协议,新模型可通过Hugging Face获得,它带有 671B 个参数,但使用混合专家架构来仅激活选定的参数,以便准确高效地处理给定的任务。根据 DeepSeek 分享的基准测试,该产品已经名列前茅,超越了领先的开源模型,包括Meta 的 Llama 3.1-405B,并与 Anthropic 和 OpenAI 的封闭模型的性能非常接近。
此次发布标志着闭源 AI 与开源 AI 之间的差距又一次重大缩小。DeepSeek 最初是中国量化对冲基金High-Flyer Capital Management的一个分支,它希望这些发展能为通用人工智能 (AGI) 铺平道路,通用人工智能的模型将有能力理解或学习人类能够完成的任何智力任务。
DeepSeek-V3 带来了什么?
与前代 DeepSeek-V2 一样,新的超大型模型使用相同的基本架构,围绕多头潜在注意力 (MLA)和DeepSeekMoE。这种方法确保它保持高效的训练和推理——专门和共享的“专家”(大型模型内单独的、较小的神经网络)为每个 token 激活 671B 中的 37B 个参数。
在基本架构确保DeepSeek-V3强劲性能的同时,该公司还推出了两项创新,以进一步提高标准。
第一个是辅助无损负载平衡策略。该策略动态监控和调整专家的负载,以平衡的方式利用它们,而不会损害整体模型性能。第二个是多令牌预测 (MTP),它允许模型同时预测多个未来令牌。这项创新不仅提高了训练效率,还使模型的执行速度提高了三倍,每秒生成 60 个令牌。
该公司在介绍新模型的技术论文中写道:“在预训练期间,我们用 14.8T 高质量、多样化的 token 训练了 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了两阶段的上下文长度扩展。” “在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。此后,我们在 DeepSeek-V3 的基础模型上进行了后训练,包括监督微调 (SFT) 和强化学习 (RL),以使其与人类偏好保持一致并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1 系列模型中提取推理能力,同时小心地保持模型准确率和生成长度之间的平衡。”
值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于流水线并行的 DualPipe 算法,以降低流程成本。
总体而言,该公司声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的全部训练,假设每 GPU 小时的租赁价格为 2 美元,则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。
以Llama-3.1为例,预计其培训投资已超过5亿美元。
目前最强大的开源模型
尽管训练成本低廉,DeepSeek-V3 已成为市场上最强大的开源模型。
该公司运行了多个基准测试来比较 AI 的性能,并指出它的表现令人信服地优于领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中都优于闭源GPT-4o,除了以英语为中心的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的得分领先(而后者为 24.9 和 73.3)。
值得注意的是,DeepSeek-V3 在中文和数学基准测试中表现尤为突出,得分高于所有同类产品。在 Math-500 测试中,它的得分为 90.2,其次是 Qwen 的 80 分。
唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中均以更高的分数超越了 DeepSeek-V3。
这项研究表明,开源模型正在接近闭源模型,有望在不同任务上实现几乎相同的性能。此类系统的开发对行业来说非常有利,因为它有可能消除一家大型人工智能公司统治游戏的可能性。它还为企业在编排堆栈时提供了多种选择和使用方式。
目前,DeepSeek-V3 的代码可通过GitHub在 MIT 许可下获得,而模型则根据公司的模型许可提供。企业还可以通过类似 ChatGPT 的平台DeepSeek Chat测试新模型,并访问 API 以供商业使用。DeepSeek 提供的 API 价格与 DeepSeek-V2 相同,直到 2 月 8 日。此后,它将收取每百万输入令牌 0.27 美元(缓存命中时每百万令牌 0.07 美元)和每百万输出令牌 1.10 美元的费用。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chao-da-xing-kai-yuan-ai-deepseekv3-fa-bu-shi-biao-xian