NVIDIA新推Llama 3.1 Nemotron Ultra，性能超越DeepSeek R1，体积仅其一半‌

王浩然 • 2025年4月10日下午5:00 • AI前沿 • 61 views

在AI领域，大型语言模型（LLM）的竞争日益激烈，各大科技公司纷纷推出自己的旗舰产品，以期在这个充满挑战与机遇的市场中占据一席之地。近日，NVIDIA宣布推出其最新的LLM——Llama 3.1 Nemotron Ultra，这款模型在性能上取得了显著突破，尤其是在与业界知名的DeepSeek R1进行对比时，展现出了强大的竞争力，而它的体积却仅为DeepSeek R1的一半。

Llama 3.1 Nemotron Ultra是基于Meta的较旧模型Llama-3.1-405B-Instruct进行优化的，但NVIDIA通过其独特的架构创新和针对性的后训练过程，使得这款新模型在多个第三方基准测试中取得了近乎顶尖的表现。这款拥有253亿参数的密集模型，旨在支持高级推理、指令遵循以及AI助理工作流程，它的出现无疑为LLM市场注入了新的活力。

NVIDIA在今年的GPU技术大会（GTC）上首次提及了Llama 3.1 Nemotron Ultra，而经过数月的精心打磨，这款模型终于在2025年4月7日晚正式对外发布。模型代码现已在Hugging Face平台上公开，包括开放的权重和后训练数据，供开发者下载和使用。Llama 3.1 Nemotron Ultra的设计兼顾了高效推理和性能优化，能够在“推理开启”和“推理关闭”两种模式下灵活切换，以满足不同复杂度的任务需求。

在架构层面，Llama 3.1 Nemotron Ultra通过神经架构搜索（NAS）过程进行了定制化设计，引入了诸如跳过注意力层、融合前馈网络（FFN）以及可变FFN压缩比等结构变化。这些创新极大地减少了模型的内存占用和计算需求，同时保持了高质量的输出，使得该模型能够在单个8x H100 GPU节点上高效部署。此外，它还支持NVIDIA的B100和Hopper微架构，并在BF16和FP8精度模式下进行了验证配置，进一步拓宽了其应用场景。

为了提升模型的推理和对齐能力，NVIDIA对基础模型进行了多阶段的后训练管道增强。这包括跨数学、代码生成、聊天和工具使用等领域的监督微调，以及采用群体相对策略优化（GRPO）的强化学习，以进一步提高指令遵循和推理性能。模型还经历了650亿标记的知识蒸馏阶段，并在额外的880亿标记上进行了持续预训练。训练数据集涵盖了FineWeb、Buzz-V1.2和Dolma等多种来源，确保了模型的广泛知识覆盖。

在性能评估方面，Llama 3.1 Nemotron Ultra在开启推理模式时展现出了显著的性能提升。例如，在MATH500基准测试中，其性能从标准模式下的80.40%跃升至97.00%；在AIME25基准测试中，性能也从16.67%大幅提升至72.50%。同时，在LiveCodeBench编码任务上的得分也实现了翻倍，从29.03%跃升至66.31%。此外，在基于工具的任务（如BFCL V2和功能组合）以及一般问题回答（GPQA）方面，该模型也展现出了卓越的性能。这些基准测试均在最大序列长度为32000标记的条件下进行，每个测试重复多达16次以确保准确性。

与拥有671亿参数的DeepSeek R1相比，Llama 3.1 Nemotron Ultra尽管参数数量不到其一半，但在多个任务上仍展现出了竞争力。例如，在GPQA任务中，Llama 3.1 Nemotron Ultra得分为76.01%，而DeepSeek R1为71.5%；在IFEval指令遵循任务中，前者得分为89.45%，后者为83.3%；在LiveCodeBench编码任务中，前者也略胜一筹（66.31% vs. 65.9%）。然而，DeepSeek R1在某些数学评估上，特别是AIME25上表现更佳（79.8 vs. 72.50%），并在MATH500上略有优势（97.3 vs. 97.00%）。这些结果表明，尽管Llama 3.1 Nemotron Ultra是一款密集模型，但它在推理和一般指令对齐任务上的表现匹敌甚至超过了基于混合专家（MoE）架构的竞品，仅在数学密集型任务上略有不足。

在使用和集成方面，Llama 3.1 Nemotron Ultra兼容Hugging Face Transformers库（建议使用版本4.48.3），并支持最长可达128000标记的输入和输出序列。开发者可以通过系统提示控制模型的推理行为，并根据任务需求选择合适的解码策略。对于推理任务，NVIDIA推荐使用温度采样（0.6）和顶部p值（0.95）。对于确定性输出，则更推荐使用贪婪解码。此外，该模型还支持多语言应用，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等，适用于聊天机器人开发、AI代理工作流程、检索增强生成（RAG）和代码生成等常见LLM用例。

在发布之际，NVIDIA还强调了负责任AI开发的重要性，并鼓励团队评估模型的对齐性、安全性和偏见特征，以确保其符合特定用例的要求。Llama 3.1 Nemotron Ultra在NVIDIA开源模型许可证下发布，并受Llama 3.1社区许可协议的管辖，现已准备好用于商业用途。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/nvidia-xin-tui-llama-3-1-nemotron-ultra-xing-neng-chao-yue

Like (0)

王浩然作者

0 0

2025年度产品50强奖项揭晓‌

Previous 2025年4月10日

威尔斯法戈AI助手实现2.45亿次无人工介入零敏感信息交互

Next 2025年4月10日

AI前沿

Meta 让企业能够创建嵌入广告的聊天机器人

在周三于门洛帕克举行的Meta Connect 2024 开发者大会上，Meta 宣布将利用点击消息广告将其人工智能商业聊天机器人扩展到 WhatsApp 和 Messenger …

王浩然
2024年9月29日
000
AI前沿

研究发现，由于效果不佳，Deepfakes 对 2024 年选举几乎没有影响

尽管互联网上越来越多地充斥着虚假图片，但我们至少可以相信人类在重要时刻嗅出谎言的能力。最近的大量研究表明，人工智能生成的虚假信息对今年全球选举没有产生任何实质性影响，因为它还不是很…

王浩然
2024年12月28日
000
AI前沿

AI 女友就是一个陷阱

作为对 GPT-4o 的回应，谷歌在 8 月发布了 Gemini Live，试图让 AI 助手可以像真人一样对话。这个新助手的对话效果是如此之好，以至于让外媒记者 Joanna S…

点点
2024年9月3日
000
AI前沿

Atlassian 的 Rovo AI 现已正式发布

六个月前， Atlassian首次展示了 Rovo。Rovo是该公司所谓的“AI 队友”，它将更智能的搜索和基于聊天的 AI 工具与代理相结合，可以帮助用户在 Jira 和 Con…

王浩然
2024年10月10日
000
AI前沿

人工智能初创公司 Humanoid 推出通用人形机器人

这家总部位于英国的公司预计今年将生产出一款具有轮式和双足平台的人形机器人的模块化 alpha 原型英国人工智能和机器人初创公司 Humanoid 在一段新视频中发布了其通用人形机…

王浩然
2025年2月21日
000
AI前沿

利用人工智能代理优化公司工作流程：神话还是现实？

一个问题随着越来越多的大公司投资人工智能代理，将其视为提高运营效率的未来，越来越多的怀疑论者也开始涌现。虽然人们对这些技术的潜力感到兴奋，但许多组织发现，现实往往与炒作的程度不符…

点点
2024年11月6日
000
AI前沿

OpenAI 发布新模型，Sam Altman：耐心时刻结束了

北京时间凌晨一点，OpenAI 突然进行了重大更新。已经预热了接近一年的 Q*/草莓项目，传说中能够进行高级推理的大语言模型，今晚终于露出了真面目。 OpenAI 发推…

点点
2024年9月13日
000
AI前沿

今年的智能手机不只具备人工智能

苹果周一发布了iPhone 16 系列，最大的卖点是 Apple Intelligence。苹果的设备内置 AI 系统提供了一些炫酷的功能，比如重写电子邮件、生成自定义表情符号以及…

王浩然
2024年9月14日
000
AI前沿

新的 LLM 优化技术可将内存成本降低高达 75%

东京初创公司 Sakana AI 的研究人员开发了一种新技术，使语言模型能够更有效地利用内存，帮助企业降低在大型语言模型 (LLM) 和其他基于 Transformer 的模型上构…

王浩然
2024年12月17日
000
AI前沿

利用 RAG 弥补人工智能领域的知识空白：提高性能的技术和策略

人工智能 (AI)彻底改变了我们与技术的互动方式，催生了虚拟助手、聊天机器人和其他能够处理复杂任务的自动化系统。尽管取得了这些进展，但即使是最先进的人工智能系统也面临着重大限制，即…

点点
2024年10月17日
000
AI前沿

DeepCoder-14B：以高效140亿参数模型展现顶级编码性能

在AI领域，一款新的编码模型正崭露头角，它就是DeepCoder-14B。这款模型由Together AI和Agentica的研究人员共同推出，其性能表现令人瞩目，与OpenAI的…

王浩然
5天前
000
AI前沿

为什么我的iPhone没有充电？

当您插入iPhone或将其放在无线充电器上为电池充电时，可是它还没有立即充电。发生了什么？很多事情都可能出错。让我们来看看一些最常见的iPhone充电问题，以及您可以做些什么。使…

free
2024年9月26日
000
AI前沿

GPT-4o：OpenAI推出原生图像生成功能，惊艳用户

引言‌ 自OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来，近一年的时间里，这款模型始终保持着强大的竞争力。而今，OpenAI再次为ChatGPT的Plu…

王浩然
2025年3月27日
000
AI前沿

Devin 2.0震撼发布：Cognition将AI软件工程师价格从每月500美元大幅降至20美元‌

在科技创新日新月异的今天，由知名风投机构Founders Fund支持的旧金山初创公司Cognition AI（亦称Cognition Labs），自2024年初凭借Devin——…

王浩然
2025年4月3日
000
AI前沿

Gemini 2.5 Pro 正式发布：无限制使用且价格更亲民

在人工智能领域，谷歌一直以其强大的技术实力和创新能力引领潮流。近日，谷歌宣布其最新研发的Gemini 2.5 Pro模型正式面向公众开放，并且以更加亲民的价格和无限制的使用条件，向…

王浩然
2025年4月6日
000
AI前沿

据报道，Telegram 被非法和极端主义活动“淹没”

《纽约时报》对来自 16,000 个频道的 320 多万条 Telegram 消息进行分析，发现该消息平台已被非法和极端主义活动“淹没”。具体来说，《纽约时报》发现了 1,500…

点点
2024年9月8日
010
AI前沿

ChatGPT 引用研究让出版商感到沮丧

随着越来越多的出版商与 ChatGPT 制造商 OpenAI达成内容许可协议，托尔数字新闻中心本周发布的一项研究——研究人工智能聊天机器人如何为出版商的内容生成引文（即来源）——变…

王浩然
2024年11月30日
000
AI前沿

加州否决人工智能法案可能会让规模较小的开发者和模型“蓬勃发展”

加州州长加文·纽瑟姆否决了 SB 1047法案，许多人认为该法案将改变加州乃至整个国家的人工智能发展格局。周日公布的否决结果可能会让人工智能公司有机会证明他们能够主动保护用户免受人…

大龄程序员
2024年10月3日
000
AI前沿

解读 OpenAI 的超级碗广告和 Sam Altman 的夸张博客文章

如果您是今年收看 NFL 超级碗 LIX 的近4000 万美国家庭之一，那么除了观看费城老鹰队击败堪萨斯城酋长队之外，您可能还会看到 OpenAI 的广告。这是该公司的首个超级碗…

王浩然
2025年2月11日
000
AI前沿

一款集多模态理解与生成于一体的单一 Transformer

大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作，例如 LLaVA、MiniGPT-4 和 InstructBLIP，展示…

点点
2024年10月12日
000

发表回复

Please Login to Comment

NVIDIA新推Llama 3.1 Nemotron Ultra，性能超越DeepSeek R1，体积仅其一半‌

相关推荐

发表回复

Share To :