NVIDIA新推Llama 3.1 Nemotron Ultra,性能超越DeepSeek R1,体积仅其一半‌

NVIDIA新推Llama 3.1 Nemotron Ultra,性能超越DeepSeek R1,体积仅其一半‌

在AI领域,大型语言模型(LLM)的竞争日益激烈,各大科技公司纷纷推出自己的旗舰产品,以期在这个充满挑战与机遇的市场中占据一席之地。近日,NVIDIA宣布推出其最新的LLM——Llama 3.1 Nemotron Ultra,这款模型在性能上取得了显著突破,尤其是在与业界知名的DeepSeek R1进行对比时,展现出了强大的竞争力,而它的体积却仅为DeepSeek R1的一半。

Llama 3.1 Nemotron Ultra是基于Meta的较旧模型Llama-3.1-405B-Instruct进行优化的,但NVIDIA通过其独特的架构创新和针对性的后训练过程,使得这款新模型在多个第三方基准测试中取得了近乎顶尖的表现。这款拥有253亿参数的密集模型,旨在支持高级推理、指令遵循以及AI助理工作流程,它的出现无疑为LLM市场注入了新的活力。

NVIDIA在今年的GPU技术大会(GTC)上首次提及了Llama 3.1 Nemotron Ultra,而经过数月的精心打磨,这款模型终于在2025年4月7日晚正式对外发布。模型代码现已在Hugging Face平台上公开,包括开放的权重和后训练数据,供开发者下载和使用。Llama 3.1 Nemotron Ultra的设计兼顾了高效推理和性能优化,能够在“推理开启”和“推理关闭”两种模式下灵活切换,以满足不同复杂度的任务需求。

在架构层面,Llama 3.1 Nemotron Ultra通过神经架构搜索(NAS)过程进行了定制化设计,引入了诸如跳过注意力层、融合前馈网络(FFN)以及可变FFN压缩比等结构变化。这些创新极大地减少了模型的内存占用和计算需求,同时保持了高质量的输出,使得该模型能够在单个8x H100 GPU节点上高效部署。此外,它还支持NVIDIA的B100和Hopper微架构,并在BF16和FP8精度模式下进行了验证配置,进一步拓宽了其应用场景。

为了提升模型的推理和对齐能力,NVIDIA对基础模型进行了多阶段的后训练管道增强。这包括跨数学、代码生成、聊天和工具使用等领域的监督微调,以及采用群体相对策略优化(GRPO)的强化学习,以进一步提高指令遵循和推理性能。模型还经历了650亿标记的知识蒸馏阶段,并在额外的880亿标记上进行了持续预训练。训练数据集涵盖了FineWeb、Buzz-V1.2和Dolma等多种来源,确保了模型的广泛知识覆盖。

性能评估方面,Llama 3.1 Nemotron Ultra在开启推理模式时展现出了显著的性能提升。例如,在MATH500基准测试中,其性能从标准模式下的80.40%跃升至97.00%;在AIME25基准测试中,性能也从16.67%大幅提升至72.50%。同时,在LiveCodeBench编码任务上的得分也实现了翻倍,从29.03%跃升至66.31%。此外,在基于工具的任务(如BFCL V2和功能组合)以及一般问题回答(GPQA)方面,该模型也展现出了卓越的性能。这些基准测试均在最大序列长度为32000标记的条件下进行,每个测试重复多达16次以确保准确性。

与拥有671亿参数的DeepSeek R1相比,Llama 3.1 Nemotron Ultra尽管参数数量不到其一半,但在多个任务上仍展现出了竞争力。例如,在GPQA任务中,Llama 3.1 Nemotron Ultra得分为76.01%,而DeepSeek R1为71.5%;在IFEval指令遵循任务中,前者得分为89.45%,后者为83.3%;在LiveCodeBench编码任务中,前者也略胜一筹(66.31% vs. 65.9%)。然而,DeepSeek R1在某些数学评估上,特别是AIME25上表现更佳(79.8 vs. 72.50%),并在MATH500上略有优势(97.3 vs. 97.00%)。这些结果表明,尽管Llama 3.1 Nemotron Ultra是一款密集模型,但它在推理和一般指令对齐任务上的表现匹敌甚至超过了基于混合专家(MoE)架构的竞品,仅在数学密集型任务上略有不足。

在使用和集成方面,Llama 3.1 Nemotron Ultra兼容Hugging Face Transformers库(建议使用版本4.48.3),并支持最长可达128000标记的输入和输出序列。开发者可以通过系统提示控制模型的推理行为,并根据任务需求选择合适的解码策略。对于推理任务,NVIDIA推荐使用温度采样(0.6)和顶部p值(0.95)。对于确定性输出,则更推荐使用贪婪解码。此外,该模型还支持多语言应用,包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等,适用于聊天机器人开发、AI代理工作流程、检索增强生成(RAG)和代码生成等常见LLM用例。

在发布之际,NVIDIA还强调了负责任AI开发的重要性,并鼓励团队评估模型的对齐性、安全性和偏见特征,以确保其符合特定用例的要求。Llama 3.1 Nemotron Ultra在NVIDIA开源模型许可证下发布,并受Llama 3.1社区许可协议的管辖,现已准备好用于商业用途。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/nvidia-xin-tui-llama-3-1-nemotron-ultra-xing-neng-chao-yue

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年4月10日
Next 2025年4月10日

相关推荐

发表回复

Please Login to Comment