Meta推出Llama 4系列模型,应对DeepSeek挑战‌

Meta推出Llama 4系列模型,应对DeepSeek挑战‌

Meta公司近日正式发布了其最新的Llama 4系列模型,包括Scout和Maverick两款现可下载使用的模型,以及一款仍在训练中的2万亿参数巨型模型——Behemoth。这一系列模型的发布,标志着Meta在应对新兴AI竞争对手DeepSeek方面的重大举措。

自今年1月,中国AI初创公司DeepSeek发布其开源语言推理模型DeepSeek R1以来,AI领域便发生了巨大变化。DeepSeek R1以极低的训练成本超越了包括Meta在内的多家美国巨头公司的模型,给Meta带来了巨大的压力。DeepSeek R1的出色表现不仅迫使Meta重新评估其AI战略,还加速了Llama 4系列的研发进程。

Llama 4系列模型的最大特点之一是它们的多模态能力,即能够接收和生成文本、视频和图像(尽管音频未被提及)。此外,这些模型还拥有极长的上下文窗口,Llama 4 Maverick为100万个令牌,相当于约1500页文本,而Llama 4 Scout更是达到了1000万个令牌,即约15000页文本。这意味着用户可以在一次输入/输出交互中处理大量信息,这对于医学、科学、工程、数学和文学等领域尤为有用。

在技术层面,Llama 4系列模型采用了“混合专家(MoE)”架构,这是一种在OpenAI和Mistral等公司的早期模型中流行的技术。该技术将多个专注于不同任务、主题和媒体格式的小型模型(专家)组合成一个统一的大型模型。每个Llama 4模型都由128个不同的专家组成,这种设计提高了推理效率,降低了模型服务成本和延迟。例如,Llama 4 Maverick可以在单个Nvidia H100 DGX主机上运行,便于部署,也可以通过分布式推理实现最大效率。

Meta还为Llama 4系列模型设计了一种新的、更高效的、与模型大小无关的训练技术——MetaP。MetaP允许工程师在模型上调整超参数(如每层的学习率),并将这些参数应用于其他模型大小和类型的令牌,同时保持模型的预期行为。这一技术有望显著提高训练效率,尤其是在训练像Behemoth这样的大型模型时。

在性能方面,Llama 4系列模型表现出了强大的竞争力。根据Meta公布的数据,Llama 4 Behemoth在多个基准测试上超越了GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7等模型。同时,Llama 4 Maverick也在多模态推理基准测试上击败了GPT-4o和Gemini 2.0 Flash等模型,尽管在部分指标上仍落后于DeepSeek R1,但考虑到其参数规模较小,这一成绩已属不易。

除了技术上的创新,Meta还强调了模型的安全性对齐性。公司推出了Llama Guard、Prompt Guard和CyberSecEval等工具,帮助开发者检测不安全的输入输出或对抗性提示,并实施了生成性进攻代理测试(GOAT)进行自动化红队测试。此外,Meta还声称Llama 4在“政治偏见”方面有了显著改善,旨在更公平地处理有争议的政治和社会话题。

总的来说,Meta的Llama 4系列模型在效率、开放性和高性能方面实现了良好的平衡,为开发者提供了灵活的选择。随着Scout和Maverick的公开发布以及Behemoth的即将问世,Llama生态系统有望为AI研究和应用带来新的活力。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/meta-tui-chu-llama-4-xi-lie-mo-xing-ying-dui-deepseek-tiao

Like (0)
王 浩然的头像王 浩然作者
Previous 4天前
Next 4天前

相关推荐

发表回复

Please Login to Comment