Meta推出Llama 4系列模型，应对DeepSeek挑战‌

王浩然 • 4天前 • AI前沿 • 39 views

Meta公司近日正式发布了其最新的Llama 4系列模型，包括Scout和Maverick两款现可下载使用的模型，以及一款仍在训练中的2万亿参数巨型模型——Behemoth。这一系列模型的发布，标志着Meta在应对新兴AI竞争对手DeepSeek方面的重大举措。

自今年1月，中国AI初创公司DeepSeek发布其开源语言推理模型DeepSeek R1以来，AI领域便发生了巨大变化。DeepSeek R1以极低的训练成本超越了包括Meta在内的多家美国巨头公司的模型，给Meta带来了巨大的压力。DeepSeek R1的出色表现不仅迫使Meta重新评估其AI战略，还加速了Llama 4系列的研发进程。

Llama 4系列模型的最大特点之一是它们的多模态能力，即能够接收和生成文本、视频和图像（尽管音频未被提及）。此外，这些模型还拥有极长的上下文窗口，Llama 4 Maverick为100万个令牌，相当于约1500页文本，而Llama 4 Scout更是达到了1000万个令牌，即约15000页文本。这意味着用户可以在一次输入/输出交互中处理大量信息，这对于医学、科学、工程、数学和文学等领域尤为有用。

在技术层面，Llama 4系列模型采用了“混合专家（MoE）”架构，这是一种在OpenAI和Mistral等公司的早期模型中流行的技术。该技术将多个专注于不同任务、主题和媒体格式的小型模型（专家）组合成一个统一的大型模型。每个Llama 4模型都由128个不同的专家组成，这种设计提高了推理效率，降低了模型服务成本和延迟。例如，Llama 4 Maverick可以在单个Nvidia H100 DGX主机上运行，便于部署，也可以通过分布式推理实现最大效率。

Meta还为Llama 4系列模型设计了一种新的、更高效的、与模型大小无关的训练技术——MetaP。MetaP允许工程师在模型上调整超参数（如每层的学习率），并将这些参数应用于其他模型大小和类型的令牌，同时保持模型的预期行为。这一技术有望显著提高训练效率，尤其是在训练像Behemoth这样的大型模型时。

在性能方面，Llama 4系列模型表现出了强大的竞争力。根据Meta公布的数据，Llama 4 Behemoth在多个基准测试上超越了GPT-4.5、Gemini 2.0 Pro和Claude Sonnet 3.7等模型。同时，Llama 4 Maverick也在多模态推理基准测试上击败了GPT-4o和Gemini 2.0 Flash等模型，尽管在部分指标上仍落后于DeepSeek R1，但考虑到其参数规模较小，这一成绩已属不易。

除了技术上的创新，Meta还强调了模型的安全性和对齐性。公司推出了Llama Guard、Prompt Guard和CyberSecEval等工具，帮助开发者检测不安全的输入输出或对抗性提示，并实施了生成性进攻代理测试（GOAT）进行自动化红队测试。此外，Meta还声称Llama 4在“政治偏见”方面有了显著改善，旨在更公平地处理有争议的政治和社会话题。

总的来说，Meta的Llama 4系列模型在效率、开放性和高性能方面实现了良好的平衡，为开发者提供了灵活的选择。随着Scout和Maverick的公开发布以及Behemoth的即将问世，Llama生态系统有望为AI研究和应用带来新的活力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/meta-tui-chu-llama-4-xi-lie-mo-xing-ying-dui-deepseek-tiao

DeepSeek Llama 4 Meta MetaP 多模态安全性对齐性政治偏见混合专家架构

Like (0)

王浩然作者

0 0

思科警告：微调使大型语言模型成为威胁向量‌

Previous 4天前

Gensparks的Super Agent：通用人工智能代理竞赛中的新星‌

Next 4天前

AI前沿

人工智能人形机器人公司融资 3.5 亿美元

此轮融资由 B Capital 和 Capital Factory 联合领投，谷歌也参与其中人形机器人开发商 Apptronik 已筹集 3.5 亿美元，用于大规模开发和部署人…

王浩然
2025年2月19日
000
AI前沿

谷歌推出人工智能编码助手“Jules”，承诺自动修复错误并加快开发周期

谷歌周三发布了人工智能编码助手“ Jules ”，它可以在开发人员睡觉时自主修复软件错误并准备代码更改，这标志着该公司在核心编程任务自动化方面取得了重大进展。该实验性的人工智能代…

王浩然
2024年12月12日
000
AI前沿

谷歌开始在乌拉圭建设价值 8.5 亿美元的数据中心

新设施旨在提高人工智能能力、支持经济增长和实现可持续发展

点点
2024年9月5日
000
AI前沿

加州否决人工智能法案可能会让规模较小的开发者和模型“蓬勃发展”

加州州长加文·纽瑟姆否决了 SB 1047法案，许多人认为该法案将改变加州乃至整个国家的人工智能发展格局。周日公布的否决结果可能会让人工智能公司有机会证明他们能够主动保护用户免受人…

大龄程序员
2024年10月3日
000
AI前沿

谷歌依然限制Gemini回答政治问题的范围‌

在信息技术日新月异的今天，搜索引擎作为人们获取信息的重要渠道，其运作方式及内容呈现备受瞩目。近日，据相关报道，谷歌在对待政治问题的搜索回答上，依旧保持着谨慎的态度，对Gemini—…

王浩然
2025年3月5日
000
AI前沿

Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM

Zyphra Technologies是一家致力于开发多模式代理系统的公司，该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究，该公司刚刚发布了 Zyda-2，这…

王浩然
2024年10月19日
000
AI前沿

确保 OT 环境中 AI 的使用安全

随着拥有运营技术 (OT) 的组织开始采用 AI，安全性需要成为其战略的重中之重。AI 的集成大大拓宽了攻击面 — — 这一范围已经因 IT 和 OT 的融合而扩大。大多数 OT …

点点
2024年9月6日
000
AI前沿

价格定得好，国产Sora们躺着跑

国内AI视频赛道热，商业模式多元探索中。

点点
2024年8月21日
000
AI前沿

谷歌称其下一代人工智能代理最早要到 2025 年才会推出

谷歌最早要到明年才会推出Project Astra的技术。Project Astra 是谷歌为实现实时、多模式理解而开展的一项广泛努力，旨在构建人工智能应用程序和“代理”。谷歌首…

王浩然
2024年10月30日
000
AI前沿

机器狗利用人工智能爬楼梯、下山

Deep Robotics 正式推出了其新款机器狗 Lynx，这是一款全地形机器人，它使用轮子和腿的组合来在各种崎岖的地形上行驶。轮腿混合设计将轮子的速度和腿的灵活性结合起来，使…

王浩然
2024年12月2日
000
AI前沿

Fal.ai 是一家提供媒体生成 AI 模型的公司，从 a16z 和其他公司筹集了 2300 万美元

Fal.ai是一个专注于 AI 生成音频、视频和图像开发的平台，今天该公司透露，它已经从 Andreessen Horowitz (a16z)、Black Forest Labs联…

王浩然
2024年9月19日
000
AI前沿

DeepSeek V3 在 Mac Studio 上的惊人表现：每秒 20 个标记，OpenAI 的噩梦？

在人工智能领域，技术的飞速发展正不断推动着边界的拓展。最近，一款名为 DeepSeek V3 的深度学习模型在 Mac Studio 上的表现引发了广泛关注。据悉，DeepSeek…

王浩然
2025年3月25日
000
AI前沿

OpenAI 在 2025 年初大力宣传通用人工智能和超级智能

就像2024 年在纽约市结束的方式一样，2025 年人工智能新闻周期也以一声雷鸣般的响声开始。 OpenAI 联合创始人兼首席执行官 Sam Altman昨天 (1 月 5 日) …

王浩然
2025年1月7日
000
AI前沿

领导者对负责任的人工智能所需的治理水平存在分歧

领导者对于如何打造负责任的人工智能存在分歧，有两种观点，一种是治理主导，一种是实验优先，而监管机构则在寻找正确的平衡方面面临更大困难。这些见解是在上周的人工智能领袖论坛上…

王浩然
2024年12月10日
000
AI前沿

为什么 ChatGPT 的数学这么差？

如果你曾经尝试将 ChatGPT 用作计算器，你几乎肯定会注意到它的计算障碍：聊天机器人数学不好。在这方面，它并不是 AI 中独一无二的。 Anthropic 的Claude无法解…

王浩然
2024年10月3日
000
AI前沿

次二次系统：加速人工智能的效率和可持续性

人工智能 (AI)正在以惊人的速度改变着我们的世界，影响着医疗、金融和零售等行业。从在线推荐产品到诊断医疗状况，AI 无处不在。然而，效率问题日益严重，研究人员和开发人员正在努力解…

点点
2024年10月23日
000
AI前沿

创新机器学习利用变革性商业应用程序

机器学习 (ML) 正在彻底改变企业的运营方式，推动创新，并为各个行业带来新的可能性。通过利用大量数据和强大的算法，ML 使公司能够实现流程自动化、做出准确预测并发现隐藏的模式以优…

点点
2024年10月15日
000
AI前沿

为什么 DeepSeek 的新 AI 模型认为它是 ChatGPT

本周早些时候，资金雄厚的中国人工智能实验室 DeepSeek 发布了一款“开放”人工智能模型，该模型在热门基准测试中击败了许多竞争对手。该模型DeepSeek V3规模庞大但效率高…

王浩然
2024年12月29日
000
AI前沿

网站建设者 Squarespace 表示正在通过策划和品味来训练其人工智能工具

生成式人工智能工具能帮助人们建立更好的网站吗？还是只会让网络充斥着垃圾信息？Squarespace 最近推出了Design Intelligence，这是一款充满生成式人工智能工具…

王浩然
2024年10月8日
000
AI前沿

人工智能驱动的制造业和机器人创新技术揭晓

工业自动化开发商 Vention 宣布推出基于人工智能的增强功能以及用于先进制造和机器人技术的新产品

点点
2024年9月18日
000

发表回复

Please Login to Comment

Meta推出Llama 4系列模型，应对DeepSeek挑战‌

相关推荐

发表回复

Share To :