Ai2 发布 Tülu 3，这是一个完全开源的模型，以新颖的后训练方法超越了 DeepSeek v3 和 GPT-4o

王浩然 • 2025年2月3日上午10:00 • AI前沿 • 58 views

开源模型竞赛变得越来越有趣。

今天，艾伦人工智能研究所 (Ai2)推出了其最新参赛作品，即开源 Tülu 3 4050 亿参数大型语言模型 (LLM)。新模型不仅与 OpenAI 的 GPT-4o 功能相匹配，而且在关键基准测试中超越了DeepSeek 的 v3模型。

这并不是 Ai2 第一次大胆宣称新模型。2024 年 11 月，该公司发布了Tülu 3的第一个版本，该版本有 80 亿和 700 亿个参数版本。当时，Ai2 声称该模型与 OpenAI、Anthropic 的 Claude 和谷歌的 Gemini 的最新 GPT-4 模型相当。最大的区别在于 Tülu 3 是开源的。Ai2 还在 2024 年 9 月声称其 Molmo 模型能够在某些基准测试中击败 GPT-4o 和 Claude。

虽然基准性能数据很有趣，但更有用的可能是支持新 Ai2 模型的训练创新。

将训练后的效果推向极限

Tülu 3 405B 的重大突破源于 2024 年首次发布的 Tülu 3 版本中出现的一项创新。该版本采用了多种先进的后训练技术来获得更好的性能。

借助 Tülu 3 405B 模型，这些后训练技术得到了进一步的提升，采用一种先进的后训练方法，该方法结合了监督微调、偏好学习和一种在更大规模上已被证明非常出色的新颖强化学习方法。

Ai2 自然语言处理研究高级总监 Hannaneh Hajishirzi 告诉 VentureBeat：“将 Tülu 3 的后训练方案应用于 Tülu 3-405B（我们迄今为止最大规模、完全开源的后训练模型）可通过提供开放的微调方案、数据和代码来创造公平的竞争环境，使开发人员和研究人员能够实现与顶级封闭模型相当的性能。”

利用 RLVR 推进开源 AI 后训练状态

其他模型（包括 DeepSeek v3）也进行后训练。

Tülu 3 与众不同的关键创新是 Ai2 的“可验证奖励强化学习”（RLVR）系统。

与传统训练方法不同，RLVR 使用可验证的结果（例如正确解决数学问题）来微调模型的性能。这种技术与直接偏好优化 (DPO) 和精心策划的训练数据相结合，使模型能够在复杂的推理任务中实现更高的准确性，同时保持强大的安全性。

RLVR 实施中的关键技术创新包括：

跨 256 个 GPU 实现高效并行处理
优化权重同步
32 个节点间均衡计算分布
集成 vLLM 部署，具有 16 路张量并行性

与较小的模型相比，RLVR 系统在 405B 参数规模上表现出更好的结果。该系统在安全评估中也表现出特别强劲的结果，优于 DeepSeek V3、Llama 3.1 和Nous Hermes 3。值得注意的是，RLVR 框架的有效性随着模型规模的增加而提高，这表明更大规模的实施可能会带来好处。

Tülu 3 405B 与 GPT-4o 和 DeepSeek v3 的比较

该模型的竞争定位在当前的人工智能领域尤为值得关注。

Tülu 3 405B 不仅与 GPT-4o 的能力相匹配，而且在某些方面也优于 DeepSeek v3，尤其是在安全基准方面。

Ai2 报告称，在包括安全基准在内的 10 项 AI 基准测试中，Tülu 3 405B RLVR 模型的平均得分为 80.7，超过了 DeepSeek V3 的 75.9。然而，Tülu 在 GPT-4o 上的表现并不那么出色，后者的得分为 81.6。总体而言，这些指标表明，Tülu 3 405B 在各项基准测试中至少与 GPT-4o 和 DeepSeek v3 极具竞争力。

开源 AI 为何如此重要以及 Ai2 如何以不同方式实现这一目标

然而，Tülu 3 405B 对用户来说的不同之处在于 Ai2 如何提供该模型。

人工智能市场上关于开源的议论纷纷。DeepSeek 表示其模型是开源的，Meta 的 Llama 3.1 也是开源的，Tülu 3 405B 的表现也优于后者。

DeepSeek 和 Llama 的模型均可免费使用；并且部分代码（但不是全部）可用。

例如，DeepSeek-R1 发布了模型代码和预训练权重，但没有发布训练数据。Ai2 则采取了不同的方式，力图更加开放。

“我们不利用任何封闭的数据集，”Hajishirzi 说。“与我们 2024 年 11 月首次发布的 Tülu 3 一样，我们将发布所有基础设施代码。”

她补充说，Ai2 的完全开放方法（包括数据、训练代码和模型）可确保用户轻松定制从数据选择到评估的所有流程。用户可以在 Ai2 的Tülu 3 页面上访问包括 Tülu 3-405B 在内的全套 Tülu 3 模型，也可以通过 Ai2 的 Playground演示空间测试 Tülu 3-405B 功能。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai2-fa-bu-t-lu-3-zhe-shi-yi-ge-wan-quan-kai-yuan-de-mo-xing

AI2 Claude DeepSeek v3 GPT-4o Llama 3.1 Nous Hermes 3

Like (0)

王浩然作者

0 0

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

Previous 2025年2月2日

Omnitron Sensors 的 MEMS 可以让自动驾驶汽车摆脱陀螺（同时降低成本）

Next 2025年2月3日

AI前沿

保卫陷入困境的 SOC：抵御对抗性 AI 攻击

77%的企业已成为对抗性 AI 攻击的受害者，而电子犯罪分子的突破时间仅用了2 分 7 秒，创下了历史记录。问题不在于您的安全运营中心 (SOC) 是否会成为攻击目标，而是何时成为…

王浩然
2024年12月10日
000
AI前沿

IT 领导者如何引领教育转型

如果教育的主要目标是让孩子们为未来做好准备，那么 IT 领导者将发挥比以往更加关键的作用。技术对每个行业的工作都产生了深远的影响，并为新领域开辟了广阔的新可能性，从 STEM 行业…

大龄程序员
2024年10月4日
000
AI前沿

SAP 集成 Databricks，通过新的业务数据云增强 AI 准备

德国软件巨头SAP正在推动数据方面的发展，以支持下一代 AI 用例。该公司今天推出了Business Data Cloud (BDC)，这是一款采用 Lakehouse 架构的新型…

王浩然
2025年2月14日
000
AI前沿

南加州大学计算机科学副教授 Sean Ren – 访谈系列

Sean Ren是南加州大学(USC)计算机科学副教授，也是 Andrew and Erna Viterbi 早期职业主席。他领导智能与知识发现 (INK) 研究实验室，并在USC…

点点
2024年10月22日
000
AI前沿

图形数据库军备竞赛：微软及其竞争对手如何彻底改变网络安全

随着民族国家和资金雄厚的网络犯罪攻击团伙试图利用数字资产防御的巨大漏洞，多域攻击即将成为一种数字流行病。企业不得不应对企业资产、应用程序、系统、数据、身份和终端之间不断扩大且往往未…

王浩然
2024年11月23日
000
AI前沿

Uber 正在组建一支零工队伍，为人工智能模型标记数据

Uber 正在扩大其零工劳动力队伍并创建一个新的类别：人工智能注释和数据标记。这家叫车公司已开始为一个名为 Scaled Solutions 的新 AI 和数据标签部门招聘合同工…

王浩然
2024年11月29日
000
AI前沿

马斯克、奥特曼等人的电子邮件揭露了 OpenAI 动荡的早期岁月

世界上最富有的人对有史以来发展最快的公司之一提起诉讼，这必然是一件有趣的事情。尽管这些指控尚未得到证实，但该案已经曝光了伊隆·马斯克、萨姆·奥特曼等人在 OpenAI 早期的一系列…

王浩然
2024年11月17日
000
AI前沿

量子媒体与娱乐营销总监 Skip Levens – 访谈系列

Skip Levens是 Quantum 的产品负责人和 AI 策略师，Quantum 是 AI 和非结构化数据数据管理解决方案领域的领导者。他目前负责推动 Quantum 端到端…

点点
2024年10月16日
000
AI前沿

乌克兰正在利用数百万小时的无人机镜头训练人工智能进行战争

正在进行的俄罗斯-乌克兰冲突可能是第一场真正的人工智能战争，双方都开始依赖小型无人机进行侦察、识别目标，甚至向敌方投掷致命炸弹。这种新型战争允许指挥官从安全距离勘察区域，并凸显了轻…

王浩然
2024年12月25日
000
AI前沿

Voyage AI 正在构建 RAG 工具，以减少 AI 产生幻觉

人工智能往往会编造事实。这对于几乎所有经常使用人工智能的人来说都是不具吸引力的，尤其是对于企业来说，错误的结果可能会损害企业的利润。在 Salesforce 最近的一项调查中，半数…

王浩然
2024年10月5日
000
AI前沿

谷歌地图正在获得由 Gemini 提供支持的全新 AI 功能

Google 地图即将推出由Google 的生成式 AI 模型Gemini提供支持的新功能。周四，该公司宣布即将推出更新，让美国的 Google 地图用户能够利用 AI 帮助他们找…

王浩然
2024年11月2日
000
AI前沿

当“聊天机器人”变成一个贬义词时：企业领导者对对话式人工智能的 3 个误解

随着 OpenAI 的 ChatGPT、Meta 的 Llama 和 Anthropic 的 Claude 等法学硕士课程的激增，各种场合都出现了聊天机器人。有提供职业建议的聊天机…

点点
2024年8月28日
000
AI前沿

OpenAI 的先进“草莓计划”模型终于问世

经过数月的猜测和期待，OpenAI 发布了其高级推理模型Project Strawberry的生产版本，并将其更名为“o1”。它还附带一个“迷你”版本（就像 GPT-4o 一样），…

王浩然
2024年9月15日
000
AI前沿

AWS 失去了一位顶级人工智能高管

上周，AWS 失去了一位顶级 AI 高管。人工智能副总裁 Matt Wood宣布，他将在 AWS 任职 15 年后离职。Wood 长期参与亚马逊部门的人工智能计划；他于 2022…

点点
2024年10月19日
000
AI前沿

Zencoder发布“咖啡模式”：一键让AI编写单元测试，引领未来编程潮流

在人工智能（AI）技术日新月异的今天，AI编程助手正逐渐成为软件开发领域不可或缺的一部分。近日，Zencoder公司推出了其革命性的“咖啡模式”功能，这一创新功能允许开发者一键启动…

王浩然
3天前
000
AI前沿

Vision Pro将在4月融入苹果智能技术

自2021年11月1日起，Yahoo服务在中国大陆地区已无法访问，但这并不妨碍我们关注全球科技领域的最新动态。近日，有消息称，苹果公司的Vision Pro将在4月迎来一次重大更新…

王浩然
2025年2月25日
000
AI前沿

随着中国模型缩小人工智能领导地位的差距，OpenAI 面临严峻考验

在快速发展的人工智能领域，竞争日趋激烈，在高级推理模型的争夺中，竞争尤为明显。仅在过去几天，来自中国开发商的三款新人工智能模型——Deepseek R1（HighFlyer Cap…

王浩然
2024年12月1日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

应对副驾驶的安全风险

越来越多的企业正在使用副驾驶和低代码平台，使员工（即使是那些技术专长很少或没有技术专长的员工）能够创建强大的副驾驶和业务应用程序，以及处理大量数据。 Zenity 的一份新报告《2…

点点
2024年9月25日
000
AI前沿

IBM 研究：大多数 CEO 担心人工智能的准确性和偏见

根据 IBM 商业价值研究院关于人工智能治理的最新调查，近一半的首席执行官担心人工智能的准确性和偏见。 IBM 商业价值研究院针对人工智能治理的最新调查还发现，21% 的高管表示其…

王浩然
2024年11月8日
000