
开源模型竞赛变得越来越有趣。
今天,艾伦人工智能研究所 (Ai2)推出了其最新参赛作品,即开源 Tülu 3 4050 亿参数大型语言模型 (LLM)。新模型不仅与 OpenAI 的 GPT-4o 功能相匹配,而且在关键基准测试中超越了DeepSeek 的 v3模型。
这并不是 Ai2 第一次大胆宣称新模型。2024 年 11 月,该公司发布了Tülu 3的第一个版本,该版本有 80 亿和 700 亿个参数版本。当时,Ai2 声称该模型与 OpenAI、Anthropic 的 Claude 和谷歌的 Gemini 的最新 GPT-4 模型相当。最大的区别在于 Tülu 3 是开源的。Ai2 还在 2024 年 9 月声称其 Molmo 模型能够在某些基准测试中击败 GPT-4o 和 Claude。
虽然基准性能数据很有趣,但更有用的可能是支持新 Ai2 模型的训练创新。
将训练后的效果推向极限
Tülu 3 405B 的重大突破源于 2024 年首次发布的 Tülu 3 版本中出现的一项创新。该版本采用了多种先进的后训练技术来获得更好的性能。
借助 Tülu 3 405B 模型,这些后训练技术得到了进一步的提升,采用一种先进的后训练方法,该方法结合了监督微调、偏好学习和一种在更大规模上已被证明非常出色的新颖强化学习方法。
Ai2 自然语言处理研究高级总监 Hannaneh Hajishirzi 告诉 VentureBeat:“将 Tülu 3 的后训练方案应用于 Tülu 3-405B(我们迄今为止最大规模、完全开源的后训练模型)可通过提供开放的微调方案、数据和代码来创造公平的竞争环境,使开发人员和研究人员能够实现与顶级封闭模型相当的性能。”
利用 RLVR 推进开源 AI 后训练状态
其他模型(包括 DeepSeek v3)也进行后训练。
Tülu 3 与众不同的关键创新是 Ai2 的“可验证奖励强化学习”(RLVR)系统。
与传统训练方法不同,RLVR 使用可验证的结果(例如正确解决数学问题)来微调模型的性能。这种技术与直接偏好优化 (DPO) 和精心策划的训练数据相结合,使模型能够在复杂的推理任务中实现更高的准确性,同时保持强大的安全性。
RLVR 实施中的关键技术创新包括:
- 跨 256 个 GPU 实现高效并行处理
- 优化权重同步
- 32 个节点间均衡计算分布
- 集成 vLLM 部署,具有 16 路张量并行性
与较小的模型相比,RLVR 系统在 405B 参数规模上表现出更好的结果。该系统在安全评估中也表现出特别强劲的结果,优于 DeepSeek V3、Llama 3.1 和Nous Hermes 3。值得注意的是,RLVR 框架的有效性随着模型规模的增加而提高,这表明更大规模的实施可能会带来好处。
Tülu 3 405B 与 GPT-4o 和 DeepSeek v3 的比较
该模型的竞争定位在当前的人工智能领域尤为值得关注。
Tülu 3 405B 不仅与 GPT-4o 的能力相匹配,而且在某些方面也优于 DeepSeek v3,尤其是在安全基准方面。
Ai2 报告称,在包括安全基准在内的 10 项 AI 基准测试中,Tülu 3 405B RLVR 模型的平均得分为 80.7,超过了 DeepSeek V3 的 75.9。然而,Tülu 在 GPT-4o 上的表现并不那么出色,后者的得分为 81.6。总体而言,这些指标表明,Tülu 3 405B 在各项基准测试中至少与 GPT-4o 和 DeepSeek v3 极具竞争力。

开源 AI 为何如此重要以及 Ai2 如何以不同方式实现这一目标
然而,Tülu 3 405B 对用户来说的不同之处在于 Ai2 如何提供该模型。
人工智能市场上关于开源的议论纷纷。DeepSeek 表示其模型是开源的,Meta 的 Llama 3.1 也是开源的,Tülu 3 405B 的表现也优于后者。
DeepSeek 和 Llama 的模型均可免费使用;并且部分代码(但不是全部)可用。
例如,DeepSeek-R1 发布了模型代码和预训练权重,但没有发布训练数据。Ai2 则采取了不同的方式,力图更加开放。
“我们不利用任何封闭的数据集,”Hajishirzi 说。“与我们 2024 年 11 月首次发布的 Tülu 3 一样,我们将发布所有基础设施代码。”
她补充说,Ai2 的完全开放方法(包括数据、训练代码和模型)可确保用户轻松定制从数据选择到评估的所有流程。用户可以在 Ai2 的Tülu 3 页面上访问包括 Tülu 3-405B 在内的全套 Tülu 3 模型,也可以通过 Ai2 的 Playground演示空间测试 Tülu 3-405B 功能。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai2-fa-bu-t-lu-3-zhe-shi-yi-ge-wan-quan-kai-yuan-de-mo-xing