Ai2 发布新语言模型,与 Meta 的 Llama 竞争

Ai2 发布新语言模型,与 Meta 的 Llama 竞争

目前出现了一个新的 AI 模型家族,它是少数可以从头开始复制的模型之一。

周二,已故微软联合创始人保罗·艾伦 (Paul Allen) 创立的非营利性 AI 研究机构 Ai2 发布了 OLMo 2,这是其 OLMo 系列中的第二个模型系列。(OLMo 是“开放语言模型”的缩写。)虽然可供选择的“开放”语言模型有很多(例如 Meta 的Llama),但 OLMo 2 符合开放源代码倡议对开源 AI 的定义,这意味着用于开发它的工具和数据都是公开可用的。

开放源代码促进会 (Open Source Initiative) 是一家长期存在的机构 ,旨在定义和“管理”所有开源事物,该机构于 10 月最终确定了其开源 AI 定义。但2 月份发布的首批 OLMo 模型也符合标准。

AI2 在一篇博客文章中写道:“OLMo 2 的开发从头到尾都采用了开放且可访问的训练数据、开源训练代码、可重复的训练方案、透明的评估、中间检查点等。通过公开分享我们的数据、方案和发现,我们希望为开源社区提供发现新方法和创新方法所需的资源。”

OLMo 2 系列有两个模型:一个有 70 亿个参数(OLMo 7B),另一个有 130 亿个参数(OLMo 13B)。参数大致对应于模型解决问题的能力,参数较多的模型通常比参数较少的模型表现更好。

与大多数语言模型一样,OLMo 2 7B 和 13B 可以执行一系列基于文本的任务,例如回答问题、总结文档和编写代码。

为了训练模型,Ai2 使用了 5 万亿个 token 的数据集。token 代表原始数据位;100 万个 token 相当于约 75 万个单词。训练集包括“经过筛选的高质量”网站、学术论文、问答讨论板和“合成和人工生成的”数学练习册。

Ai2 声称,该结果是具有竞争力的模型,性能方面,具有像 Meta 的Llama 3.1版本这样的开放模型。

Ai2 发布新语言模型,与 Meta 的 Llama 竞争

Ai2 写道:“与之前的 OLMo 模型相比,我们不仅观察到所有任务的性能显著提升,而且值得注意的是,OLMo 2 7B 的表现优于 Llama 3.1 8B。”“OLMo 2 [代表] 迄今为止最好的完全开放语言模型。”

OLMo 2 模型及其所有组件均可从 Ai2网站下载。它们遵循 Apache 2.0 许可,这意味着它们可用于商业用途。

最近,关于开放模型的安全性存在一些争议,据报道,中国研究人员正在使用 Llama 模型开发防御工具。2 月份,当我问 Ai2 工程师 Dirk Groeneveld 是否担心 OLMo 被滥用时,他说他相信最终好处大于坏处。

“是的,开放模型可能会被不当使用或用于非预期目的,”他说。“[然而,这种]方法也促进了技术进步,从而产生更符合道德的模型;这是验证和可重复性的先决条件,因为这些只有通过访问全栈才能实现;并减少了日益集中的权力,创造了更公平的访问。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai2-fa-bu-xin-yu-yan-mo-xing-yu-meta-de-llama-jing-zheng

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年11月29日
Next 2024年11月29日

相关推荐

发表回复

Please Login to Comment