AI2 的新模型旨在实现开放、强大且具有成本效益

AI2 的新模型旨在实现开放、强大且具有成本效益

艾伦人工智能研究所(AI2)与Contextual AI合作发布了一个新的开源模型,希望能够满足对性能强大且具有成本效益的大型语言模型(LLM)的需求。 

新模型称为 OLMoE,它利用了稀疏混合专家 (MoE) 架构。它有 70 亿个参数,但每个输入标记仅使用 10 亿个参数。它有两个版本:OLMoE-1B-7B(更通用)和 OLMoE-1B-7B-Instruct(用于指令调整)。 

AI2 强调 OLMoE 是完全开源的,与其他专家混合模型不同。

AI2 在其论文中表示: “然而,大多数 MoE 模型都是闭源的:虽然有些模型已经公开发布了模型权重,但它们提供的有关训练数据、代码或配方的信息非常有限,甚至根本没有。” “缺乏开放资源和有关这些细节的发现,阻碍了该领域构建具有成本效益的开放式 MoE,以接近闭源前沿模型的能力。”

这使得许多学者和其他研究人员无法使用大多数 MoE 模型。 

AI2 研究科学家 Nathan Lambert 在 X(以前的 Twitter)上发帖称,OLMOE 将“帮助制定政策……这可以成为学术 H100 集群上线的一个起点。”

兰伯特补充说,这些模型是 AI2 目标的一部分,即打造性能与封闭模型一样出色的开源模型。 

“自从我们推出第一个 OLMo 模型以来,我们的组织或目标从未发生过任何改变。我们只是在慢慢完善我们的开源基础设施和数据。你也可以使用它。我们发布了一个真正的最先进的模型,而不仅仅是一个在一两次评估中表现最好的模型,”他说。 

OLMoE 是如何构建的

AI2 表示,在设计 OLMoE 时,它决定使用 64 位小专家的细粒度路由,并且每次只激活 8 位。实验表明,该模型的表现与其他模型一样好,但推理成本和内存存储明显更低。  

OLMOE 以 AI2之前的开源模型 OLMO 1.7-7B为基础,该模型支持 4,096 个标记的上下文窗口,包括为 OLMO 开发的训练数据集 Dolma 1.7 AI2。OLMoE 使用来自 DCLM 和 Dolma 的混合数据进行训练,其中包括 Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia 等的筛选子集。 

AI2 表示,OLMoE“优于所有具有类似活动参数的现有模型,甚至超越了 Llama2-13B-Chat 和 DeepSeekMoE-16B 等更大的模型。”在基准测试中,OLMoE-1B-7B 的表现通常接近其他具有 7B 参数的模型,甚至更多,如 Mistral-7B、Llama 3.1-B 和 Gemma 2。然而,在针对具有 1B 参数的模型的基准测试中,OLMoE-1B-7B 击败了其他开源模型,如 Pythia、TinyLlama 甚至 AI2 的 OLMO。 

AI2 的新模型旨在实现开放、强大且具有成本效益

开放资源组合专家

AI2 的目标之一是向研究人员提供更多完全开源的 AI 模型,包括 MoE,它正迅速成为开发人员中流行的模型架构。 

许多 AI 模型开发人员一直在使用 MoE 架构来构建模型。例如,Mistral 的 Mixtral 8x22B使用了稀疏 MoE 系统。X.ai 的 AI 模型 Grok也使用了相同的系统,而有关GPT4 也利用 MoE的传言一直存在。  

但 AI2 和 Contextual AI 坚持认为,其他许多 AI 模型并未提供完全开放性,并且不提供有关训练数据或源代码的信息。 

该公司表示:“尽管 MoE 需要更高的开放性,但它们仍为 LM 添加了复杂的新设计问题,例如要使用多少个总参数与活动参数,如果需要共享专家,是使用许多小型专家还是少数大型专家,以及使用什么路由算法等,但这种情况仍然发生了。” 

开放源代码倡议( Open Source Initiative ) 负责定义什么是开源并加以推广,目前它已开始探讨开源对人工智能模型的意义。 

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai2-de-xin-mo-xing-zhi-zai-shi-xian-kai-fang-qiang-da-qie

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年9月17日 下午4:00
Next 2024年9月17日 下午6:00

相关推荐

发表回复

Please Login to Comment