AI2 的新模型旨在实现开放、强大且具有成本效益

王浩然 • 2024年9月17日下午5:00 • AI前沿 • 115 views

艾伦人工智能研究所（AI2）与Contextual AI合作发布了一个新的开源模型，希望能够满足对性能强大且具有成本效益的大型语言模型（LLM）的需求。

新模型称为 OLMoE，它利用了稀疏混合专家 (MoE) 架构。它有 70 亿个参数，但每个输入标记仅使用 10 亿个参数。它有两个版本：OLMoE-1B-7B（更通用）和 OLMoE-1B-7B-Instruct（用于指令调整）。

AI2 强调 OLMoE 是完全开源的，与其他专家混合模型不同。

AI2 在其论文中表示： “然而，大多数 MoE 模型都是闭源的：虽然有些模型已经公开发布了模型权重，但它们提供的有关训练数据、代码或配方的信息非常有限，甚至根本没有。” “缺乏开放资源和有关这些细节的发现，阻碍了该领域构建具有成本效益的开放式 MoE，以接近闭源前沿模型的能力。”

这使得许多学者和其他研究人员无法使用大多数 MoE 模型。

AI2 研究科学家 Nathan Lambert 在 X（以前的 Twitter）上发帖称，OLMOE 将“帮助制定政策……这可以成为学术 H100 集群上线的一个起点。”

兰伯特补充说，这些模型是 AI2 目标的一部分，即打造性能与封闭模型一样出色的开源模型。

“自从我们推出第一个 OLMo 模型以来，我们的组织或目标从未发生过任何改变。我们只是在慢慢完善我们的开源基础设施和数据。你也可以使用它。我们发布了一个真正的最先进的模型，而不仅仅是一个在一两次评估中表现最好的模型，”他说。

OLMoE 是如何构建的

AI2 表示，在设计 OLMoE 时，它决定使用 64 位小专家的细粒度路由，并且每次只激活 8 位。实验表明，该模型的表现与其他模型一样好，但推理成本和内存存储明显更低。

OLMOE 以 AI2之前的开源模型 OLMO 1.7-7B为基础，该模型支持 4,096 个标记的上下文窗口，包括为 OLMO 开发的训练数据集 Dolma 1.7 AI2。OLMoE 使用来自 DCLM 和 Dolma 的混合数据进行训练，其中包括 Common Crawl、Dolma CC、Refined Web、StarCoder、C4、Stack Exchange、OpenWebMath、Project Gutenberg、Wikipedia 等的筛选子集。

AI2 表示，OLMoE“优于所有具有类似活动参数的现有模型，甚至超越了 Llama2-13B-Chat 和 DeepSeekMoE-16B 等更大的模型。”在基准测试中，OLMoE-1B-7B 的表现通常接近其他具有 7B 参数的模型，甚至更多，如 Mistral-7B、Llama 3.1-B 和 Gemma 2。然而，在针对具有 1B 参数的模型的基准测试中，OLMoE-1B-7B 击败了其他开源模型，如 Pythia、TinyLlama 甚至 AI2 的 OLMO。

开放资源组合专家

AI2 的目标之一是向研究人员提供更多完全开源的 AI 模型，包括 MoE，它正迅速成为开发人员中流行的模型架构。

许多 AI 模型开发人员一直在使用 MoE 架构来构建模型。例如，Mistral 的 Mixtral 8x22B使用了稀疏 MoE 系统。X.ai 的 AI 模型 Grok也使用了相同的系统，而有关GPT4 也利用 MoE的传言一直存在。

但 AI2 和 Contextual AI 坚持认为，其他许多 AI 模型并未提供完全开放性，并且不提供有关训练数据或源代码的信息。

该公司表示：“尽管 MoE 需要更高的开放性，但它们仍为 LM 添加了复杂的新设计问题，例如要使用多少个总参数与活动参数，如果需要共享专家，是使用许多小型专家还是少数大型专家，以及使用什么路由算法等，但这种情况仍然发生了。”

开放源代码倡议( Open Source Initiative ) 负责定义什么是开源并加以推广，目前它已开始探讨开源对人工智能模型的意义。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai2-de-xin-mo-xing-zhi-zai-shi-xian-kai-fang-qiang-da-qie

AI AI2 Grok LLM MoE OLMOE Twitter

Like (0)

王浩然作者

0 0

Oracle 数据库已应用于许多企业，现在也应用于 Google Cloud

Previous 2024年9月17日下午4:00

LightEval：Hugging Face 针对 AI 问责问题的开源解决方案

Next 2024年9月17日下午6:00

AI前沿

LinkedIn 已停止为人工智能获取英国用户数据

英国数据保护监管机构已确认，微软旗下的LinkedIn暂时停止处理用于 AI 模型训练的用户数据。信息专员办公室监管风险执行董事斯蒂芬·阿尔蒙德 (Stephen Almond)…

王浩然
2024年9月21日
000
AI前沿

OpenAI 的 o1 模型没有展现其思维，这让开源获得了优势

OpenAI 凭借其o1 模型开创了大型语言模型 (LLM) 的新推理范式，该模型最近进行了重大升级。然而，尽管 OpenAI 在推理模型方面遥遥领先，但它可能会落后于迅速崛起的开…

王浩然
2024年12月11日
000
AI前沿

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。微软今天发布了一项服务，名为 Correction，旨在自动…

王浩然
2024年9月25日
000
AI前沿

Matt Mullenweg 称 WP Engine 是“WordPress 的毒瘤”，并敦促社区更换提供商

Automattic 首席执行官兼 WordPress 联合创始人马特·穆伦维格 (Matt Mullenweg)本周对竞争对手发起了严厉批评，称WP Engine是“WordPr…

点点
2024年9月23日
000
AI前沿

ConverzAI 获 1600 万美元融资，为企业带来 30% 效率提升

总部位于华盛顿州雷德蒙德的初创公司ConverzAI是一家人工智能招聘自动化提供商，该公司在A 轮融资中筹集了 1600 万美元，以帮助其推动产品创新并扩大市场范围。此轮融资由 …

王浩然
2025年2月12日
000
AI前沿

埃隆·马斯克 xAI 推出 Grok 3 以挑战竞争对手

马斯克称之为“可怕的智能”的人工智能聊天机器人进入市场，与 OpenAI 和 DeepSeek 直接竞争埃隆·马斯克的人工智能初创公司 xAI 推出了 Grok 3，这是一款新型…

王浩然
2025年2月19日
000
AI前沿

OpenAI推出全新工具套件，助力企业高效构建AI代理

在人工智能（AI）技术日新月异的今天，OpenAI再次走在行业前沿，为帮助企业更好地利用AI技术，推出了全新的工具套件。这一工具套件旨在简化AI代理的构建过程，使更多企业能够轻松驾…

王浩然
2025年3月13日
000
AI前沿

OpenAI 的 o1-preview 和 o1-mini 模型对开发人员意味着什么

OpenAI 昨天下午震惊世界，它发布的不是传闻中的“Strawberry”，也不是 GPT-5，而是一个名为 o1 的全新“推理”大型语言模型 (LLM) 系列，旨在为与科学、技…

王浩然
2024年9月15日
000
AI前沿

倾听技术用户的声音——他们引领了历史上最具颠覆性的创新

1971 年，现代互联网的前身高级研究计划局网络 (ARPANET) 拥有约 1,000 名用户。@ 符号当时还不为人所知。后来，工程师雷·汤姆林森 (Ray Tomlinson …

王浩然
2025年1月12日
000
AI前沿

OpenAI 扩展 Realtime API，提供新声音，并为开发人员降低价格

OpenAI今天更新了其 Realtime API，目前处于测试阶段。此更新为其平台添加了用于语音转语音应用程序的新声音，并降低了与缓存提示相关的成本。 Realtime API…

王浩然
2024年10月31日
000
AI前沿

AI的生态进化：模应一体的终结与新商业逻辑的诞生

9 月 4 日，文心一言大模型的移动端应用发布了 4.0.0 版本，最大的改动是 App 名字从“文心一言”改名为“文小言”；同一天，支付宝旗下 AI 应用“支小宝”最新版本也正式…

点点
2024年9月7日
000
AI前沿

OpenAI 警告加州的人工智能法案威胁美国创新

OpenAI加入了越来越多的科技领袖和政客的行列，反对加州一项有争议的人工智能安全法案。该公司认为，这项名为SB 1047 的法案会扼杀创新，监管应该在联邦层面进行。 OpenAI…

AI News
2024年8月29日
000
AI前沿

Artem Rodichev Ex-human 首席执行官兼创始人 – 访谈系列

Artem Rodichev 是Ex-human的创始人兼首席执行官，该公司专注于打造富有同理心的 AI 角色，以进行有趣的对话。在创立 Ex-human 之前，Artem 曾于 …

点点
2024年11月5日
000
AI前沿

加密货币骗子入侵 OpenAI 在 X 上的新闻账号

OpenAI 在 X 上的官方新闻账号似乎也遭到了加密货币骗子的攻击，前几个月攻击该公司领导层的账号的也是同样的情况。周一下午晚些时候，OpenAI Newsroom（OpenA…

王浩然
2024年9月25日
000
AI前沿

OpenAI 将 o1 AI 模型扩展到企业和教育领域，与Anthropic直接竞争

发布 o1 AI 模型后，OpenAI 引入了「Self-Play」训练方法，让模型与自身不同版本进行对话和推理。为了提升用户体验，OpenAI 又于近日重磅推出了o1-previ…

点点
2024年9月22日
000
AI前沿

AWS 为 Bedrock 带来多代理编排功能

AWS宣布在其 Amazon Bedrock 平台上推出多代理功能，加倍加大对 AI 代理的投入。 AWS 首席执行官马特·加曼 (Matt Garman) 在 AWS re:I…

王浩然
2024年12月4日
000
AI前沿

人工智能监管的未来尚不确定：您的下一步行动是什么？

人工智能监管一直是一个热门话题。但随着即将上任的美国政府准备拆除人工智能护栏，监管也成为一个大问号。对于本已复杂的合规环境来说，这更加复杂，也更加不稳定。AI Impact Tou…

王浩然
2024年12月13日
000
AI前沿

百度限制谷歌和必应抓取内容用于人工智能训练

中国互联网搜索提供商百度已更新其类似维基百科的百科服务，以防止谷歌和微软必应抓取其内容。在百度百科 robots.txt 文件的最新更新中观察到了这一变化，该文件拒绝 Googl…

AI News
2024年8月31日
000
AI前沿

OpenAI 可能以令人惊讶的方式摆脱与微软的协议

《纽约时报》周四发表了一篇文章，探讨了 OpenAI 与其投资者、合作伙伴兼竞争对手微软之间“紧张”的关系。报道称，由于 OpenAI 面临的财务压力、微软为 OpenAI 提供的…

王浩然
2024年10月19日
000
AI前沿

人工智能治理差距：95% 的公司尚未实施框架

强有力的治理对于减轻人工智能风险和维护负责任的系统至关重要，但大多数公司尚未实施框架。该报告由Prove AI委托Zogby Analytics进行，调查了来自美国、英国和德国大…

点点
2024年10月18日
000

发表回复

Please Login to Comment

AI2 的新模型旨在实现开放、强大且具有成本效益

OLMoE 是如何构建的

开放资源组合专家

相关推荐

发表回复

Share To :