ServiceNow 开源 Fast-LLM,旨在帮助企业以 20% 的速度训练 AI 模型

ServiceNow 开源 Fast-LLM,旨在帮助企业以 20% 的速度训练 AI 模型

训练大型语言模型 (LLM) 是企业最昂贵且最耗时的练习之一。ServiceNow 今天发布的新开源模型可能会带来巨大的改变,有望将训练速度提高 20%,从而为企业节省时间和金钱。

Fast-LLM 技术已在公司内部开发,帮助 ServiceNow 加速其自身的 LLM 培训工作。Fast-LLM 帮助培训了 ServiceNow于今年早些时候发布的StarCoder 2 LLM。StarCoder本身也是一个开源项目,它受益于 Hugging Face、Nvidia 和其他公司的贡献。ServiceNow 还使用 Fast-LLM 从现有模型中进行大规模、万亿令牌的持续预训练,以及微调作业。

由于它是一项开源技术,任何人都可以使用 Fast-LLM 来帮助加速 AI 训练,包括微调操作。其目的是让它可以作为现有 AI 训练管道的替​​代品,只需进行最少的配置更改。这个新的开源项目旨在通过一系列数据并行和内存管理创新,与包括开源 PyTorch在内的常用 AI 训练框架区分开来。

ServiceNow 研究副总裁 Nicolas Chapados说:“当你处理价值数亿美元的计算集群和耗资数百万美元的训练运行时,20% 可以在金钱、时间以及总体二氧化碳排放量方面节省大量成本。”

使 Fast-LLM 能够加速 AI 训练的创新

人工智能行业非常了解更有效地训练人工智能的挑战。有一个小组专门讨论这个问题,详细介绍了扩展基础设施的选项。

Fast-LLM 方法不是关于扩展基础设施;而是关于优化现有培训资源的效率。

Chapados 解释说:“我们仔细研究了训练大型语言模型所需的所有操作,尤其是基于 Transformer 的大型语言模型。我们仔细优化了将计算分配到 GPU 中各个核心的方式,以及模型本身使用内存的方式。”

Fast-LLM 的竞争优势源于两项主要创新,这两项创新有助于使其脱颖而出。第一个是 Fast-LLM 的计算排序方法,它定义了 AI 训练运行中计算发生的顺序。Chapados 解释说,Fast-LLM 使用了一种新技术,ServiceNow 称之为“广度优先管道并行”。

Chapados 表示:“这是围绕计算调度方式的根本科学创新,包括单个 GPU 内部和多个 GPU 之间的调度。”

第二项重大创新涉及内存管理。在大型训练操作中,内存会随着时间的推移而碎片化。这意味着随着训练的进行,内存会随着时间的推移而破碎成碎片。碎片化会导致内存效率低下,从而阻止训练集群正确使用所有可用内存。

Chapados 表示:“我们在设计 Fast LLM 时非常谨慎,几乎完全消除了训练大型语言模型时出现的内存碎片问题。”

企业如何使用 Fast-LLM 来加速培训 

Fast-LLM 框架旨在保持企业级功能的同时提高可访问性。它可以作为 PyTorch 环境的替代品,并与现有的分布式训练设置集成。 

“对于任何模型开发人员或研究人员来说,它只是一个简单的配置文件,可让您指定所有重要的架构细节,”Chapados 说。

更快地运行训练操作具有多种好处,可以让企业进行更多实验。

“它降低了大规模训练的风险,”Chapados 说。“它让用户、研究人员和模型构建者更有雄心去进行更大规模的训练,因为他们不再担心成本太高了。”

展望未来,我们期望 Fast-LLM 作为一个开源项目能够更快地扩展,并受益于外部贡献。ServiceNow 已经通过 StarCoder 成功采用了这种方法。

“我们的目标是在使用这个框架方面非常透明,并对社区的贡献做出回应,”Chapados 说。“我们仍在收集早期反馈,了解人们喜欢什么,他们能用它做什么,我们的目标是真正扩大这个框架的规模。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/servicenow-kai-yuan-fastllm-zhi-zai-bang-zhu-qi-ye-yi-20-de

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年12月11日
Next 2024年12月12日

相关推荐

发表回复

Please Login to Comment