Zyphra Technologies是一家致力于开发多模式代理系统的公司,该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究,该公司刚刚发布了 Zyda-2,这是一个包含 5 万亿个标记的开放预训练数据集。
虽然 Zyda-2 比其前身大五倍,涵盖的主题范围也很广,但真正让它与众不同的是其独特的构成。与 Hugging Face 上提供的许多开放数据集不同,Zyda-2 经过提炼,保留了现有顶级数据集的优势,同时消除了它们的弱点。
这为组织提供了一种方法来训练语言模型,即使在给定参数预算下跨边缘和消费设备运行时也能表现出较高的准确率。该公司使用此数据集训练了其 Zamba2 小型语言模型,发现它的表现明显优于使用其他最先进的开源语言建模数据集。
此举是在原始 Zyda 数据集发布几个月后进行的,该数据集涵盖了广泛的主题和领域,以确保训练竞争性语言模型所需的多样性和质量。
Zyda-2 带来了什么?
今年早些时候,作为构建能够以低成本自动执行一系列任务的强大小型模型的努力的一部分,Zyphra 超越了模型架构研究,开始通过结合最佳的许可开放数据集(通常被社区公认为高质量)构建自定义预训练数据集。
这项工作的第一个版本Zyda 拥有 1.3 万亿个令牌,于 6 月首次亮相,是现有优质开放数据集(特别是 RefinedWeb、Starcoder C4、Pile、Slimpajama、pe2so 和 arxiv)的过滤和重复数据删除的混合体。
当时,Zyda 的表现优于其所基于的数据集,为企业提供了强大的培训选择。但是,1.3 万亿个令牌永远不够。该公司需要扩大规模并提高性能基准,这促使它建立了一条新的数据处理管道并开发了 Zyda-2。
Zyphra 的核心是建立在 Zyda-1 之上,并使用DCLM、FineWeb-Edu和Dolma v1.7的 Common-Crawl 部分的开源令牌对其进行了进一步改进。Zyda 的原始版本是使用公司自己的基于 CPU 的处理管道创建的,但对于最新版本,他们使用了Nvidia 的 NeMo Curator,这是一个 GPU 加速的数据管理库。这帮助他们将总拥有成本降低了 2 倍,并将数据处理速度提高了 10 倍,从三周缩短到两天。
“我们在所有数据集之间进行了交叉去重。我们相信这会提高每个 token 的质量,因为它会从数据集中删除重复的文档。在此之后,我们使用 NeMo Curator 的质量分类器对 Zyda-1 和 Dolma-CC 进行了基于模型的质量过滤,仅保留这些数据集中的‘高质量’子集,”Zpyphra 在一篇博客文章中写道。
这项工作以 Zyda-2 的形式创建了一个完美的数据集集合,从而提高了模型性能。正如 Nvidia 在另一篇开发者博客文章中指出的那样,新数据集将管道中使用的其他数据集的最佳元素与许多高质量的教育样本相结合,以进行逻辑推理和事实知识。同时,Zyda-1 组件提供了更多的多样性和多样性,并且在更多的语言和写作任务中表现出色。
提炼数据集可提高模型性能
在一项消融研究中,使用 Zyda-2 训练 Zamba2-2.7B 在包括 MMLU、Hellaswag、Piqa、Winogrande、Arc-Easy 和 Arc-Challenge 在内的领先基准上获得了最高的总体评估分数。这表明,与使用单个开放数据集进行训练相比,使用精简数据集进行训练时模型质量有所提高。
Nvidia 博客补充道:“虽然每个组件数据集都有自己的优点和缺点,但组合后的 Zyda-2 数据集可以填补这些空白。与通过使用重复数据删除和积极过滤对这些数据集进行简单组合相比,获得给定模型质量的总训练预算有所减少。”
最终,该公司希望这项工作将为更高质量的小型模型铺平道路,帮助企业在特定内存和延迟限制下最大限度地提高质量和效率,无论是在设备上还是在云端部署。
团队可以直接从Hugging Face下载 Zyda-2 数据集。它附带 ODC-By 许可证,允许用户根据原始数据源的许可协议和使用条款在 Zyda-2 上进行训练或构建。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zyphra-de-xin-zyda2-shu-ju-ji-ke-rang-qi-ye-yi-gao-jing-du