Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM

王浩然 • 2024年10月19日下午2:00 • AI前沿 • 196 views

Zyphra Technologies是一家致力于开发多模式代理系统的公司，该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究，该公司刚刚发布了 Zyda-2，这是一个包含 5 万亿个标记的开放预训练数据集。

虽然 Zyda-2 比其前身大五倍，涵盖的主题范围也很广，但真正让它与众不同的是其独特的构成。与 Hugging Face 上提供的许多开放数据集不同，Zyda-2 经过提炼，保留了现有顶级数据集的优势，同时消除了它们的弱点。

这为组织提供了一种方法来训练语言模型，即使在给定参数预算下跨边缘和消费设备运行时也能表现出较高的准确率。该公司使用此数据集训练了其 Zamba2 小型语言模型，发现它的表现明显优于使用其他最先进的开源语言建模数据集。

此举是在原始 Zyda 数据集发布几个月后进行的，该数据集涵盖了广泛的主题和领域，以确保训练竞争性语言模型所需的多样性和质量。

Zyda-2 带来了什么？

今年早些时候，作为构建能够以低成本自动执行一系列任务的强大小型模型的努力的一部分，Zyphra 超越了模型架构研究，开始通过结合最佳的许可开放数据集（通常被社区公认为高质量）构建自定义预训练数据集。

这项工作的第一个版本Zyda 拥有 1.3 万亿个令牌，于 6 月首次亮相，是现有优质开放数据集（特别是 RefinedWeb、Starcoder C4、Pile、Slimpajama、pe2so 和 arxiv）的过滤和重复数据删除的混合体。

当时，Zyda 的表现优于其所基于的数据集，为企业提供了强大的培训选择。但是，1.3 万亿个令牌永远不够。该公司需要扩大规模并提高性能基准，这促使它建立了一条新的数据处理管道并开发了 Zyda-2。

Zyphra 的核心是建立在 Zyda-1 之上，并使用DCLM、FineWeb-Edu和Dolma v1.7的 Common-Crawl 部分的开源令牌对其进行了进一步改进。Zyda 的原始版本是使用公司自己的基于 CPU 的处理管道创建的，但对于最新版本，他们使用了Nvidia 的 NeMo Curator，这是一个 GPU 加速的数据管理库。这帮助他们将总拥有成本降低了 2 倍，并将数据处理速度提高了 10 倍，从三周缩短到两天。

“我们在所有数据集之间进行了交叉去重。我们相信这会提高每个 token 的质量，因为它会从数据集中删除重复的文档。在此之后，我们使用 NeMo Curator 的质量分类器对 Zyda-1 和 Dolma-CC 进行了基于模型的质量过滤，仅保留这些数据集中的‘高质量’子集，”Zpyphra 在一篇博客文章中写道。

这项工作以 Zyda-2 的形式创建了一个完美的数据集集合，从而提高了模型性能。正如 Nvidia 在另一篇开发者博客文章中指出的那样，新数据集将管道中使用的其他数据集的最佳元素与许多高质量的教育样本相结合，以进行逻辑推理和事实知识。同时，Zyda-1 组件提供了更多的多样性和多样性，并且在更多的语言和写作任务中表现出色。

提炼数据集可提高模型性能

在一项消融研究中，使用 Zyda-2 训练 Zamba2-2.7B 在包括 MMLU、Hellaswag、Piqa、Winogrande、Arc-Easy 和 Arc-Challenge 在内的领先基准上获得了最高的总体评估分数。这表明，与使用单个开放数据集进行训练相比，使用精简数据集进行训练时模型质量有所提高。

Nvidia 博客补充道：“虽然每个组件数据集都有自己的优点和缺点，但组合后的 Zyda-2 数据集可以填补这些空白。与通过使用重复数据删除和积极过滤对这些数据集进行简单组合相比，获得给定模型质量的总训练预算有所减少。”

最终，该公司希望这项工作将为更高质量的小型模型铺平道路，帮助企业在特定内存和延迟限制下最大限度地提高质量和效率，无论是在设备上还是在云端部署。

团队可以直接从Hugging Face下载 Zyda-2 数据集。它附带 ODC-By 许可证，允许用户根据原始数据源的许可协议和使用条款在 Zyda-2 上进行训练或构建。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/zyphra-de-xin-zyda2-shu-ju-ji-ke-rang-qi-ye-yi-gao-jing-du

Like (0)

王浩然作者

0 0

埃隆马斯克的 X 正在改变其隐私政策，允许第三方在你的帖子上训练人工智能

Previous 2024年10月19日

谷歌正在更换负责搜索和广告的高管

Next 2024年10月19日

AI前沿

2025年，9家美国AI初创企业融资超1亿美元‌

2025年，美国AI领域展现出了前所未有的活力，有9家初创企业在本年度成功融资超过1亿美元。这一融资热潮不仅彰显了资本对AI技术的青睐，也预示着AI行业将迎来更加蓬勃的发展。这些…

王浩然
2025年3月11日
000
AI前沿

那个要挑战GPT的00后清华男孩｜WAVES

数月前，一张OpenAI内部的图片在网上流传。图中，OpenAI将自己通往AGI的道路分为了五个阶段： Level 1：聊天机器人，具有对话能力的AI。 Level 2：推理者，像…

点点
2024年9月20日
000
AI前沿

Devin 2.0震撼发布：Cognition将AI软件工程师价格从每月500美元大幅降至20美元‌

在科技创新日新月异的今天，由知名风投机构Founders Fund支持的旧金山初创公司Cognition AI（亦称Cognition Labs），自2024年初凭借Devin——…

王浩然
2025年4月3日
000
AI前沿

AI编程初创公司Codeium据传正以近30亿美元估值进行融资谈判

近日，据知情人士透露，AI编程领域的初创公司Codeium正积极与投资者进行谈判，计划以接近30亿美元的估值筹集新一轮资金。这一消息标志着Codeium在AI编程技术领域的快速发展…

王浩然
2025年2月24日
000
AI前沿

语言过度：SLM 如何打败规模更大、资源密集型的同类

ChatGPT 公开发布两年后，各行各业的公司都希望利用大型语言模型(LLM) 来改变业务流程，因此关于 AI 的讨论已不可避免。然而，尽管 LLM 功能强大且前景光明，但许多业务…

王浩然
2024年12月22日
000
AI前沿

Meta 的 AI 图像生成器遇到了与其他 AI 艺术生成器相同的障碍

无论你是否喜欢，世界已经决定全面拥抱人工智能。这意味着人工智能融入了一切，甚至你最喜欢的消息应用程序。其中一个应用程序可能是 Meta 的资产之一：WhatsApp、Faceboo…

王浩然
2024年9月30日
000
AI前沿

2025年，1X将在数百户家庭中测试人形机器人

随着科技的飞速发展，人形机器人正逐渐成为现实生活中的一部分。据最新消息，创新科技公司1X计划在2025年启动一项雄心勃勃的项目：在数百户家庭中测试其人形机器人的实际应用。这一举措标…

王浩然
2025年3月25日
000
AI前沿

为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

微软研究人员和学术合作伙伴进行的一项全面的新调查显示，由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI)，从而有可能改变人类与软件的交互方式。这…

王浩然
2024年12月1日
000
AI前沿

数学法学硕士的失败及其解决方法

数学一直是人工智能模型面临的重大挑战。掌握数学需要复杂的推理能力，而对于人工智能来说，这项任务绝非易事。鉴于数学能力对于职业、个人和学术成功的重要性，这带来了巨大的问题。尽管大型…

王浩然
2024年12月8日
000
AI前沿

创新机器学习利用变革性商业应用程序

机器学习 (ML) 正在彻底改变企业的运营方式，推动创新，并为各个行业带来新的可能性。通过利用大量数据和强大的算法，ML 使公司能够实现流程自动化、做出准确预测并发现隐藏的模式以优…

点点
2024年10月15日
000
AI前沿

微软的 Windows Agent Arena：教 AI 助手操作你的 PC

微软推出了一项突破性的基准测试，名为Windows Agent Arena (WAA)，用于在真实的 Windows 操作系统环境中测试人工智能代理。这个新平台旨在加速开发能够在各…

王浩然
2024年9月15日
000
AI前沿

MiniMax 推出自己的开源 LLM，具有行业领先的 4M 代币上下文

如今，MiniMax 在美国最为人熟知的身份可能是Hailuo背后的这家新加坡公司。Hailuo 是一种逼真的高分辨率生成式 AI 视频模型，可与Runway、OpenAI 的 S…

王浩然
2025年1月15日
000
AI前沿

AI 超大规模提供商 Nscale 获得 1.55 亿美元 A 轮融资，助力扩张并满足 AI 计算需求

Nscale是 AI 超大规模基础设施领域的领先创新者，该公司宣布完成1.55 亿美元的 A 轮融资。此轮融资由Sandton Capital Partners领投，Kestrel…

王浩然
2024年12月9日
000
AI前沿

Voyage AI 正在构建 RAG 工具，以减少 AI 产生幻觉

人工智能往往会编造事实。这对于几乎所有经常使用人工智能的人来说都是不具吸引力的，尤其是对于企业来说，错误的结果可能会损害企业的利润。在 Salesforce 最近的一项调查中，半数…

王浩然
2024年10月5日
000
AI前沿

巨头之争：谷歌、微软、OpenAI角逐生成式AI；Uber携手AI伙伴加速自动驾驶

生成式人工智能，作为AI领域的新星，能够创造出全新的内容，如文本、图像和音乐。谷歌、微软和OpenAI都在这一领域投入重金，希望能够开发出更加智能、更加高效的生成式AI系统。

点点
2024年9月7日
000
AI前沿

开始使用 AI 代理（第 1 部分）：捕获流程、角色和连接

现代的 AI 代理至少包含一个能够调用某些工具的大型语言模型(LLM)。有了合适的编码工具集，它就可以开始生成代码，能够在容器中运行代码，观察结果，修改代码，从而更有可能生成有用的…

王浩然
2024年11月27日
000
AI前沿

活体细胞计算机：超越硅的人工智能和计算新前沿

几十年来，生物系统以其处理复杂信息、适应、学习和实时做出复杂决策的卓越能力吸引了计算机科学家。这些自然系统启发了神经网络和进化算法等强大模型的发展，这些模型已经改变了医学、金融、人…

点点
2024年9月6日
000
AI前沿

超大型开源 AI DeepSeek-V3 发布时表现超越 Llama 和 Qwen

中国人工智能初创公司 DeepSeek 以其创新的开源技术挑战领先的人工智能供应商而闻名，今天发布了一种新的超大模型：DeepSeek-V3。根据该公司的许可协议，新模型可通过H…

王浩然
2024年12月28日
000
AI前沿

人工智能会成为你的老板吗？

随着人工智能 (AI) 的发展，它引发了许多有关失业的问题。如果它接管的不是你的工作，而是你老板的工作，会怎么样？虽然这看起来很奇怪，但一些企业已经开始尝试使用人工智能经理。人工…

点点
2024年10月5日
000
AI前沿

微软严厉打击副驾驶人工智能的恶意使用

微软数字犯罪部门正在采取法律行动，打击那些创建恶意工具、逃避生成式人工智能服务的安全护栏和准则并创建有害内容的网络犯罪分子。根据弗吉尼亚州东区一份未密封的投诉，尽管该公司竭尽全力…

王浩然
2025年1月17日
000