Nous Research 正在使用分布在互联网上的机器训练人工智能模型

王浩然 • 2024年12月3日下午7:00 • AI前沿 • 131 views

名为Nous Research的人工智能研究团队目前正在快速发展的生成人工智能领域做一些独特的事情（至少据我所知）：Nous 正在使用分布在互联网和世界各地的机器对一个新的 150 亿参数大型语言模型 (LLM) 进行预训练，避免了需要集中在昂贵、耗电的人工智能数据中心和图形处理单元 (GPU)“超级集群”中进行模型开发，例如埃隆马斯克的 xAI 最近在田纳西州孟菲斯完成的超级集群。

此外，Nous 还在专门的网站distro.nousresearch.com上直播预训练过程，展示其在评估基准上的表现，以及演习背后训练硬件的各个位置的简单地图，包括美国和欧洲的几个地方。

截至本文发表时，预训练运行还剩下大约 57 个小时（2.3 天），已完成 75％以上。

预训练是 LLM 训练的两个方面中的第一个，可以说是最基础的方面，因为它涉及在大量文本数据上训练模型，以学习语言的统计特性和结构。该模型处理大量文本数据集，捕获模式、语法和单词之间的上下文关系。此阶段使模型对语言有了广泛的理解，使其能够生成连贯的文本并执行各种与语言相关的任务。

在预训练之后，模型会针对特定任务或领域的更具体的数据集进行微调。

如果成功，Nous 将证明，使用一种新颖的开源训练方法，无需昂贵的超级集群或低延迟传输，就可以训练前沿级的 LLM。它可能开启分布式 AI 训练的新时代，成为新 AI 模型的主要或潜在主导来源，并将新一代 AI 的力量平衡从资金雄厚的大型科技公司转移到规模较小的团体和非企业参与者。

Nous DisTrO：训练演习背后的技术

Nous 今年早些时候因发布其宽容且存在存在冲突的 Meta Llama 3.1 变体 Hermes 3以及其使 AI 开发个性化和不受限制的总体使命而成为头条新闻，它正在使用其名为 Nous DisTrO（互联网分布式训练）的开源分布式训练技术，Nous 最初于 2024 年 8 月在一篇研究论文中发表了这项技术。

根据 Nous Research 的最新报告，DisTrO 在预训练期间将 GPU 间通信带宽要求降低了多达 10,000 倍。这项创新允许在较慢且更实惠的互联网连接（可能低至 100Mbps 下载速度和 10Mbps 上传速度）下训练模型，同时保持具有竞争力的收敛速度和损失曲线。

DisTrO 的核心突破在于能够有效压缩 GPU 之间交换的数据，同时不牺牲模型性能。

根据2024 年 8 月一篇文章所述，该方法在使用 Llama 2 架构的测试中将通信需求从 74.4 GB 减少到仅 86.8 MB，效率提高了近 857 倍。这一显著的改进为去中心化、协作式 AI 研究的新时代铺平了道路。

DisTrO 建立在早期的解耦动量优化 (DeMo) 研究基础之上，该算法旨在将 GPU 间通信减少几个数量级，同时保持与传统方法相当的训练性能。

DeMo 算法和 DisTrO 堆栈都是 Nous Research 持续使命的一部分，即分散 AI 能力并将先进的 AI 开发带给更广泛的受众。

该团队还将 DeMo 算法作为开源代码发布在 GitHub 上，邀请世界各地的研究人员和开发人员进行实验并在其研究成果的基础上进行拓展。

硬件合作伙伴

Nous Research 的 150 亿参数语言模型的预训练涉及多个著名合作伙伴的贡献，包括 Oracle、Lambda Labs、Northern Data Group、Crusoe Cloud 和 Andromeda Cluster。

他们共同提供了在真实分布式环境中测试 DisTrO 功能所需的异构硬件。

对未来人工智能模型发展的深远影响

DisTrO 的意义不仅限于技术创新。通过减少对集中式数据中心和专用基础设施的依赖，DisTrO 为更加包容和协作的 AI 研究生态系统提供了一条道路。

规模较小的机构、独立研究人员，甚至是能够使用消费级互联网和 GPU 的业余爱好者都能够训练大型模型——这一壮举以前只有拥有大量资本和专业知识的公司才能实现。

该研究论文的合著者、Adam 优化器的共同发明人 Diederik P. Kingma 加入了 Nous Research，成为 DeMo 和 DisTrO 开发的合作者。Kingma 的贡献以及 Nous Research 联合创始人 Bowen Peng 和 Jeffrey Quesnelle 的贡献为该项目增添了可信度，并预示着该项目对更广泛的 AI 社区的潜在影响。

后续步骤Next steps

Nous Research 为未来打开了一扇大门，未来 AI 开发将不再由少数几家公司主导。他们在 DisTrO 上的工作表明，通过正确的优化，大规模 AI 模型可以以分散的方式高效地进行训练。

虽然当前的演示使用了 Nvidia H100 等尖端 GPU，但 DisTrO 对不太专业的硬件的可扩展性仍然是有待进一步探索的领域。

随着 Nous Research 不断改进其方法，这项技术的潜在应用——从分散的联邦学习到训练用于图像生成的扩散模型——可能会重新定义人工智能创新的界限。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/nous-research-zheng-zai-shi-yong-fen-bu-zai-hu-lian-wang

Like (0)

王浩然作者

0 0

Cohere 的 Rerank 3.5 现已发布，它将彻底改变企业搜索

Previous 2024年12月3日

Liquid AI 的新 STAR 模型架构比 Transformer 效率更高

Next 2024年12月3日

AI前沿

Google 的 Gemini API 和 AI Studio 助力 Google 搜索

从今天开始，使用 Google Gemini API 及其Google AI Studio构建基于 AI 的服务和机器人的开发人员将能够利用 Google 搜索的数据来支持其提示结…

王浩然
2024年11月2日
000
AI前沿

如何让你的MacBook不打扰你权限

苹果的macOS Sequoia有一些新功能来提高安全性，其中之一是提示，它迫使您不断更新屏幕录制权限。到目前为止，您可以永久授予任何应用程序录制屏幕和捕获系统音频的权限，但红杉将…

free
2024年9月28日
000
AI前沿

人类新视野：Anthropic科学家揭示AI的“思考”方式，发现其秘密规划并偶尔说谎‌

在人工智能领域，科学家们一直致力于探索和理解大型语言模型（LLMs）如何处理信息并做出决策。近日，Anthropic公司的一项新研究为我们揭示了这些AI系统内部工作的惊人细节，发现…

王浩然
2025年3月31日
000
AI前沿

人工智能热潮中英伟达成为全球最大公司

得益于全球人工智能的推动，英伟达周二市值超过苹果，成为全球最大公司。据彭博社报道，自 2022 年底以来，这家芯片制造商的市值增长了 850%。截至收盘，Nvidia 市值为 3…

王浩然
2024年11月6日
000
AI前沿

最推荐的电动汽车充电器公司之一刚刚抛弃了美国用户

任何电动汽车车主都会告诉你，买一个好的充电器是一项重要的投资。使用电动可能会让您不必去加油站，但您的汽车仍然需要能源才能运行，一个好的充电器将确保您的电池快速充满，同时保护它免受任…

点点
2024年10月8日
000
AI前沿

该法学硕士框架首次尝试对 Big AI 是否遵守《欧盟人工智能法案》进行基准测试

当大多数国家的立法者仍在讨论如何为人工智能设置护栏时，欧盟已经走在了前面，并于今年早些时候通过了基于风险的人工智能应用监管框架。该法律于 8 月生效，尽管泛欧盟人工智能治理制度的…

王浩然
2024年10月17日
000
AI前沿

小而强大：H2O.ai 的新 AI 模型在文档分析领域挑战科技巨头

开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型，旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OV…

王浩然
2024年10月19日
000
AI前沿

Lambda 推出“推理即服务” API，宣称成本为人工智能行业最低

Lambda是一家成立 12 年的旧金山公司，以向机器学习研究人员以及 AI 模型构建者和训练人员按需提供图形处理单元 (GPU) 而闻名。但今天，该公司推出了Lambda In…

王浩然
2024年12月13日
000
AI前沿

Orion Security以LLMs为核心，悄然面世，致力于追踪并阻止企业数据外泄

初露锋芒‌ 在数据泄露事件频发的当下，Orion Security如同一股清流，悄然涌入了网络安全领域。这家新兴公司宣布完成600万美元的种子轮融资，由Pico Partners和…

王浩然
2025年3月20日
000
AI前沿

硅谷正在争论是否应该允许人工智能武器决定杀人

9 月底，Shield AI 联合创始人 Brandon Tseng 发誓，美国的武器永远不会完全自动化——这意味着人工智能算法将做出杀人的最终决定。“国会不希望这样，”这位国防科…

点点
2024年10月13日
000
AI前沿

Uniphore 推出 X-Stream，一款统一的知识产品，可将 RAG 应用的构建速度提高 8 倍

Uniphore是一家以对话式 AI 和自动化解决方案而闻名的全球科技公司，它正在朝着简化企业开发检索增强生成(RAG) 应用程序的方式迈进。该公司今天宣布推出 X-Stream，…

王浩然
2024年9月20日
000
AI前沿

DataStax 首席执行官：2025 年将是我们真正看到人工智能转型的一年

当企业领导者努力应对实施生成式人工智能的复杂性时，DataStax 首席执行官 Chet Kapoor 提出了一个令人放心的观点：当前的挑战是技术革命的正常组成部分，2025 年将…

王浩然
2024年9月22日
000
AI前沿

数据新时代的交易枢纽：Carbon Arc打造授权交易数据市场，赋能LLMs与企业应用

在数据被誉为“新石油”的当今时代，数据的重要性不言而喻。然而，尽管数据被视为一种宝贵的资源，但其交易与流通却远不如石油那样顺畅。数据的获取往往伴随着法律纠纷与版权问题，使得企业在追…

王浩然
2025年3月24日
000
AI前沿

被AI颠覆一半工作的前大厂员工，花了8个月找到用AI工作的新方式

一专多会，才能长久

点点
2024年8月21日
010
AI前沿

OpenAI CEO对话脱口秀女王：避谈信任危机，自称与政府往来密切，鼓吹AI全能

近日，美国著名女脱口秀主持人奥普拉·温弗瑞（Oprah Winfrey）录制了一档45分钟的AI特别节目，主题为“AI与我们的未来”。嘉宾包括OpenAI联合创始人兼CEO萨姆·阿…

点点
2024年9月16日
000
AI前沿

Credo AI 的集成中心可实现亚马逊、微软等公司 AI 项目的自动化治理

人工智能治理公司Credo AI推出了一个新平台，该平台与第三方人工智能运营和业务工具相结合，以更好地了解负责任的人工智能政策。 Credo AI 的 Integrations …

王浩然
2024年10月7日
000
AI前沿

最热门AI模型解析：功能、应用与使用方法‌

在当今的科技领域，AI模型正以前所未有的速度改变着我们的生活和工作方式。本文将介绍一些当下最热门的AI模型，探讨它们的功能、应用领域以及如何使用这些模型来推动创新和优化业务流程。 …

王浩然
2025年2月27日
000
AI前沿

Prime 通过 AI 系统风险分析和建议措施重新思考企业安全设计

即使软件世界已经转向简化的用户界面和应用程序，幕后的安全工作也变得更加复杂——特别是对于依赖软件运营的大中型企业而言。尽管许多企业都试图采用“设计安全”的方法，即仔细考虑每个新更…

王浩然
2024年10月10日
000
AI前沿

利用人工智能进行漏洞评估

根据Cybersecurity Ventures 2023 年的一份报告，到 2025 年，网络犯罪估计每年将给世界造成 10.5 万亿美元的损失。每年记录在案的网络犯罪数量都…

点点
2024年10月7日
000
AI前沿

CodeSignal 联合创始人兼首席执行官 Tigran Sloyan – 访谈系列

Tigran Sloyan 是 CodeSignal 的联合创始人兼首席执行官，负责推动公司的整体战略方向和成果。从麻省理工学院毕业后，他于 2015 年与他人共同创立了 Code…

点点
2024年9月4日
000