埃隆·马斯克的xAI推出了其破纪录的 AI 训练系统,被称为“Colossus”。
马斯克透露,经过 122 天的准备,xAI 团队已成功将 Colossus 100k H100 训练集群上线。马斯克并不满足于现有的能力,他表示,“在接下来的几个月里,它的规模将翻一番,达到 200k(50k H200)。”
Colossus 的规模是史无前例的,超过了迄今为止的所有其他集群。作为对比,谷歌使用了 90,000 个 GPU,而 OpenAI 使用了 80,000 个 GPU——这两个集群都被 xAI 所超越,甚至在 Colossus 在接下来的几个月内规模翻倍之前。
Colossus 与 Nvidia 合作开发,利用了市场上一些最先进的 GPU 技术。该系统最初采用 Nvidia 的H100芯片,计划在其扩展中采用较新的H200型号。这种强大的处理能力使 Colossus 成为目前最强大的 AI 训练系统。
H200 虽然最近被 Nvidia于 2024 年 3 月推出的 Blackwell 芯片所取代,但仍是 AI 行业备受追捧的组件。它拥有令人印象深刻的规格,包括 141 GB 的 HBM3E 内存和 4.8 TB/秒的带宽。然而,Blackwell 芯片的门槛更高,其最高容量比 H200 高出 36.2%,总带宽增加了 66.7%。
Nvidia 对 Colossus 的发布表示了热情和支持。该公司对马斯克和 xAI 团队取得的成就表示祝贺,并强调 Colossus 不仅是同类系统中功能最强大的系统,还将在能源效率方面实现“非凡的提升”。
Colossus 的处理能力可能会加速各种人工智能应用的突破,从自然语言处理到复杂的问题解决算法。然而,Colossus 的揭幕也重新引发了关于人工智能权力集中在少数科技巨头和资金雄厚的初创公司之间的讨论。
随着 xAI 等公司不断突破人工智能训练的极限,人们可能会担心小型组织和研究人员能否使用这些先进技术。
随着人工智能军备竞赛持续升温,所有人的目光都将集中在 xAI 及其竞争对手身上,看他们如何利用这些日益强大的系统。有了 Colossus,马斯克和他的团队已经向竞争对手发出挑战,要求他们匹敌甚至超越他们的努力。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/xai-ping-jie-colossus-ren-gong-zhi-neng-xun-lian-xi-tong-da