光子计算初创公司Lightmatter已筹集 4 亿美元,旨在突破现代数据中心的一个瓶颈。该公司的光学互连层可让数百个 GPU 同步工作,从而简化了昂贵而复杂的 AI 模型训练和运行工作。
人工智能的发展及其相应的巨大计算需求为数据中心行业带来了巨大推动力,但这并不像再插入一千个 GPU 那么简单。正如高性能计算专家多年来所知道的那样,如果超级计算机的每个节点有一半的时间处于空闲状态,等待数据输入,那么每个节点的速度有多快都无关紧要。
互连层实际上是将 CPU 和 GPU 机架变成一台巨型机器的关键——因此,互连速度越快,数据中心的速度就越快。Lightmatter 似乎利用自2018 年以来一直在开发的光子芯片,构建了速度最快的互连层。
“超大规模计算者知道,如果他们想要一台拥有一百万个节点的计算机,他们无法使用思科传统交换机来实现。一旦离开机架,高密度互连就变成了一根绳子上的杯子,”该公司首席执行官兼创始人尼克哈里斯表示。
他说,最先进的是 NVLink,尤其是 NVL72 平台,它将 72 个 Nvidia Blackwell 单元连接在一起放在一个机架中,在 FP4 精度下最高可实现 1.4 exaFLOP。但没有一个机架是孤岛,所有的计算都必须通过 7 兆兆位“扩展”网络来完成。听起来很多,事实也确实如此,但无法更快地将这些单元相互连接并连接到其他机架是提高性能的主要障碍之一。
“对于一百万个 GPU,你需要多层交换机,这会增加巨大的延迟负担,”哈里斯说。“你必须从电到光再到电再到光……你使用的电量和等待的时间都是巨大的。而且在更大的集群中,情况会变得更糟。”
那么 Lightmatter 带来了什么呢?光纤。大量的光纤,通过纯光学接口进行路由。每根光纤高达 1.6 兆兆位(使用多种颜色),每块芯片高达 256 根光纤……好吧,我们只能说,72 个 GPU 的 7 兆兆位听起来确实很古怪。
“光子学的发展速度比人们想象的要快得多——人们多年来一直在努力让它发挥作用,但我们终于做到了,”哈里斯说。“经过七年的艰苦努力,”他补充道。
Lightmatter 目前提供的光子互连可实现 30 兆兆位,而机架光纤布线能够让 1,024 个 GPU 在专门设计的机架中同步工作。如果您感到疑惑,这两个数字并没有增加类似的倍数,因为许多需要联网到另一个机架的工作可以在一千个 GPU 集群的机架上完成。(无论如何,100 兆兆位即将到来。)
哈里斯指出,这个市场非常巨大,从微软到亚马逊,再到 xAI 和 OpenAI 等新进入者,每家大型数据中心公司都对计算表现出了无尽的兴趣。“他们将建筑物连接在一起!我不知道他们能坚持多久,”他说。
这些超大规模企业中的许多已经是客户,不过哈里斯不愿透露具体名称。“可以把 Lightmatter 想象成一家代工厂,就像台积电一样,”他说。“我们不会偏袒任何一方,也不会将我们的名字附加到其他人的品牌上。我们为他们提供路线图和平台——只是帮助他们扩大蛋糕。”
但他又腼腆地补充道,“如果不利用这项技术,你的估值就无法翻两番”,这或许是在暗示 OpenAI 最近一轮融资,该公司的估值达到 1570 亿美元,但这句话也可能指的是他自己的公司。
这轮 4 亿美元的 D 轮融资使其估值达到 44 亿美元,相当于其2023 年中期估值的几倍,这“使我们成为迄今为止最大的光子学公司。这太棒了!”哈里斯说。此轮融资由 T. Rowe Price Associates 领投,现有投资者 Fidelity Management & Research Company 和 GV 参投。
下一步是什么?除了互连之外,该公司还在开发芯片的新基板,以便它们能够利用光执行更紧密的网络任务。
哈里斯推测,除了互连之外,每块芯片的功耗将成为未来最大的差异化因素。“十年后,每个人都会生产晶圆级芯片——没有其他方法可以提高每块芯片的性能,”他说。Cerebras 当然已经在研究这一点,但他们是否能够在技术的这个阶段抓住这一进步的真正价值仍是一个悬而未决的问题。
但对于哈里斯来说,看到芯片行业陷入困境,他计划做好准备,等待下一步。“十年后,互连就是摩尔定律,”他说。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/lightmatter-huo-de-4-yi-mei-yuan-rong-zi-ai-chao-da-gui-mo