谷歌刚刚发布了其第六代人工智能加速器芯片Trillium,声称其性能改进可能会从根本上改变人工智能开发的经济性,同时突破机器学习的极限。
这款定制处理器为谷歌新发布的Gemini 2.0 AI 模型的训练提供了动力,其训练性能是前代产品的四倍,同时功耗却大大降低。这一突破来得正是时候,因为科技公司竞相构建越来越复杂的 AI 系统,而这些系统需要大量的计算资源。
谷歌首席执行官 Sundar Pichai 在一篇公告中解释说:“TPU 为 Gemini 2.0 的训练和推理提供了 100% 的支持”,并强调了该芯片在公司 AI 战略中的核心作用。部署规模是前所未有的:谷歌已将超过 100,000 个 Trillium 芯片连接到一个网络结构中,创造了相当于世界上最强大的 AI 超级计算机之一。
Trillium 的 4 倍性能提升如何改变 AI 开发
Trillium 的规格代表了多个维度上的重大进步。与上一代产品相比,该芯片的峰值计算性能提高了 4.7 倍,同时高带宽内存容量和芯片间互连带宽也增加了一倍。或许最重要的是,它的能源效率提高了 67%——这是数据中心应对 AI 训练巨大电力需求的关键指标。
Google Cloud 计算和 AI 基础设施副总裁 Mark Lohmeyer 表示:“在训练 Llama-2-70B 模型时,我们的测试表明 Trillium 实现了从 4 片 Trillium-256 芯片组到 36 片 Trillium-256 芯片组的近乎线性的扩展,扩展效率高达 99%。”考虑到这种规模的分布式计算通常面临的挑战,这种扩展效率水平尤其令人瞩目。
创新经济学:Trillium 为何能改变 AI 初创企业的游戏规则
Trillium 的商业意义不仅限于原始性能指标。谷歌声称,与上一代芯片相比,该芯片每美元的训练性能提高了 2.5 倍,有可能重塑人工智能开发的经济性。
这种成本效益对于开发大型语言模型的企业和初创公司来说可能特别重要。Trillium 的早期客户 AI21 Labs 已经报告了显著的改进。AI21 Labs首席技术官Barak Lenz在公告中指出: “规模、速度和成本效益方面的进步非常显著。”
攀登新高峰:谷歌的 100,000 芯片 AI 超级网络
谷歌在其 AI 超级计算机架构中部署 Trillium 展示了该公司对 AI 基础设施的综合方法。该系统将超过 100,000 个 Trillium 芯片与每秒 13 PB 带宽的 Jupiter 网络结构相结合,使单个分布式训练作业能够扩展到数十万个加速器上。
谷歌人工智能工作室产品经理 Logan Kilpatrick 在开发者大会上表示:“闪存使用量的增长已经超过 900%,这是令人难以置信的。”这凸显了人工智能计算资源需求的快速增长。
超越英伟达:谷歌在人工智能芯片战争中的大胆举动
Trillium 的发布加剧了人工智能硬件领域的竞争,而Nvidia凭借其基于 GPU 的解决方案在该领域占据主导地位。虽然 Nvidia 的芯片仍然是许多人工智能应用的行业标准,但谷歌的定制硅片方法可以为特定工作负载带来优势,特别是在训练非常大的模型方面。
行业分析师认为,谷歌对定制芯片开发的大规模投资反映了对人工智能基础设施日益增长的重要性的战略押注。该公司决定向云客户提供 Trillium,表明其希望在云人工智能市场上展开更积极的竞争,而该公司在该市场上面临着来自Microsoft Azure和Amazon Web Services的激烈竞争。
驱动未来:Trillium 对未来 AI 意味着什么
Trillium 的功能意义远不止直接的性能提升。该芯片能够高效处理混合工作负载(从训练大量模型到为生产应用程序运行推理),这预示着未来 AI 计算将变得更加便捷且更具成本效益。
对于更广泛的科技行业来说,Trillium 的发布标志着人工智能硬件霸主地位的竞争进入了一个新阶段。随着各家公司不断突破人工智能的极限,大规模设计和部署专用硬件的能力可能成为越来越重要的竞争优势。
谷歌 DeepMind 首席执行官 Demis Hassabis 在公司博客文章中写道:“我们仍处于人工智能发展的早期阶段。拥有合适的基础设施(包括硬件和软件)对于我们继续突破人工智能的界限至关重要。”
随着行业向更复杂的 AI 模型发展,这些模型可以自主行动并跨多种信息模式进行推理,对底层硬件的需求只会增加。借助 Trillium,Google 已表明其打算继续走在这一变革的前沿,投资于将为下一代 AI 进步提供动力的基础设施。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-xin-kuan-trillium-ai-xin-pian-su-du-ti-sheng-4-bei