Cerebras 推出全球最快的 AI 推理解决方案：速度提高 20 倍，成本却降低

AI评测师 • 2024年8月30日下午3:00 • 技术评测 • 294 views

高性能 AI 计算领域的先驱Cerebras Systems推出了一项突破性的解决方案，旨在彻底改变 AI 推理。2024 年 8 月 27 日，该公司宣布推出世界上最快的 AI 推理服务 Cerebras Inference。Cerebras Inference 的性能指标远超传统的基于 GPU 的系统，速度提高了 20 倍，成本却只有后者的一小部分，为 AI 计算树立了新的标杆。

前所未有的速度和成本效率

Cerebras Inference 旨在为各种 AI 模型提供卓越的性能，特别是在快速发展的大型语言模型(LLM) 领域。例如，它每秒处理 1,800 个令牌（Llama 3.1 8B 模型）和 450 个令牌（Llama 3.1 70B 模型）。这种性能不仅比基于 NVIDIA GPU 的解决方案快 20 倍，而且成本也低得多。Cerebras 为 Llama 3.1 8B 模型提供这项服务的起价仅为每百万令牌 10 美分，为 Llama 3.1 70B 模型提供这项服务的起价仅为每百万令牌 60 美分，与现有的基于 GPU 的产品相比，性价比提高了 100 倍。

保持准确性的同时突破速度界限

Cerebras Inference 最令人印象深刻的方面之一是它能够在提供无与伦比的速度的同时保持最先进的准确性。与其他为了速度而牺牲精度的方法不同，Cerebras 的解决方案在整个推理过程中都保持在 16 位域内。这确保了性能提升不会以牺牲 AI 模型输出的质量为代价，这对于专注于精度的开发人员来说是一个关键因素。

Artificial Analysis 联合创始人兼首席执行官 Micah Hill-Smith 强调了这一成就的重要性：“对于 Meta 的 Llama 3.1 8B 和 70B AI 模型，Cerebras 的速度比基于 GPU 的解决方案快一个数量级。我们在 Llama 3.1 8B 上测量到每秒输出令牌超过 1,800 个，在 Llama 3.1 70B 上测量到每秒输出令牌超过 446 个——这些基准测试中创下了新纪录。”

人工智能推理的重要性日益增加

AI 推理是 AI 计算中增长最快的部分，约占整个 AI 硬件市场的 40%。高速 AI 推理（例如 Cerebras 提供的推理）的出现类似于宽带互联网的引入——为 AI 应用释放了新机遇并开启了新时代。借助 Cerebras Inference，开发人员现在可以构建需要复杂实时性能的下一代 AI 应用程序，例如 AI 代理和智能系统。

DeepLearning.AI 创始人 Andrew Ng 强调了速度在 AI 开发中的重要性：“ DeepLearning.AI 有多个代理工作流程，需要反复提示 LLM 才能获得结果。Cerebras 已经建立了令人印象深刻的快速推理能力，这对此类工作负载非常有帮助。 ”

广泛的行业支持和战略合作伙伴关系

Cerebras 获得了行业领导者的大力支持，并建立了战略合作伙伴关系，以加速 AI 应用的开发。Cerebras 的早期客户葛兰素史克的 AI/ML 高级副总裁 Kim Branson 强调了这项技术的变革潜力：“速度和规模改变了一切。”

LiveKit、 Perplexity和 Meter等其他公司也对 Cerebras Inference 对其运营的影响表现出极大的热情。这些公司正在利用 Cerebras 的强大计算能力来创造响应更快、更人性化的 AI 体验，改善搜索引擎中的用户交互，并增强网络管理系统。

Cerebras 推理：层级和可访问性

Cerebras Inference 提供三个价格极具竞争力的层级：免费层级、开发者层级和企业层级。免费层级提供免费的 API 访问，且使用限制宽松，因此可供广大用户使用。开发者层级提供灵活的无服务器部署选项，Llama 3.1 模型的价格为每百万个代币 10 美分和 60 美分。企业层级适合具有持续工作负载的组织，提供经过微调的模型、定制的服务级别协议和专门的支持，价格可根据要求提供。

为 Cerebras 推理提供动力：晶圆级引擎 3 (WSE-3)

Cerebras Inference 的核心是 Cerebras CS-3 系统，该系统由业界领先的 Wafer Scale Engine 3 (WSE-3) 提供支持。这款 AI 处理器在尺寸和速度方面无与伦比，内存带宽比 NVIDIA 的 H100 多 7,000 倍。WSE-3 的庞大规模使其能够处理许多并发用户，确保极快的速度而不影响性能。这种架构使 Cerebras 能够避开通常困扰基于 GPU 的系统的各种权衡，为 AI 工作负载提供一流的性能。

无缝集成和开发人员友好的 API

Cerebras Inference 的设计充分考虑了开发人员的需求。它具有与 OpenAI Chat Completions API 完全兼容的 API，只需进行少量代码更改即可轻松迁移。这种开发人员友好型方法可确保将 Cerebras Inference 尽可能无缝地集成到现有工作流程中，从而实现高性能 AI 应用程序的快速部署。

Cerebras Systems：推动跨行业创新

Cerebras Systems 不仅是 AI 计算领域的领导者，也是医疗保健、能源、政府、科学计算和金融服务等各个行业的重要参与者。该公司的解决方案在推动国家实验室、Aleph Alpha、梅奥诊所和葛兰素史克等机构取得突破方面发挥了重要作用。

通过提供无与伦比的速度、可扩展性和准确性，Cerebras 使这些行业的组织能够解决 AI 及其他领域中一些最具挑战性的问题。无论是加速医疗保健领域的药物研发，还是增强科学研究中的计算能力，Cerebras 都处于推动创新的前沿。

结论：人工智能推理的新时代

Cerebras Systems 推出 Cerebras Inference，为 AI 推理树立了新标准。Cerebras 以极低的成本提供传统 GPU 系统 20 倍的速度，不仅让 AI 更加普及，还为下一代 AI 应用铺平了道路。凭借其尖端技术、战略合作伙伴关系和对创新的承诺，Cerebras 有望引领 AI 行业进入前所未有的性能和可扩展性的新时代。

有关 Cerebras Systems 的更多信息以及尝试 Cerebras Inference，请访问www.cerebras.ai。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/cerebras-tui-chu-quan-qiu-zui-kuai-de-ai-tui-li-jie-jue

AI AI 推理 LLM 人工智能

Like (0)

AI评测师作者

0 0

Oleksandr (Sasha) Strozhemin，Trinetix 联合创始人兼首席执行官 – 访谈系列

Previous 2024年8月30日下午12:00

谷歌发布三款全新实验性 Gemini 模型

Next 2024年8月30日下午5:00

技术评测

AI写作工具可以与人类作家共存吗？

在当今的数字世界中，对内容的需求比以往任何时候都高，企业、个人和营销人员都在寻求新鲜、引人入胜的内容来与受众建立联系。这种日益增长的需求导致了人工智能内容写作工具的兴起，也引发了人…

AI评测师
2024年9月1日
000
技术评测

苹果为 MacBook Pro 升级 M4 芯片

周三，苹果公司在 Macweek（Mac 半周）上推出了升级版 MacBook Pro。苹果最高端的笔记本电脑通过增加 M4 芯片赶上其同类产品。Pro 和 Mini 是首批采用新…

王浩然
2024年10月31日
000
技术评测

通过换脸变身杰克·斯派洛

现在，内容创作者面临着比以往任何时候都更加强烈的快速高效地制作高质量视觉效果的需求。您是否知道，当今营销人员面临的两大内容营销挑战是制作高质量内容和持续生成此类内容？这并不奇怪，…

AI评测师
2024年10月11日
000
技术评测

人工智能如何帮助您的企业快速起步

如今，还有什么问题是人工智能无法解决的？老实说，似乎没有多少。通过使用算法、深入研究大量数据并应用从中吸取的经验教训，人工智能可以发现模式并构建类似说明书的方法来解决某些任务。而…

AI News
2024年9月1日
000
技术评测

DryMerge 承诺将那些通常不相互通信的应用程序连接起来——当它工作时，效果非常好

用于连接通常不会相互通信的应用程序的平台已经存在了一段时间（例如：Zapier）。但如果你不懂技术，这些平台的使用并没有显著简化。生成式人工智能在一定程度上降低了进入门槛。然而，要…

王浩然
2024年9月16日
000
AI前沿

“这是一个游戏规则的改变者”：Runway 发布新的 AI 面部表情动作捕捉功能 Act-One

自2022 年底首批模型首次亮相以来，人工智能视频在过去几年中取得了令人难以置信的进步，其真实感、分辨率、保真度、提示依从性（与用户输入的文本提示或视频描述的匹配程度）和数量都有所…

王浩然
2024年10月25日
000
技术评测

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

人工智能（AI）硬件有望彻底被颠覆，在计算速度和能效方面实现前所未有的改进。日前，来自印度科学研究所、德克萨斯农工大学和利默里克大学的研究团队，在一篇发表在权威科学期刊 Natu…

点点
2024年9月25日
000
技术评测

开源 DeepSeek-R1 使用纯强化学习来匹敌 OpenAI o1 — 成本降低 95%

中国人工智能初创公司DeepSeek以使用开源技术挑战领先的人工智能供应商而闻名，最近它又抛出了一颗重磅炸弹：一项名为 DeepSeek-R1 的全新开放式推理法学硕士学位课程。 …

王浩然
2025年1月21日
000
技术评测

Sonar 推出 AI 代码保证和 AI CodeFix：提高 AI 生成代码的安全性和生产力

在人工智能辅助软件开发领域，确保人工智能生成的代码的质量和安全性比以往任何时候都更加重要。Sonar是 Clean Code 解决方案的全球领导者，推出了两款新工具——AI Cod…

AI评测师
2024年10月4日
000
技术评测

「AI小说神器」MidReal：网页版互动小说，可互动选择剧情走向，自动配图

📚✨ MidReal AI互动小说神器迎来了重大升级，全新网页版的推出让创作和阅读变得更加便捷！ MidReal简介 MidReal是一款革命性的AI小说生成工具，它通过沉浸式的写…

AI评测师
2024年9月2日
000
技术评测

AI一键生成“类黑神话”，腾讯推出游戏视频模型GameGen-O，业内人士：游戏工作室的ChatGPT时刻

什么？大模型也许很快就能生成《黑神话·悟空》这种3A大作了？！直接看一则demo，《西游记》这就上桌：搭配BGM，是不是有内味儿了（doge）。这就是腾讯近日推出的GameG…

点点
2024年9月16日
000
技术评测

Nvidia 刚刚发布了一款开源 LLM，与 GPT-4 竞争

Nvidia 是人工智能行业最抢手的 GPU制造商之一，该公司宣布已发布一个开源大型语言模型，据报道其性能可与OpenAI、Anthropic、Meta和谷歌等领先的专有模型相媲美…

点点
2024年10月4日
000
技术评测

深度测评：SD3模型表现如何？

实用教程助你玩转Stable Diffusion 3 ，最强SD3模型使用攻略，附ComfyUI实操SD3模型到底如何？StableDiffusion3全面评测！

点点
2024年8月21日
000
技术评测

针对 3D 高斯溅射的投毒攻击

新加坡和中国之间的一项新研究合作提出了一种攻击流行合成方法3D Gaussian Splatting（3DGS）的方法。新的攻击方法使用精心设计的源数据来超载目标系统的可用 GP…

AI评测师
2024年10月12日
000
技术评测

为什么苹果在 iPhone 16 上又增加了一个按钮

苹果有得有失——尤其是在端口和按钮方面。长期以来，该公司对任何可能破坏其设备风水的细节都采取了“少即是多”的态度。如今，该公司对按钮的态度更加乐观。在 Apple Watch Ul…

王浩然
2024年9月10日
000
技术评测

高通正向苹果发起最猛烈的攻击

就在英特尔于IFA 2024上发布 Lunar Lake笔记本电脑 CPU的第二天，高通就推出了一款新的 Snapdragon X Plus 芯片进行反击。这款恰如其名的 Snap…

王浩然
2024年9月5日
000
技术评测

【EAGLE揭秘】多模态大型语言模型，探索编码器设计新境界

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强的视觉感知可显著减少幻觉并提高分辨率敏感任务（例如光学字符识别和文档分析）的性能。最近…

AI评测师
2024年9月11日
000
技术评测

【秘方】用AI打造视觉盛宴，Visme让你的创意起飞！

对于许多人来说，创建具有视觉吸引力的内容可能很困难，无论是工作演示还是社交媒体帖子。除非您拥有平面设计学位或有钱聘请专业人士，否则您通常很难独立制作高质量的视觉效果。有了Vism…

AI评测师
2024年9月11日
000
技术评测

Reflection 70B：具有自我纠正认知和领先表现的法学硕士

Reflection 70B 是由HyperWrite开发的开源大型语言模型 (LLM) 。这种新模型引入了一种 AI 认知方法，可以重塑我们在从语言处理到高级问题解决等众多领域与…

AI评测师
2024年9月12日
000
技术评测

TechCrunch 网络词汇表

网络安全是一个充满技术术语和专业术语的世界。在 TechCrunch，我们多年来一直在撰写有关网络安全的文章，有时我们甚至需要复习一下某个特定单词或表达的确切含义。这就是我们创建这…

AI评测师
2024年9月23日
000