Runware 使用定制硬件和高级编排实现快速 AI 推理

Runware 使用定制硬件和高级编排实现快速 AI 推理

有时,演示就是您了解产品所需的全部内容。Runware 就是这种情况。如果您访问Runware 的网站,输入提示并按 Enter 生成图像,您会惊讶于 Runware 为您生成图像的速度有多快——只需不到一秒钟。

Runware 是 AI 推理或生成 AI 初创领域的新秀。该公司正在构建自己的服务器并优化这些服务器上的软件层,以消除瓶颈并提高图像生成模型的推理速度。这家初创公司已经从 Andreessen Horowitz 的 Speedrun、LakeStar 的 Halo II 和 Lunar Ventures 获得了 300 万美元的资金。

该公司并不想重新发明轮子。它只是想让它转得更快。在幕后,Runware 制造了自己的服务器,在同一块主板上安装了尽可能多的 GPU。它拥有自己定制的冷却系统并管理自己的数据中心

在服务器上运行 AI 模型时,Runware 通过 BIOS 和操作系统优化优化了编排层,以缩短冷启动时间。它开发了自己的算法来分配干扰工作负载。

演示本身就令人印象深刻。现在,该公司希望利用所有这些研究成果进行研发,并将其转化为一门生意。

与许多 GPU 托管公司不同,Runware 不会根据 GPU 时间来出租其 GPU。相反,它认为应该鼓励公司加快工作负载。这就是为什么 Runware 提供具有传统按 API 调用收费结构的图像生成 API。它基于 Flux 和 Stable Diffusion 的流行 AI 模型。

“如果你看看Together AI、Replicate、Hugging Face——所有这些公司——他们都在根据GPU时间销售计算能力,”联合创始人兼首席执行官Flaviu Radulescu告诉TechCrunch。“如果你比较一下我们制作图像所需的时间与他们制作图像所需的时间。然后比较一下定价,你会发现我们便宜得多,速度快得多。”

“他们不可能达到这样的性能,”他补充道。“特别是在云提供商中,你必须在虚拟化环境中运行,这会增加额外的延迟。”

由于 Runware 正在研究整个推理流程并优化硬件和软件,该公司希望在不久的将来能够使用来自多个供应商的 GPU。这对几家初创公司来说是一项重要的努力,因为 Nvidia 是 GPU 领域的明显领导者,这意味着 Nvidia GPU 往往非常昂贵。

“目前,我们只使用 Nvidia GPU。但这应该是软件层的抽象,”Radulescu 说道。“我们可以非常快速地将模型从 GPU 内存中切换进出,这使我们能够将多个客户放在同一个 GPU 上。

“所以我们与竞争对手不同。他们只是将模型加载到 GPU 中,然后 GPU 执行非常具体的任务。在我们的案例中,我们开发了这种软件解决方案,它允许我们在进行推理时切换 GPU 内存中的模型。”

如果 AMD 和其他 GPU 供应商能够创建与典型 AI 工作负载兼容的兼容层,Runware 就完全有能力构建一个依赖多家供应商 GPU 的混合云。如果它想在 AI 推理方面保持比竞争对手更便宜的价格,这肯定会有所帮助。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/runware-shi-yong-ding-zhi-ying-jian-he-gao-ji-bian-pai-shi

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年10月2日
Next 2024年10月2日

相关推荐

发表回复

Please Login to Comment