Simplismart 通过个性化、软件优化的推理引擎增强 AI 性能

王浩然 • 2024年10月19日下午8:00 • AI前沿 • 117 views

企业全力投入 AI。他们希望自己的模型能够在生产环境中顺利运行，并尽可能提高性能，以获得高投资回报。然而，即使市场上有各种先进的模型，团队仍然在部署问题上苦苦挣扎。

去年，Everest Group 首席执行官 Peter Bendor-Samuel估计，90% 的生成式人工智能试点项目将无法投入生产。甚至 Gartner 也预测，到 2025 年底，很大一部分生成式人工智能项目可能会在概念验证后被放弃。

在采用的众多障碍中，最大的障碍是编排。团队没有足够的资源在内部完成所有工作，因此只能依赖僵化且昂贵的第三方 API。今天，Simplismart AI筹集了 700 万美元的资金，以通过其端到端 MLOps 平台解决这一问题，该平台通过处理从微调模型到部署和可观察性的所有事务来加速整个编排工作。

虽然市场上还有其他 MLOps 解决方案，包括来自 Datadog 的解决方案，但这家初创公司的与众不同之处在于其个性化的软件优化推理引擎。它以闪电般的速度部署模型，显著提高其性能，同时降低相关成本。

“在没有任何硬件优化的情况下，我们在Llama3.1 8B 模型上实现了每秒 501 个令牌的吞吐量，这远远超过了其他推理引擎。同样，我们在所有模式下都取得了更好的结果，包括文本转语音、语音转文本、文本转图像、图像转图像，”前 Oracle 工程师 Amritanshu Jain 表示，他与前谷歌技术人员 Devansh Ghatak 共同创办了这家初创公司。

使用 Simplismart 优化推理解决编排差距

在内部部署 AI（为了增强控制和隐私）时，团队必须处理多个瓶颈问题，从访问计算能力和优化模型性能到扩展基础设施、CI/CD 管道和成本效率。手动处理所有事情很容易花费数月时间。更不用说，管道中这里或那里的一个小错误可能会影响模型的性能，导致高成本和糟糕的投资回报率。

Simplismart 凭借其端到端编排平台，标准化了整个工作流程，允许用户根据他们的需求微调、部署和观察高度优化的开源模型——涵盖不同的模式。

“用户可以使用我们的共享基础架构，也可以使用自己的计算、云帐户轻松配置基础架构和部署。平台直观的仪表板允许他们设置 GPU、机器类型、扩展范围等参数。集群准备就绪后，用户可以从各种预先优化的模型中进行部署或导入自己的模型……最后，可观察性功能开始发挥作用，允许用户跟踪 SLA、监控模型在现实世界中的性能并根据过去的数字对性能进行基准测试……”Jain 解释道。

该平台的类似 Terraform 的声明式编排语言让企业可以轻松管理整个管道，将完全控制权交还给他们，并减少对 DevOps 团队的依赖。同时，其核心的个性化、软件优化推理引擎可确保部署模型以提供所需的性能和成本结果。

“Simplismart 是一个出色的平台，可以提供根据每个企业的需求量身定制的个性化推理引擎——无论是负载、SLA、性能要求、GPU 使用情况等。这可以帮助企业在成本和性能之间取得适当的平衡，”Jain 说。

他指出，推理引擎的性能在三个主要层面上进行了优化。
首先，它通过为机器学习工作负载提供自定义服务层来优化应用程序服务。然后，它通过快速升级/降级和跨 GPU 分片模型来支持基础设施，以最大限度地提高硬件利用率。最后，它使用 CUDA 通过 28 个自定义内核优化模型与 GPU 的交互。这使引擎能够从所使用的硬件中榨取更多的性能。

他表示，优化的推理引擎已经在运行一些流行模型，包括 Llama 3.1 8B、OpenAI 的 Whisper v2和SDXL，性能有了很大的提升。

“在多次 Llama 3.1 8B 运行中，我们一直记录到每秒 501 个令牌的吞吐量。尽管如此，这并不意味着每个请求都能达到这个确切的数字，因为性能可能会在一个范围内波动，这对于所有推理引擎来说都是很常见的。在我们的测试中，我们观察到持续负载下的中位数约为每秒 350 个令牌。特别令人兴奋的是，即使在这个中位数下，我们的性能范围仍然明显高于市场上任何其他推理引擎，”他指出。

该公司在该领域的主要竞争对手是TogetherAI、Baseten、Replicate、Fireworks和Amazon Bedrock。

计划加倍提高绩效

Simplismart 已经拥有 30 家企业客户，包括 Invideo、Dashtoon、Dubverse 和 Vodex。一家制药市场使用该公司的平台部署了 InternVL2 模型来数字化手写处方，并能够改进空间配置检测，以一半的成本处理 2.5 倍的图像。

作为这项工作的下一步，Simplismart 希望进一步提高其 MLOps 平台的性能。它将利用新资金推动研发，并提出新技术来提高 AI 推理速度并保持竞争优势。

Jain 指出：“过去四个月，公司收入增长了两倍，年收入达到约 100 万美元。我们的目标是在未来 15 个月内将 ARR 扩大到 1000 万美元。我们的主要手段是瞄准前 50 家 AI 优先企业，并推动我们类似 Terraform 的编排语言的开源采用。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/simplismart-tong-guo-ge-xing-hua-ruan-jian-you-hua-de-tui

Like (0)

王浩然作者

0 0

Salesforce 首席执行官 Marc Beinoff 抨击 Microsoft Copilot 为“Clippy 2.0”

Previous 2024年10月19日

随着 GenAI 工具越来越受员工欢迎，影子 IT 风险也在上升

Next 2024年10月19日

AI前沿

Mistral全新OCR API：将任何PDF文档转化为AI友好的Markdown文件‌

在数字化转型的浪潮中，Mistral推出了一项创新技术——全新OCR（光学字符识别）API，该技术能够将任何PDF文档高效转化为AI易于处理的Markdown文件。这一突破性进展为…

王浩然
2025年3月7日
000
AI前沿

Noma 为企业 AI 解决方案提供从数据存储到部署的安全保障

随着 2024 年接近尾声，企业技术的现状是，各种规模和领域的公司都热衷于利用生成性 AI 应用程序中的数据来改善内部（面向员工）或外部（面向客户/合作伙伴）流程。然而，确保安全…

王浩然
2024年11月3日
000
AI前沿

苹果再次将人工智能列入“年度 iPhone 应用程序”候选名单

周一，苹果公布了其令人垂涎的“年度 iPhone 应用”奖入围名单，再次揭示了这家 iPhone 制造商如何淡化人工智能技术对移动应用生态系统的影响。与去年一样，苹果 2024 年…

王浩然
2024年11月30日
000
AI前沿

Zyphra 的新 Zyda-2 数据集可让企业以高精度训练小型 LLM

Zyphra Technologies是一家致力于开发多模式代理系统的公司，该系统结合了下一代状态空间模型架构、长期记忆和强化学习方面的先进研究，该公司刚刚发布了 Zyda-2，这…

王浩然
2024年10月19日
000
AI前沿

谷歌首席执行官表示，人工智能模型 Gemini 将成为公司 2025 年的“最大重点”

据报道，首席执行官桑达尔·皮查伊 (Sundar Pichai) 告诉谷歌员工，2025 年将是公司“关键”的一年。据 CNBC 报道，它获得了 12 月 18 日战略会议的音频…

王浩然
2024年12月29日
000
AI前沿

超级碗 LIX 网络安全策略：NFL 的 CISO 如何应对 AI 威胁和数字攻击

保护超级碗 LIX 和所有备受瞩目的国家橄榄球联盟 (NFL) 赛事免受可能包括武器化 AI、端点攻击、深度伪造和精细的社会工程技能在内的对抗性攻击，需要经验丰富、久经考验的能力和…

王浩然
2025年1月30日
000
AI前沿

利用人工智能加速运营，更快取得成功

效率不再只是一种竞争优势，而是一种商业必需品。实现卓越运营不仅仅意味着采用新工具，它需要彻底重新思考运营方式。这就是人工智能发挥作用的地方。人工智能不仅仅是自动化日常任务，它还改…

点点
2024年10月23日
000
AI前沿

波士顿动力公司的电动 Atlas 机器人可自动挑选汽车零件

波士顿动力公司的新机器人一直在幕后悄然飞速发展。该公司于 4 月宣布推出这款机器人，8 月我们通过一段机器人做俯卧撑的视频简要了解了电动 Atlas 的实力。周三发布的最新视频展示…

王浩然
2024年10月31日
000
AI前沿

进入“Whisperverse”：人工智能语音代理将如何指导我们度过每一天

人们普遍批评大型科技公司，称它们的平台将用户视为可以通过定向广告赚钱的玻璃眼球。这种情况很快就会改变，但这并不是因为科技平台不再积极瞄准用户。相反，我们的耳朵即将成为最有效的渠道，…

王浩然
2024年11月4日
000
AI前沿

据报道，Perplexity 正寻求以 80 亿美元的估值进行融资

据《华尔街日报》报道，人工智能搜索引擎 Perplexity 正在进行融资谈判，希望以 80 亿美元的估值筹集约 5 亿美元。如果按照这些条款达成交易，Perplexity 的估…

王浩然
2024年10月21日
000
AI前沿

这是我见过的最奇怪的游戏笔记本电脑

宏碁在IFA 2024上推出了一些非常有趣的产品。该公司发布了 Project DualPlay，这是一款笔记本电脑概念产品，其中隐藏着一些有趣的技巧。合上盖子时，它是一种相对标准…

王浩然
2024年9月5日
000
AI前沿

利用 IDP 增强医疗保健文档

医疗文档是该行业不可或缺的一部分，可确保提供高质量的护理并保持患者信息的连续性。然而，由于医疗保健提供者必须处理大量数据，管理这些数据可能会让人感到不知所措。随着智能文档处理技术的…

点点
2024年9月27日
000
AI前沿

Arize AI：期望在AI可观测性领域抢占先机

Arize AI，一家专注于人工智能可观测性的创新企业，近期表达了其对于在AI可观测性领域取得先发优势的热切期望。该企业深知，在AI技术日新月异的当下，如何有效监测、评估和优化AI…

王浩然
2025年2月24日
000
AI前沿

人工智能如何重塑汽车保险从索赔到合规的全过程

汽车保险行业正在经历一场变革，人工智能正在重塑从索赔处理到合规性的一切。人工智能不仅是一种运营工具，而且是实现客户价值的战略差异化因素。人工智能的进步正在提高承保精度、简化索赔管…

点点
2024年10月11日
000
AI前沿

NVIDIA推出Llama Nemotron开放推理模型，加速自主AI发展

在人工智能（AI）领域，NVIDIA始终走在创新的前沿。近日，在NVIDIA GTC大会上，这家AI巨头宣布了一系列硬件和软件更新，其中最为引人注目的莫过于其全新推出的Llama …

王浩然
2025年3月22日
000
AI前沿

OpenAI 呼吁美国政府将其数据输入人工智能系统

OpenAI 表示，美国只有借助人工智能才能在全球舞台上击败中国。 OpenAI 希望你将人工智能视为汽车。欧洲发明了汽车，但严格的监管阻碍了汽车在那里的广泛应用。在自由放任的美国…

王浩然
2025年1月21日
000
AI前沿

OpenAI：延长模型“思考时间”有助于对抗新出现的网络漏洞

通常，开发人员专注于减少推理时间（即 AI 收到提示和提供答案之间的时间间隔），以便更快地获得洞察。但谈到对抗鲁棒性，OpenAI 的研究人员表示：不要这么快下结论。…

王浩然
2025年1月25日
000
AI前沿

微软通过新数据工具增强 Fabric 功能，以加速企业 AI 工作流程

今天，微软启动了Ignite 大会，讨论人工智能的各个方面，包括如何组建最大的人工智能代理生态系统，并允许企业使用其提供的 1,800 种大型语言模型中的任何一种来构建更多此类应用…

王浩然
2024年11月21日
000
AI前沿

利用人工智能彻底改变客户关系：Krishna Raj Raja 的《支持体验》一书中的重要经验教训

在《支持体验：创新型公司如何利用人工智能赢得客户的心、思想和钱包》一书中，作者Krishna Raj Raja介绍了一种由人工智能驱动的客户关系新方法。该书重点介绍了领先公司如何将…

点点
2024年10月17日
000
AI前沿

OpenAI 推出其谷歌挑战者 ChatGPT Search

OpenAI 的谷歌挑战者终于来了。该公司周四推出了ChatGPT Search，这是今年夏天推出的 SearchGPT 原型的升级版。OpenAI 表示，ChatGPT Sea…

王浩然
2024年11月2日
000