随着企业继续在高级分析和大型语言模型(LLM)方面投入大量资金,图形技术已成为设置数据堆栈最受欢迎的方法之一。它允许用户了解数据集中的复杂关系,而这些关系在传统关系数据库中通常并不明显。
然而,与传统关系数据库一起维护和查询图形数据库相当麻烦(而且成本高昂)。今天,由前谷歌和领英员工创立的旧金山初创公司PuppyGraph筹集了 500 万美元,旨在通过世界上第一个也是唯一一个零 ETL 查询引擎来解决这一问题。该引擎允许用户以统一图形的形式查询现有的关系数据,而无需单独的图形数据库和漫长的提取-转换-加载 (ETL)过程。
该引擎于 2024 年 3 月推出,目前已被多家企业用来简化数据分析。仅其永久免费的开发者版本就见证了月下载量 70% 的增长。
PuppyGraph 的必要性
图形数据库架构反映了白板上的草图,将所有信息存储在节点(代表实体、人员和概念)中,并包含相关上下文和它们之间的连接。使用这种图形结构,用户可以识别传统关系数据库(通过 SQL 查询)中可能不容易发现的复杂模式和关系,并部署算法以快速实现 AI/ML、欺诈检测、客户旅程映射和网络风险管理等用例。
在目前的方案中,采用图形技术的唯一方法是设置单独的本机图形数据库并使其与源数据库保持同步。这项任务听起来很容易,但实际上非常复杂,团队必须设置复杂且资源密集型的 ETL 管道才能将其数据集迁移到图形存储中。这很容易花费数百万美元并需要数月时间,从而使用户无法运行关键业务查询。
更不用说,一旦数据库建立起来,他们还必须持续管理它,这进一步增加了成本并在长期内产生可扩展性问题。
为了解决这些差距,前谷歌和领英员工刘伟墨、黄磊和徐丹峰聚在一起创办了 PuppyGraph。其想法是让团队能够以图形形式查询现有关系数据库和数据湖,而无需进行数据迁移。
这样,使用 SQL 查询分析的相同数据可以以图表形式进行分析,从而更快地获得见解。这对于数据与多层次关系紧密相关的 情况特别有用,例如在供应链或网络安全中。
“在传统的 SQL 查询中,层级越深,查询就越复杂。这是因为每增加一个层级都需要进行额外的表连接操作,这会增加复杂性,并可能大大降低查询性能……相比之下,图形查询可以更有效地处理这些多级关系。它们旨在使用图形中的路径快速遍历这些连接,而不管连接的深度如何,”加入 PuppyGraph 创始团队的 Zhenni Wu表示。
Wu 表示,PuppyGraph 完全消除了对大量 ETL 设置的需要,只需大约 10 分钟即可实现“部署到查询”。用户只需将该工具与他们选择的数据源连接即可。完成后,它会自动创建图形模式并查询图形模型中的表。此外,该引擎的分布式设计使其能够处理极大的数据集和复杂的多跳查询。
它可以连接到所有主流数据湖,包括 Google BigQuery 和 Databricks,以运行加速图形分析,同时保持较低成本。
“存储和计算架构的分离意味着低成本是 PuppyGraph 最大的优势之一。由于引擎直接从用户现有的数据湖/仓库查询数据,因此存储成本为零。它提供了根据需要扩展计算资源的灵活性,允许进行调整以有效处理波动的工作负载,而不会冒资源争用或性能下降的风险,”吴补充道。
早期影响重大
虽然该公司成立不到一年,但已经与 Coinbase、Clarivate、Dawn Capital 和 Prevelant AI 等多家企业取得了成功。
有案例显示,一家企业从传统图形数据库系统过渡到 PuppyGraph,成功将总拥有成本降低了 80% 以上。一家领先的金融交易平台能够在不到 3 秒的时间内实现账户 A 和账户 B 之间跨越约 10 亿条边的 5 跳路径查询。
在 PuppyGraph 之前,他们自建的基于 SQL 的解决方案甚至无法进行超过 3 跳查询,并且存在批量超时问题。
利用这笔资金,该公司计划通过将零 ETL 图形查询引擎推广到全球更多组织来加速其产品开发、扩大其团队并提高其市场占有率。
根据Gartner的数据,到 2025 年,图形技术市场将增长至 32 亿美元,复合年增长率为 28.1%。该类别的其他参与者包括Neo4j、AWS Neptune、Aerospike 和 ArrangoDB。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/puppygraph-jia-kuai-le-llm-huo-qu-tu-xing-shu-ju-dong-cha