当创新型企业搜索公司 Glean 的销售代表需要为一次重要的客户会议做准备时,他们求助于自己强大的生成式 AI工具。几分钟之内,系统就梳理了多年的电子邮件、Slack 消息和通话录音,提供了客户关系的全面概述,并发现了手动发现需要数小时才能发现的机会。
这不仅仅是另一个 AI 聊天机器人。这是一个复杂的搜索系统,能够理解公司数据中复杂的关系网络。结果如何?洞察力水平改变了企业的运营方式。
这项技术的力量不只是理论上的。世界上最大的拼车公司之一亲身体验了它的好处。在派出一整个工程师团队开发类似的内部解决方案后,他们最终决定转向 Glean 的平台。
“一个月之内,他们就发现 Glean 平台的使用量翻了一番,因为效果很明显,” Glean首席营销官 Matt Kixmoeller在 2024 年 8 月底接受 VentureBeat 采访时表示。“他们最终估计,在所有员工中,每个人平均每周可以节省两到三个小时来更快地查找信息。这为他们在全球范围内节省了超过 2 亿美元。”
这种惊人的投资回报率并非孤例。随着企业纷纷将生成式人工智能融入其运营,一项强大的技术正在成为真正变革性应用的秘密成分:知识图谱。
数据工程师的秘密武器
对于数据工程师来说,在预算紧张的情况下优化数据管道、提高数据质量和增强 AI 性能的压力是无情的。知识图谱应运而生。
通过以直观、灵活的格式表示复杂的数据关系,知识图谱正在彻底改变企业处理、理解和利用其庞大信息生态系统的方式。这项技术与检索增强生成 (RAG) 系统相结合时效果尤为出色,催生了GraphRAG——这种方法可显著提高 AI 输出的准确性和情境感知能力。
市场正在关注这一趋势,Glean 在昨天宣布的最新一轮融资中获得了 2.6 亿美元的巨额资金。从交钥匙解决方案到高级定制实施,知识图谱为数据专业人员提供了一系列选项来转变他们的数据策略。
虽然初期投资可能很大,但数据集成、人工智能性能和运营效率方面的长期收益是巨大的。随着技术的成熟和普及,知识图谱有望成为数据团队构建更智能、更能感知上下文、更高效的数据生态系统的必备工具。
理解知识图谱:语言隐喻
为了掌握知识图谱的概念,可以将其视为复杂的句子或段落:
- 节点就像名词,代表实体或概念。例如,“客户”、“产品”或“销售会议”。
- 边就像动词,显示节点之间的关系。例如,“购买”、“参加”或“感兴趣”。
- 属性类似于形容词或副词,提供有关节点或边的附加信息。它们可能包括“购买日期”、“会议时长”或“兴趣程度”等详细信息。
企业数据的这一新维度使自动化系统能够提升难以识别的洞察力,但也带来了额外的复杂性。
Neo4j 首席技术官 Philip Rathle 表示:“知识图谱可让您高效地表示和查询这些复杂的关系。当您尝试对组织中的每一部分数据执行此操作时,所需的规模、所需的安全性、所需的权限,所有这些都会成为一个真正的问题。”
检索增强生成 (RAG) 和 GraphRAG
RAG 是一种增强 AI 模型的技术,它通过为 AI 模型提供从知识库中检索到的相关信息,然后再生成响应。传统的 RAG 系统通常依赖矢量数据库根据语义相似性来定位文本块。
GraphRAG 通过利用知识图谱中的结构化关系进一步发展了这一概念。正如 Glean 工程经理 Arjun Landes 所解释的那样:“我们能够构建如此复杂的知识图谱并将其与 LLM 相结合,这才是真正的强大之处。”
实际上,与简单的向量搜索相比, GraphRAG可以实现更细致入微、更具有情境感知的信息检索。“你可以使用 RAG 的向量加载骰子,但你知道,如果你正在为高价值客户进行设备维护或复杂的客户服务,加载骰子是不够的,”Rathle 说。
它不仅可以找到相似的文本块,还可以遍历实体之间的关系,理解层次结构,并捕获平面文本表示可能遗漏的复杂依赖关系。这可以在利用 LLM 输出时大大减少幻觉并提高可解释性。
“最终使 GraphRAG 成为正确且可取的解决方案的是:更高的准确性——在有确切答案的情况下准确率可能达到 100%”,Rathle 说,“以及可解释性和安全性,因为基于向量的 RAG,当然还有 LLM,应用安全规则的钩子有限。”
在预算内实现知识图谱
对于许多组织,特别是预算紧张的组织来说,实施知识图谱技术似乎很艰巨。
然而,有经济有效的方法将这项技术融入现有的数据基础设施中。
MindPalace是一家初创公司,其联合创始人兼首席技术官 Dexter Tortoriello正在开发一款生成工具,用于组织和利用个人的不同个人信息来源。他提供了一些见解:“我认为我们仍处于 [GraphRAG 服务] 整合阶段的早期阶段。所以我认为我们仍然站在人们更愿意拥有构建模块并构建自己的东西这一边。”虽然有 Glean 等交钥匙解决方案,但也有更多预算友好的 DIY 方法的空间。
开源工具和社区驱动的计划可以显著降低实施成本。Neo4j提供了一个社区版,可供小型项目免费使用,Amazon Neptune与 AWS 集成,而 NebulaGraph 等项目则提供了用于构建知识图谱的开源框架。
Rathle 解释了 Neo4j 的价值主张:“对于任何想要知识图谱或拥有数据(一旦加载到图形数据库中即可用作知识图谱)的人来说,我们都是技术提供商。我们提供所有连接器、API 和查询语言、托管服务和可视化、查询和自然语言查询工具,以及所有相关服务。”
知识图谱和企业数据的未来
随着技术的成熟,我们很可能会看到知识图谱的自动创建变得更加容易和经济高效。Neo4j 的产品创新主管 Michael Hunger 指出:“将会有针对实体和关系提取进行微调的模型。因此,我认为提取实体的成本至少会比现在使用大型 LLM 的成本低两个数量级。”
随着企业采用知识图谱进行数据管理,Langchain和LlamaIndex等生成框架正在成为强大的盟友。
Langchain 将其代理工作流程构建为互连节点和边缘,从而促进高效的查询和检索,并通过增强数据检索、上下文理解和可扩展性来提高性能。其自然语言查询功能允许用户通过直观的界面与 Neo4j 和 Amazon Neptune 等图形数据库进行交互。
LlamaIndex 提供了一个使用 LLM 构建和查询知识图谱的灵活框架,使其成为高级 RAG 应用程序的理想选择。它提供了从文本文档构建知识图谱和检索信息的工具和 API。
主要功能包括图形构建和存储、自然语言查询和属性图索引,通过对节点和与元数据的关系进行分类实现更丰富的建模和查询,提高人工智能系统的准确性和治理能力。
挑战和注意事项
尽管前景光明,但采用知识图谱技术仍面临挑战。数据集成问题和对专业技能的需求可能是重大障碍。
Glean 的 Kixmoeller 承认了这些障碍:“仍然非常具有挑战性的事情之一是企业环境实际上非常混乱和复杂。有太多信息分散在许多不同的系统中。使用人工智能技术连接和检索这些知识,以及对所有这些知识的治理,仍然非常困难。”
为了克服这些挑战,组织可能需要投资培训计划或与知识图谱专家合作。随着该技术越来越主流,我们可以预期会出现更多熟练的专业人员和更多用户友好的工具。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ru-he-li-yong-sheng-cheng-gong-ju-tui-dong-glean-chou-ji-2