长期以来用于结构化数据的数据质量工具现在正扩展到企业 AI 的非结构化数据。Anomalo 就是这样一家供应商,该公司多年来一直在开发用于结构化数据的数据质量平台。今天,该公司宣布扩展其平台,以更好地支持非结构化数据质量监控。
Anomalo 的联合创始人兼首席执行官 Elliot Shmukler 相信,他公司的技术能够对组织产生强大的影响。
Shmukler 在接受采访时表示:“我们相信,通过消除数据质量问题,我们可以加速至少 30% 的人工智能部署。”
他指出,企业在概念验证阶段后就放弃了一些 AI 项目。根本问题在于数据质量差、数据缺口大以及企业数据尚未准备好供新一代 AI 使用。
“我们相信,使用 Anomalo 的非结构化监控可以将企业中典型的新一代 AI 项目加速一年之久,”Shmukler 说道。“这是因为它能够非常快速地理解、分析并最终整理这些项目所依赖的数据。”
除了产品更新之外,Anomalo 还宣布将 B 轮融资金额扩大 1000 万美元,使本轮融资金额达到 8200 万美元。
为什么数据质量对企业 AI 如此重要
与传统的结构化数据质量问题不同,非结构化内容对人工智能应用提出了独特的挑战。
“由于它是非结构化数据,所以里面可能包含任何内容,”Shmukler 强调道。“它可能是个人身份信息、电子邮件、姓名、社会保险号……这些文档中可能包含专有机密信息,而这些信息可能你不想发送给大型语言模型。”
Anomalo 平台通过向非结构化文档添加结构化元数据来解决这些挑战。这使组织能够在数据进入 AI 模型之前更好地理解和控制数据。
Anomalo 软件为非结构化数据质量提供了以下关键功能:
自定义问题定义:允许用户定义自己的问题以在文档集合中检测,超出预定义的问题(如个人身份信息(PII)或滥用内容)。
支持私有云模型:使企业能够使用部署在自己的云提供商环境中的大型语言模型 (LLM),从而对其数据提供更好的控制和舒适度。
元数据标记:向非结构化文档添加结构化元数据,例如有关检测到的问题的信息,以便更好地管理和过滤用于新一代人工智能应用程序的数据。
编辑:即将推出的一项功能将允许软件提供文档的编辑版本,删除敏感信息。
新兴市场中非结构化数据质量的竞争差异化
Anomalo 在非结构化数据质量市场中并不孤单,就像它在结构化数据质量领域中并不孤单一样。
Monte Carlo Data、Collibra和 Qlik等多家数据质量供应商都拥有各种形式的非结构化数据质量技术。Shmukler 看到了他的公司在多个领域和方式上脱颖而出。
他指出,其他一些供应商正在通过集成和监控包含支持检索增强生成 (RAG) 工作流的数据的矢量数据库来接近非结构化数据质量。Shmukler 解释说,这种方法要求已经设置了管道以将适当的数据发送到矢量数据库中。他补充说,它还将应用程序限制为仅限传统的 RAG 方法,而不是大型上下文模型等较新的方法,这些方法甚至可能不需要矢量数据库。
“Anomalo 的不同之处在于,我们在建立任何管道来提取此类数据之前,就对原始的非结构化数据集合进行了分析,”Shmukler 说道。“这使得我们在着手构建管道之前可以更广泛地探索所有可用数据,并且还开辟了超越传统 RAG 技术的所有可能方法来使用这些数据。”
Anomalo 的监控如何适应企业 AI 部署
Anomalo平台可以加速企业AI部署的各个方面。
Shmukler 指出,团队可以在将任何数据发送到模型或矢量数据库之前,将数据质量监控集成到数据准备阶段。从根本上讲,Anomalo 所做的是在非结构化数据之上以元数据的形式提供一些结构。企业可以在训练或微调 genAI 模型时使用结构化元数据来确保高质量、无问题的数据。
Anomalo 的数据质量监控还可以与输入 RAG 的数据管道集成。在 RAG 用例中,非结构化数据被输入到矢量数据库中以供检索。元数据可用于过滤、排序和管理 RAG 中使用的数据,从而确保用于生成输出的信息的质量。
Shmukler 认为数据质量监控影响的另一个核心领域是合规性和风险缓解。Anomalo 的数据标记可帮助企业防止 genAI 泄露敏感信息和违反合规性。
“每家企业都担心法学硕士会提供不该有的数据,泄露敏感信息,”Shmukler 说道。“这其中很大一部分原因在于,当你在构建你的新一代人工智能应用程序时,晚上可以睡得更好,因为你知道,任何敏感数据或你不想让法学硕士知道的数据,实际上不太可能被法学硕士知道。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/anomalo-de-fei-jie-gou-hua-shu-ju-jie-jue-fang-an-jiang-qi