企业正在全力投入复合 AI 代理。他们希望这些系统能够推理和处理不同领域的不同任务,但评估代理性能的复杂且耗时的过程往往会阻碍其发展。xToday,数据生态系统领导者Databricks 宣布了合成数据功能,让开发人员的工作更加轻松。
该公司表示,此举将允许开发人员在其工作流程中生成高质量的人工数据集,以评估正在开发的代理系统的性能。这将使他们免去与主题专家之间不必要的来回沟通,并更快地将代理投入生产。
虽然合成数据产品将如何为使用 Databricks Intelligence 平台的企业发挥作用还有待观察,但由 Ali Ghodsi 领导的公司声称,其内部测试表明,它可以显著提高代理在各个指标上的表现。
Databricks 评估 AI 代理的方法
Databricks去年收购了 MosaicML,并在其数据智能平台上全面整合了该公司的技术和模型,为企业提供使用托管在公司 Lakehouse 中的数据构建、部署和评估机器学习 (ML) 和生成式 AI 解决方案所需的一切。
这项工作的一部分是帮助团队构建复合 AI 系统,该系统不仅可以准确推理和响应,还可以执行诸如打开/关闭支持单、回复电子邮件和进行预订等操作。为此,该公司今年推出了一整套全新的 Mosaic AI 功能,包括对微调基础模型的支持、AI 工具目录以及用于构建和评估 AI 代理的产品——Mosaic AI 代理框架和代理评估。
今天,该公司正在通过新的合成数据生成 API 扩展代理评估。
到目前为止,代理评估已为企业提供了两项关键功能。第一项功能使用户和主题专家 (SME) 能够手动定义包含相关问题和答案的数据集,并创建某种标准来评估 AI 代理提供的答案的质量。第二项功能使 SME 能够使用此标准评估代理并提供反馈(标签)。这由 AI 评委支持,他们会自动将人类的响应和反馈记录在表格中,并根据准确性和危害性等指标对代理的质量进行评级。
这种方法有效,但构建评估数据集的过程需要大量时间。原因很容易想象:领域专家并不总是可用的;这个过程是手动的,用户可能经常难以确定最相关的问题和答案,以提供成功交互的“黄金”示例。
这正是合成数据生成 API 发挥作用的地方,它使开发人员能够在几分钟内创建高质量的评估数据集以供初步评估。它将中小企业的工作减少到最终验证阶段,并加快了迭代开发过程,开发人员可以自己探索系统的排列组合(调整模型、更改检索或添加工具)如何改变质量。
该公司进行了内部测试,以了解 API 生成的数据集如何帮助评估和改进代理,并指出它可以显著改善各种指标。
Databricks 的 AI 平台和产品负责人 Eric Peter 表示:“我们请研究人员使用合成数据来评估和改进代理的性能,然后使用人工整理的数据对最终的代理进行评估。”“结果表明,在各种指标上,代理的性能都有显著提高。例如,我们观察到代理查找相关文档的能力提高了近 2 倍(以 recall@10 衡量)。此外,我们还看到代理响应的整体正确性有所提高。”
它如何脱颖而出?
虽然有许多工具可以生成用于评估的合成数据集,但 Databricks 的产品因与 Mosaic AI Agentic Evaluation 的紧密集成而脱颖而出 – 这意味着在该公司平台上构建的开发人员不必离开他们的工作流程。
Peter 指出,使用新 API 创建数据集的过程分为四个步骤。开发人员只需解析他们的文档(将其保存为 Lakehouse 中的 Delta Table)、将 Delta Table 传递给合成数据 API、使用生成的数据运行评估并查看质量结果。
相比之下,使用外部工具意味着需要几个额外的步骤,包括运行(提取、转换和加载(ETL))以将解析的文档移动到可以运行合成数据生成过程的外部环境;将生成的数据移回Databricks平台;然后将其转换为代理评估接受的格式。只有这样才能执行评估。
“我们知道公司需要一个易于使用的交钥匙 API — 一行代码即可生成数据,”Peter 解释道。“我们还发现,市场上的许多解决方案都提供了简单的开源提示,这些提示并未针对质量进行调整。考虑到这一点,我们在生成数据的质量方面进行了大量投资,同时仍允许开发人员通过类似提示的界面根据其独特的企业需求调整管道。最后,我们知道大多数现有产品都需要导入现有工作流程,这会增加不必要的复杂性。相反,我们构建了一个与 Databricks 数据智能平台和 Mosaic AI 代理评估功能紧密集成的 SDK。”
多家使用 Databricks 的企业已经在私人预览中使用合成数据 API,并报告称其在提高代理质量和将其部署到生产中所需的时间显著减少。
其中一位客户、利珀特 ( Lippert )人工智能总监克里斯·尼什尼克 (Chris Nishnick)表示,他们的团队甚至在专家介入之前就能够使用 API 的数据将相对模型响应质量提高 60%。
管道中将有更多以代理为中心的功能
下一步,该公司计划扩展 Mosaic AI Agent Evaluation,使其具有可帮助领域专家修改合成数据以提高准确性的功能,并提供管理其生命周期的工具。
Peter 表示:“在我们的预览中,我们了解到客户需要一些额外的功能。首先,他们希望有一个用户界面,让其领域专家可以审查和编辑综合评估数据。其次,他们希望有一种方法来管理评估集的生命周期,以便跟踪变化并让开发人员可以立即获得领域专家对数据的审查更新。为了应对这些挑战,我们已经与客户一起测试了几个功能,计划于明年年初推出。”
总体而言,这些发展预计将推动 Databrick 的 Mosaic AI 产品的采用,进一步巩固该公司作为所有数据和人工智能的首选供应商的地位。
但 Snowflake 也正在迎头赶上,并发布了一系列产品公告,包括与 Anthropic 建立模范合作伙伴关系,推出其Cortex AI产品,让企业能够构建新一代 AI 应用程序。今年早些时候,Snowflake 还收购了可观察性初创公司TruEra,以在 Cortex 内提供 AI 应用程序监控功能。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/databricks-ru-he-shi-yong-he-cheng-shu-ju-jian-hua-ai-dai