Databricks 如何使用合成数据简化 AI 代理的评估

王浩然 • 2024年12月10日下午1:00 • AI前沿 • 98 views

企业正在全力投入复合 AI 代理。他们希望这些系统能够推理和处理不同领域的不同任务，但评估代理性能的复杂且耗时的过程往往会阻碍其发展。xToday，数据生态系统领导者Databricks 宣布了合成数据功能，让开发人员的工作更加轻松。

该公司表示，此举将允许开发人员在其工作流程中生成高质量的人工数据集，以评估正在开发的代理系统的性能。这将使他们免去与主题专家之间不必要的来回沟通，并更快地将代理投入生产。

虽然合成数据产品将如何为使用 Databricks Intelligence 平台的企业发挥作用还有待观察，但由 Ali Ghodsi 领导的公司声称，其内部测试表明，它可以显著提高代理在各个指标上的表现。

Databricks 评估 AI 代理的方法

Databricks去年收购了 MosaicML，并在其数据智能平台上全面整合了该公司的技术和模型，为企业提供使用托管在公司 Lakehouse 中的数据构建、部署和评估机器学习 (ML) 和生成式 AI 解决方案所需的一切。

这项工作的一部分是帮助团队构建复合 AI 系统，该系统不仅可以准确推理和响应，还可以执行诸如打开/关闭支持单、回复电子邮件和进行预订等操作。为此，该公司今年推出了一整套全新的 Mosaic AI 功能，包括对微调基础模型的支持、AI 工具目录以及用于构建和评估 AI 代理的产品——Mosaic AI 代理框架和代理评估。

今天，该公司正在通过新的合成数据生成 API 扩展代理评估。

到目前为止，代理评估已为企业提供了两项关键功能。第一项功能使用户和主题专家 (SME) 能够手动定义包含相关问题和答案的数据集，并创建某种标准来评估 AI 代理提供的答案的质量。第二项功能使 SME 能够使用此标准评估代理并提供反馈（标签）。这由 AI 评委支持，他们会自动将人类的响应和反馈记录在表格中，并根据准确性和危害性等指标对代理的质量进行评级。

这种方法有效，但构建评估数据集的过程需要大量时间。原因很容易想象：领域专家并不总是可用的；这个过程是手动的，用户可能经常难以确定最相关的问题和答案，以提供成功交互的“黄金”示例。

这正是合成数据生成 API 发挥作用的地方，它使开发人员能够在几分钟内创建高质量的评估数据集以供初步评估。它将中小企业的工作减少到最终验证阶段，并加快了迭代开发过程，开发人员可以自己探索系统的排列组合（调整模型、更改检索或添加工具）如何改变质量。

该公司进行了内部测试，以了解 API 生成的数据集如何帮助评估和改进代理，并指出它可以显著改善各种指标。

Databricks 的 AI 平台和产品负责人 Eric Peter 表示：“我们请研究人员使用合成数据来评估和改进代理的性能，然后使用人工整理的数据对最终的代理进行评估。”“结果表明，在各种指标上，代理的性能都有显著提高。例如，我们观察到代理查找相关文档的能力提高了近 2 倍（以 recall@10 衡量）。此外，我们还看到代理响应的整体正确性有所提高。”

它如何脱颖而出？

虽然有许多工具可以生成用于评估的合成数据集，但 Databricks 的产品因与 Mosaic AI Agentic Evaluation 的紧密集成而脱颖而出 – 这意味着在该公司平台上构建的开发人员不必离开他们的工作流程。

Peter 指出，使用新 API 创建数据集的过程分为四个步骤。开发人员只需解析他们的文档（将其保存为 Lakehouse 中的 Delta Table）、将 Delta Table 传递给合成数据 API、使用生成的数据运行评估并查看质量结果。

相比之下，使用外部工具意味着需要几个额外的步骤，包括运行（提取、转换和加载（ETL））以将解析的文档移动到可以运行合成数据生成过程的外部环境；将生成的数据移回Databricks平台；然后将其转换为代理评估接受的格式。只有这样才能执行评估。

“我们知道公司需要一个易于使用的交钥匙 API — 一行代码即可生成数据，”Peter 解释道。“我们还发现，市场上的许多解决方案都提供了简单的开源提示，这些提示并未针对质量进行调整。考虑到这一点，我们在生成数据的质量方面进行了大量投资，同时仍允许开发人员通过类似提示的界面根据其独特的企业需求调整管道。最后，我们知道大多数现有产品都需要导入现有工作流程，这会增加不必要的复杂性。相反，我们构建了一个与 Databricks 数据智能平台和 Mosaic AI 代理评估功能紧密集成的 SDK。”

多家使用 Databricks 的企业已经在私人预览中使用合成数据 API，并报告称其在提高代理质量和将其部署到生产中所需的时间显著减少。

其中一位客户、利珀特 ( Lippert )人工智能总监克里斯·尼什尼克 (Chris Nishnick)表示，他们的团队甚至在专家介入之前就能够使用 API 的数据将相对模型响应质量提高 60%。

管道中将有更多以代理为中心的功能

下一步，该公司计划扩展 Mosaic AI Agent Evaluation，使其具有可帮助领域专家修改合成数据以提高准确性的功能，并提供管理其生命周期的工具。

Peter 表示：“在我们的预览中，我们了解到客户需要一些额外的功能。首先，他们希望有一个用户界面，让其领域专家可以审查和编辑综合评估数据。其次，他们希望有一种方法来管理评估集的生命周期，以便跟踪变化并让开发人员可以立即获得领域专家对数据的审查更新。为了应对这些挑战，我们已经与客户一起测试了几个功能，计划于明年年初推出。”

总体而言，这些发展预计将推动 Databrick 的 Mosaic AI 产品的采用，进一步巩固该公司作为所有数据和人工智能的首选供应商的地位。

但 Snowflake 也正在迎头赶上，并发布了一系列产品公告，包括与 Anthropic 建立模范合作伙伴关系，推出其Cortex AI产品，让企业能够构建新一代 AI 应用程序。今年早些时候，Snowflake 还收购了可观察性初创公司TruEra，以在 Cortex 内提供 AI 应用程序监控功能。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/databricks-ru-he-shi-yong-he-cheng-shu-ju-jian-hua-ai-dai

Anthropic Cortex AI Databricks ETL MosaicML TruEra 合成数据复合 AI 代理

Like (0)

王浩然作者

0 0

保卫陷入困境的 SOC：抵御对抗性 AI 攻击

Previous 2024年12月10日

人工智能投资的新标杆：Swift Ventures 推出将言论与行动区分开的系统

Next 2024年12月10日

AI前沿

微软的 AI 生态系统如何胜过 Salesforce 和 AWS

人工智能代理是一种自主系统，旨在执行通常需要人类参与的任务。通过使用高级算法，这些代理可以处理各种功能，从回答客户查询到预测业务趋势。这种自动化不仅简化了重复流程，还使人类工作者能…

王浩然
2024年12月26日
000
AI前沿

Passionfroot 是一个面向以商业为中心的内容创作者寻求品牌合作的市场，反之亦然

随着创作者经济的快速增长，品牌合作仍然是创作者赚钱的主要方式。其他服务，如带有联盟链接的 Link-in-Bio 应用或类似 Patreon 的订阅，成为增加创作者收入的次要方式…

王浩然
2024年10月23日
000
AI前沿

DeepSeek V3 在 Mac Studio 上的惊人表现：每秒 20 个标记，OpenAI 的噩梦？

在人工智能领域，技术的飞速发展正不断推动着边界的拓展。最近，一款名为 DeepSeek V3 的深度学习模型在 Mac Studio 上的表现引发了广泛关注。据悉，DeepSeek…

王浩然
2025年3月25日
000
AI前沿

Fixify 获得 2500 万美元 A 轮融资，利用人工智能和人类专家革新 IT 服务台

Fixify是一家创新型公司，将人工智能与人类专业知识相结合，以增强 IT 服务台，该公司已成功在 A 轮融资中筹集了 2500 万美元。这笔投资由Costanoa Venture…

点点
2024年10月24日
000
AI前沿

区块链、物联网和人工智能如何塑造数字化转型的未来

当设备、网络和人工智能无缝协作时，就会创建一个更加智能、更加互联的生态系统。这不是一个遥不可及的梦想；随着区块链、物联网和人工智能的融合，这已成为现实。这些技术不再孤立地发挥作用…

王浩然
2024年12月24日
000
AI前沿

海外客户突破一万家，国际业务成腾讯云新增长点

9月5日至6日，2024腾讯全球数字生态大会在深圳国际会展中心举办。会上，腾讯云公布企业出海全景图，并发布国际业务阶段成绩单：腾讯云海外客户累计突破1万家，全球合作伙伴超过1.1万…

点点
2024年9月7日
000
AI前沿

Writer 如何构建企业平台 Blueprint 来为您实现 AI

随着企业不断探索其潜力，Agentic AI 不断发展壮大。然而，构建 AI 代理工作流程时可能会出现一些陷阱。全栈 AI 平台Writer的联合创始人兼首席执行官梅…

王浩然
2024年11月13日
000
AI前沿

谷歌推出 Gemini 2.0 Pro、Flash-Lite 并将推理模型 Flash Thinking 连接到 YouTube、地图和搜索

谷歌的 Gemini 系列人工智能大型语言模型 (LLM) 在近一年前刚开始并不顺利，出现了一些令人尴尬的图像生成错误事件，但自那以后，它一直在稳步改进，而且该公司似乎有意让其第二…

王浩然
2025年2月6日
000
AI前沿

OpenAI为付费ChatGPT用户推出深度研究功能‌

在人工智能领域持续创新的浪潮中，OpenAI再次迈出重要一步。据最新消息，OpenAI现已向其付费ChatGPT用户推出深度研究功能，旨在为用户提供更加专业、深入的AI分析与解答服…

王浩然
2025年2月28日
000
AI前沿

TikTok 所有者字节跳动为电子阅读器疯狂的人工智能助手提供支持

Kindle 的一款热门电子阅读器竞争对手引发的轩然大波表明，美国产品中使用中国人工智能模型可能会在不知不觉中传播中国的宣传。根据 Reddit 上分享的有关该人工智能的截图，T…

王浩然
2025年1月16日
000
AI前沿

Meta AI 现在可以理解和编辑你的照片

在人工智能照片编辑方面，Meta AI 开始赶上谷歌。周三，在Meta Connect 2024 大会上，这家科技巨头宣布，Meta AI 现在将能够使用人工智能技术帮助您编辑照片…

王浩然
2024年9月28日
000
AI前沿

研究发现：基于不安全代码训练的AI模型具有毒性‌

最新研究表明，使用未受保护或存在安全漏洞的代码来训练的AI模型，可能会表现出“毒性”特征，即这些模型在生成代码或做出决策时可能包含恶意代码、偏见或错误逻辑。 ‌一、研究背景‌ 在人…

王浩然
2025年3月2日
000
AI前沿

OpenAI：延长模型“思考时间”有助于对抗新出现的网络漏洞

通常，开发人员专注于减少推理时间（即 AI 收到提示和提供答案之间的时间间隔），以便更快地获得洞察。但谈到对抗鲁棒性，OpenAI 的研究人员表示：不要这么快下结论。…

王浩然
2025年1月25日
000
AI前沿

马克·贝尼奥夫警告称，人工智能虽然有用，但被夸大了，并将部分责任归咎于微软

科技行业最热衷炒作的人之一、Salesforce 首席执行官马克·贝尼奥夫 (Marc Benioff) 想让你知道，他对生成式人工智能充满期待，但即便如此，他也不认为它能做到其最…

点点
2024年10月18日
000
AI前沿

Adobe 如何保护艺术家免受 AI 滥用

近年来，生成式人工智能在创造逼真的视觉效果、模仿艺术风格和创造全新表达形式方面的能力日益增强，重新定义了艺术的创作和体验方式。虽然这种转变为创意行业的创新和生产力提供了巨大的机会，…

点点
2024年10月16日
000
AI前沿

Gmail新增Gemini驱动的“添加到日历”按钮‌

近日，Gmail迎来了一项新功能的更新——一个由Gemini技术驱动的“添加到日历”按钮。这一功能的加入，旨在为用户提供更加便捷的日程管理体验。通过点击这个新按钮，用户能够轻松地…

王浩然
2025年3月12日
000
AI前沿

将法学硕士课程扎根于现实：一家公司如何利用人工智能将生产力提高 70%

总部位于硅谷的金融科技初创公司Drip Capital正在利用生成式人工智能，将跨境贸易融资业务的生产力显著提高 70%。该公司已通过债务和股权融资筹集了超过 5 亿美元，正在采用…

王浩然
2024年9月22日
000
AI前沿

医疗保健领域的人工智能应该从小处着手

1970 年，阿波罗 13 号登月任务开始六分钟后，其氧气罐发生爆炸。这一事件促使 NASA 开发了一种新方法来预测其航天器可能出现的故障。该方法依赖于连续的传感器数据，然后输入深…

点点
2024年9月4日
000
AI前沿

Uber ChatGPT AI 助手鼓励人们使用电动汽车

在 OpenAI 的 GPT-4o 的支持下，Uber 的司机应用程序将配备人工智能助手，为所有可以想象到的电动汽车问题提供类似人类的答案

点点
2024年10月16日
000
AI前沿

Authenticx 首席执行官 Amy Brown – 访谈系列

前医疗保健高管Amy Brown于 2018 年创立了 Authenticx，旨在帮助医疗保健组织释放客户互动数据的潜力。凭借在医疗保健和保险行业 20 年的经验，她看到了利用客户…

点点
2024年11月5日
000