Mostly AI 的合成文本工具可以解锁企业电子邮件和对话,用于 AI 训练

Mostly AI 的合成文本工具可以解锁企业电子邮件和对话,用于 AI 训练

Mostly AI正在努力解决企业面临的主要 AI 训练瓶颈。这家以提供合成数据生成平台而闻名的奥地利公司今天宣布推出合成文本。这项新功能使企业能够从其专有数据集中释放价值,而无需担心隐私风险

从今天开始,该产品将生成组织专有信息的合成版本,但不包含个人身份信息 (PII) 或多样性差距。这为团队提供了一种方法来训练和微调可靠的大型语言模型 (LLM),从而加快创新速度并做出更好的决策。

这一功能问世之际,人工智能训练正陷入停滞状态,企业正在寻求超越公共数据源,寻找能够比剩余公共数据提供更大价值和潜力的来源。

合成文本如何工作?

当真实数据过于昂贵、不可用、不平衡或不可用时,合成数据或人工生成的数据通常被视为首选。企业生产和使用合成信息(主要是图像)已有相当长一段时间,但生成式人工智能的兴起预计将推动其应用达到一个全新的水平,涵盖更广泛的数据类型。根据Gartner 的数据,到 2026 年,75% 的公司将使用生成式人工智能来创建合成数据,而 2023 年这一比例还不到 5%。

然而,即使人工智能正在生成合成数据,它也可能缺乏特定于组织的背景和见解。这可能会阻碍下游模型的学习和性能达到预期标准。 

为了解决这一问题,Mostly AI 为企业提供了一个平台,用于训练自己的 AI 生成器,这些生成器可以动态生成合成数据。该公司最初支持生成结构化表格数据集,捕捉交易记录、患者旅程和客户关系管理 (CRM) 数据库的细微差别。现在,下一步,它正在扩展到文本数据。

虽然专有文本数据集(如电子邮件、聊天机器人对话和支持转录)是大规模收集的,但由于包含 PII(如客户信息)、多样性差距和某种程度的结构化数据,它们很难使用。

借助 Mostly AI 平台上的全新合成文本功能,用户可以使用他们拥有的任何专有文本训练 AI 生成器,然后部署它来生成原始数据的干净合成版本,不受 PII 或多样性差距的影响。就像表格数据生成器一样,它也能捕捉文本中的细微差别和见解(以及随附结构化数据的上下文)。此外,用户还可以获得各种语言模型选项(包括Mistral-7B和 Viking-7B)来训练生成器。 

“选定的 LLM 会根据 Mostly AI 平台上的原始文本数据进行微调。这将在随文本提供的附加结构化数据(例如特定客户信息)的背景下进行,以提高所创建合成文本的质量。有了微调后的 LLM,Mostly AI 平台将创建合成文本,该文本可以下载或存储在数据库中以供进一步处理,”该公司首席执行官 Tobias Hann 告诉 VentureBeat。

对企业有何帮助?

借助平台生成器生成的合成文本,企业可以为一系列分析和人工智能用例提供支持。Hann 表示,由于该产品刚刚发布,因此目前还没有实际应用,但该公司正在考虑生成提示响应对(如问答对),作为初始应用,因为这些对被广泛用于微调 LLM,例如针对性客户服务。

这项新功能及其从专有文本中释放价值而无需担心隐私的能力使其成为希望加强 AI 培训工作的企业的有利可图的产品。该公司声称,与其通过提示 GPT-4o-mini 生成的数据相比,在其平台的合成文本上训练文本分类器可使性能提高 35%。

然而,值得注意的是,这仍然是一个苹果和橘子之间的比较,目前还没有基准来比较 Mostly AI 的合成文本生成器与其他合成生成器(如Gretel)的性能。 

Hann 补充道:“Mostly AI 平台过去曾与其他公司和解决方案进行过对比,在生成的合成数据的质量(准确性、保真度)和隐私性方面始终表现出卓越的性能。”

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/mostly-ai-de-he-cheng-wen-ben-gong-ju-ke-yi-jie-suo-qi-ye

Like (0)
点点的头像点点
Previous 2024年10月3日 上午8:00
Next 2024年10月3日 上午10:00

相关推荐

发表回复

Please Login to Comment