Mostly AI 的合成文本工具可以解锁企业电子邮件和对话，用于 AI 训练

点点 • 2024年10月3日上午9:00 • AI前沿 • 115 views

Mostly AI正在努力解决企业面临的主要 AI 训练瓶颈。这家以提供合成数据生成平台而闻名的奥地利公司今天宣布推出合成文本。这项新功能使企业能够从其专有数据集中释放价值，而无需担心隐私风险。

从今天开始，该产品将生成组织专有信息的合成版本，但不包含个人身份信息 (PII) 或多样性差距。这为团队提供了一种方法来训练和微调可靠的大型语言模型 (LLM)，从而加快创新速度并做出更好的决策。

这一功能问世之际，人工智能训练正陷入停滞状态，企业正在寻求超越公共数据源，寻找能够比剩余公共数据提供更大价值和潜力的来源。

合成文本如何工作？

当真实数据过于昂贵、不可用、不平衡或不可用时，合成数据或人工生成的数据通常被视为首选。企业生产和使用合成信息（主要是图像）已有相当长一段时间，但生成式人工智能的兴起预计将推动其应用达到一个全新的水平，涵盖更广泛的数据类型。根据Gartner 的数据，到 2026 年，75% 的公司将使用生成式人工智能来创建合成数据，而 2023 年这一比例还不到 5%。

然而，即使人工智能正在生成合成数据，它也可能缺乏特定于组织的背景和见解。这可能会阻碍下游模型的学习和性能达到预期标准。

为了解决这一问题，Mostly AI 为企业提供了一个平台，用于训练自己的 AI 生成器，这些生成器可以动态生成合成数据。该公司最初支持生成结构化表格数据集，捕捉交易记录、患者旅程和客户关系管理 (CRM) 数据库的细微差别。现在，下一步，它正在扩展到文本数据。

虽然专有文本数据集（如电子邮件、聊天机器人对话和支持转录）是大规模收集的，但由于包含 PII（如客户信息）、多样性差距和某种程度的结构化数据，它们很难使用。

借助 Mostly AI 平台上的全新合成文本功能，用户可以使用他们拥有的任何专有文本训练 AI 生成器，然后部署它来生成原始数据的干净合成版本，不受 PII 或多样性差距的影响。就像表格数据生成器一样，它也能捕捉文本中的细微差别和见解（以及随附结构化数据的上下文）。此外，用户还可以获得各种语言模型选项（包括Mistral-7B和 Viking-7B）来训练生成器。

“选定的 LLM 会根据 Mostly AI 平台上的原始文本数据进行微调。这将在随文本提供的附加结构化数据（例如特定客户信息）的背景下进行，以提高所创建合成文本的质量。有了微调后的 LLM，Mostly AI 平台将创建合成文本，该文本可以下载或存储在数据库中以供进一步处理，”该公司首席执行官 Tobias Hann 告诉 VentureBeat。

对企业有何帮助？

借助平台生成器生成的合成文本，企业可以为一系列分析和人工智能用例提供支持。Hann 表示，由于该产品刚刚发布，因此目前还没有实际应用，但该公司正在考虑生成提示响应对（如问答对），作为初始应用，因为这些对被广泛用于微调 LLM，例如针对性客户服务。

这项新功能及其从专有文本中释放价值而无需担心隐私的能力使其成为希望加强 AI 培训工作的企业的有利可图的产品。该公司声称，与其通过提示 GPT-4o-mini 生成的数据相比，在其平台的合成文本上训练文本分类器可使性能提高 35%。

然而，值得注意的是，这仍然是一个苹果和橘子之间的比较，目前还没有基准来比较 Mostly AI 的合成文本生成器与其他合成生成器（如Gretel）的性能。

Hann 补充道：“Mostly AI 平台过去曾与其他公司和解决方案进行过对比，在生成的合成数据的质量（准确性、保真度）和隐私性方面始终表现出卓越的性能。”

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/mostly-ai-de-he-cheng-wen-ben-gong-ju-ke-yi-jie-suo-qi-ye

Like (0)

点点

0 0

推理框架 Archon 有望加快 LLM 进程，且无需额外成本

Previous 2024年10月3日上午8:00

Equinix 筹集 150 亿美元新资本，投资 xScale 数据中心以满足 AI 需求

Next 2024年10月3日上午10:00

AI前沿

需要研究假设吗？问问人工智能。

麻省理工学院的工程师开发了人工智能框架来识别可以推动生物启发材料发展的证据驱动假设。提出独特且有前景的研究假设是任何科学家的基本技能。这也可能很耗时：新博士生可能会在项目的第一年…

王浩然
2025年1月3日
000
AI前沿

Hugging Face 上孕育出 100 万个 AI 模型

Hugging Face 引用社区驱动的定制作为多样化 AI 模型繁荣的动力。

点点
2024年10月1日
000
AI前沿

Apple Intelligence 有望推动收入增长；研究公司预测 2024 年 AI 智能手机出货量将增加两倍

受益于 iPhone 等硬件产品的热销，以及服务业务创纪录的表现，苹果预计 2024 财年（截至 9 月底）总营收将超过 4000 亿美元。这一增长很大一部分将来自 Apple I…

王浩然
2024年9月16日
000
AI前沿

Pika 1.5 再次更新，新增更多 AI 视频效果：碎裂、溶解、缩小、吃惊

Pika又名 Pika Labs 或 Pika AI，是一家总部位于加利福尼亚州帕洛阿尔托的初创公司，已筹集 5500 万美元，利用同名的视频 AI 模型颠覆视频制作领域，目前，该…

王浩然
2024年10月19日
000
AI前沿

Brookfield 承诺投资 200 亿美元，法国 AI 生态系统投资额达 850 亿美元

据法新社证实，加拿大投资公司 Brookfield 计划到 2030 年向法国人工智能项目投资 200 亿欧元（按当前汇率计算约为 207 亿美元）。这笔资金的大部分将用于建设以人…

王浩然
2025年2月10日
000
AI前沿

Nvidia 和 DataStax 让生成式人工智能变得更智能、更精简——具体方法如下

Nvidia和DataStax今天推出了一项新技术，可大幅降低部署生成式 AI 系统的公司的存储要求，同时实现跨多种语言的更快、更准确的信息检索。新的Nvidia NeMo Re…

王浩然
2024年12月18日
000
AI前沿

Meta 的新款智能眼镜看起来是未来趋势

Meta 最令人印象深刻的新产品——代号为 Orion 的智能眼镜目前还无法购买。几年后，你也许可以买到类似产品，但大多数人甚至都无法戴上它们。不过，这并不一定会让它们变得不那么令…

王浩然
2024年9月30日
000
AI前沿

Anthropic 最快的型号 Claude 3.5 Haiku 现已全面上市

据X 上的 AI 高级用户看到， Anthropic 已通过网络和移动应用程序上的 Claude 聊天机器人向所有用户正式推出了其 Claude 3.5 Haiku 模型。自 2…

王浩然
2024年12月13日
000
AI前沿

FrodoBots 和 YGG 携手地球探测挑战赛，共同开发游戏化人工智能和机器人技术

FrodoBots和Yield Guild Games联手通过地球探测器挑战赛活动将人工智能和机器人研究游戏化。总部位于新加坡的 FrodoBots 多年来一直在研究机器人技术。它…

王浩然
2024年9月17日
000
AI前沿

AI驱动的无线树状网络连接野火防御系统

一个专为森林设计的全新太阳能供电、AI驱动的物联网（IoT）网络已推出，旨在连接自主野火响应系统的各个元素。该网络名为Dryad Network的Silvanet系统，能够创建自己…

王浩然
2025年2月22日
000
AI前沿

微软的全新Magnetic-One 系统可指挥多个 AI 代理完成用户任务

希望部署多个 AI 代理的企业通常需要实施一个框架来管理它们。为此，微软研究人员最近推出了一种名为Magnetic-One 的新型多智能体基础设施，该基础设施允许单个 AI 模…

王浩然
2024年11月6日
000
AI前沿

Gemini AI 或将通过 Android Auto 进入你的汽车

Gemini 人工智能模型继续进入几乎每个Google应用程序和设备，而且根据最新的 Android Auto 应用程序中隐藏的代码，Android Auto 似乎将成为下一个添加…

王浩然
2024年9月2日
000
AI前沿

TikTok 将自动标记平台上的 AI 生成内容

TikTok 将使用“内容凭证”技术，该技术将元数据附加到内容上，表明该内容是使用人工智能创建的。 TikTok 表示，将开始自动标记从其他平台上传的人工智能生成内容 (AIGC)…

王浩然
2024年9月15日
000
AI前沿

Anthropic 的全新 Claude 模型弥补了 AI 能力与实用性之间的差距

Anthropic 最近公布了其 Claude AI 模型系列的重大更新。公告推出了增强版 Claude 3.5 Sonnet，并首次推出了全新 Claude 3.5 Haiku …

点点
2024年11月5日
000
AI前沿

Meta 的 Movie Gen AI 视频生成器能够制作真正的电影，包括音乐

Meta 的 AI 之旅将不可避免地将其带入新兴的 AI 视频领域。现在，马克·扎克伯格领导的这家公司推出了 Movie Gen，这是另一款能够通过简短的文本提示制作出逼真视频的视…

王浩然
2024年10月10日
000
AI前沿

麻省理工学院研究团队设计出解决计算能源问题的量子解决方案

计算能力的不断进步长期以来依赖于我们制造更小、更高效的电子元件的能力。这一进步的核心是不起眼的晶体管——现代电子产品的基本组成部分。然而，随着我们的数字世界不断扩大，人工智能应用变…

王浩然
2024年11月10日
000
AI前沿

AI的生态进化：模应一体的终结与新商业逻辑的诞生

9 月 4 日，文心一言大模型的移动端应用发布了 4.0.0 版本，最大的改动是 App 名字从“文心一言”改名为“文小言”；同一天，支付宝旗下 AI 应用“支小宝”最新版本也正式…

点点
2024年9月7日
000
AI前沿

Alexa新技能：阅读、总结与回顾长篇文档‌

亚马逊的智能助手Alexa近日解锁了一项全新技能——能够阅读、总结并回顾长篇文档。这一功能为处理大量文字信息的用户提供了极大的便利。 ‌一、阅读功能‌ Alexa现在能够流畅地阅读…

王浩然
2025年2月28日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

Sawmills 从隐身状态中脱颖而出，削减企业可观察性成本并提供遥测数据主权

数据可观察性——使用软件工具来了解组织的整个软件套件（尤其是最关键的业务应用程序）如何运行的实践——实际上扎根于20 世纪 50 年代末的早期计算机时代，但它在生成人工智能时代重新…

王浩然
2025年2月20日
000