合成数据的前景与风险

王浩然 • 2024年10月14日下午1:00 • AI前沿 • 125 views

有可能仅使用另一个人工智能生成的数据来训练一个人工智能吗？这听起来可能有点荒唐。但这个想法已经存在了相当长一段时间——而且随着新的真实数据越来越难获得，这种想法越来越受到关注。

Anthropic 使用一些合成数据来训练其旗舰模型之一Claude 3.5 Sonnet。Meta使用 AI 生成的数据对其Llama 3.1模型进行了微调。据说 OpenAI 正在从其“推理”模型o1中获取合成训练数据，用于即将推出的Orion。

但为什么人工智能需要数据？它需要什么样的数据？这些数据真的可以被合成数据取代吗？

注释的重要性

人工智能系统是统计机器。通过大量示例进行训练，它们可以学习这些示例中的模式来做出预测，例如电子邮件中的“致谁”通常在“相关人员”之前。

注释（通常是标注这些系统所提取数据的含义或部分的文本）是这些示例中的关键部分。它们充当着路标，“教导”模型区分事物、地点和想法。

假设有一个照片分类模型，它向模型展示了大量标有“厨房”一词的厨房图片。在训练过程中，模型将开始将“厨房”与厨房的一般特征联系起来（例如，厨房里有冰箱和台面）。经过训练后，如果给出一张初始示例中没有的厨房照片，模型应该能够识别出它。（当然，如果厨房图片被标记为“牛”，它会将它们识别为牛，这强调了良好注释的重要性。）

对人工智能的渴求以及为其发展提供标记数据的需求使标注服务市场迅速膨胀。Dimension Market Research估计，目前该市场价值 8.382 亿美元，未来十年将达到 103.4 亿美元。虽然没有精确估计有多少人从事标注工作，但 2022 年的一篇论文将这一数字定为“数百万”。

大大小小的公司都依赖数据标注公司雇佣的员工来为 AI 训练集创建标签。其中一些工作的薪水相当高，特别是如果标注需要专业知识（例如数学专业知识）。其他工作则可能非常辛苦。发展中国家的标注员平均每小时的工资只有几美元，没有任何福利或未来工作的保障。

干燥数据井

因此，寻求替代人工标签的办法是出于人文主义的原因。但也有实际原因。

人类标注的速度有限。标注者也有偏见，这些偏见会体现在他们的标注中，进而体现在任何基于这些偏见进行训练的模型中。标注者会犯错，或者被标注指令绊倒。而且付钱让人类来做这些事情是昂贵的。

事实上，数据通常很昂贵。Shutterstock 向 AI 供应商收取数千万美元以访问其档案，而 Reddit 则通过向 Google、OpenAI 和其他公司授权数据赚取了数亿美元。

最后，数据也变得越来越难以获取。

大多数模型都是在海量公共数据上进行训练的——越来越多的数据所有者选择屏蔽这些数据，因为他们担心自己的数据被剽窃，或者不会因此获得荣誉或归属。目前，全球前 1000 个网站中，超过 35% 屏蔽了 OpenAI 的网络爬虫。最近的一项研究发现，大约 25% 的“高质量”来源的数据被禁止用于训练模型的主要数据集。

如果目前的访问阻止趋势继续下去，研究小组 Epoch AI 预测，开发人员将在 2026 年至 2032 年之间耗尽用于训练生成式 AI 模型的数据。再加上对版权诉讼和不良内容进入开放数据集的担忧，AI 供应商不得不开始反思。

合成替代品

乍一看，合成数据似乎是所有这些问题的解决方案。需要注释？生成注释。更多示例数据？没问题。一切皆有可能。

从某种程度上来说，这是事实。

“如果说‘数据是新石油’，那么合成数据就是生物燃料，可以创造而没有真实事物的负面外部性，”华盛顿大学研究新兴技术伦理影响的博士生奥斯·凯斯 (Os Keyes) 告诉 TechCrunch。“你可以从一小组数据开始，然后模拟和推断出新的条目。”

人工智能行业已经采纳了这一概念并开始运行。

本月，专注于企业的生成式 AI 公司 Writer 推出了一款模型 Palmyra X 004，该模型几乎完全基于合成数据进行训练。Writer 称，开发该模型仅花费 70 万美元，而同等规模的 OpenAI 模型的开发成本估计为 460 万美元。

微软的Phi开放模型部分使用合成数据进行训练。谷歌的Gemma模型也是如此。今年夏天， Nvidia推出了一个旨在生成合成训练数据的模型系列，而人工智能初创公司 Hugging Face 最近发布了据称是最大的合成文本人工智能训练数据集。

合成数据生成本身已经成为一门生意，到 2030 年其价值可能达到23.4 亿美元。Gartner 预测，今年用于人工智能和分析项目的数据中有 60% 将由合成数据生成。

艾伦人工智能研究所高级研究员 Luca Soldaini 指出，合成数据技术可用于生成训练数据，这种格式的训练数据无法通过抓取（甚至内容许可）轻易获得。例如，在训练其视频生成器Movie Gen时，Meta 使用 Llama 3 为训练数据中的镜头创建字幕，然后人工对其进行改进，添加更多细节，例如对灯光的描述。

同样，OpenAI 表示，它使用合成数据对GPT-4o进行了微调，从而为 ChatGPT 构建了类似画板的Canvas功能。亚马逊表示，它会生成合成数据来补充用于训练 Alexa 语音识别模型的真实数据。

索尔达尼说：“合成数据模型可用于快速扩展人类的直觉，即需要哪些数据来实现特定的模型行为。”

合成风险

然而，合成数据并非万能药。它与所有人工智能一样，都面临“垃圾输入，垃圾输出”的问题。模型会创建合成数据，如果用于训练这些模型的数据存在偏差和局限性，其输出也会受到类似影响。例如，在基础数据中表现不佳的群体在合成数据中也会如此。

“问题是，你能做的很有限，”凯斯说。“假设你的数据集中只有 30 名黑人。外推可能会有所帮助，但如果这 30 人都是中产阶级，或者都是浅肤色，那么‘代表性’数据就全都是这个样子。”

到目前为止，莱斯大学和斯坦福大学的研究人员在 2023 年进行的一项研究发现，在训练过程中过度依赖合成数据会导致模型的“质量或多样性逐渐下降”。研究人员表示，采样偏差（对现实世界的糟糕表现）会导致模型的多样性在几代训练后恶化（尽管他们也发现，加入一些现实世界的数据有助于缓解这种情况）。

Keyes 认为，OpenAI 的 o1 等复杂模型还存在其他风险，他认为这些模型可能会在合成数据中产生更难发现的幻觉。这反过来又会降低基于数据训练的模型的准确性——尤其是在幻觉来源不易识别的情况下。

“复杂模型会产生幻觉；复杂模型产生的数据也包含幻觉，”Keyes 补充道。“对于像 o1 这样的模型，开发人员自己也未必能解释为什么会出现假象。”

幻觉的累积会导致模型产生胡言乱语。《自然》杂志发表的一项研究揭示了在错误数据上训练的模型如何生成更多错误数据，以及这种反馈循环如何降低未来几代模型的性能。研究人员发现，模型在几代人的努力下，对更深奥的知识的掌握越来越少——变得更加通用，而且经常给出与问题无关的答案。

后续研究表明，其他类型的模型，例如图像生成器，也无法免受这种崩溃的影响：

Soldaini 也认为“原始”合成数据不可信，至少如果我们的目标是避免训练健忘的聊天机器人和千篇一律的图像生成器的话。他说，要想“安全地”使用这些数据，就需要彻底审查、整理和过滤这些数据，最好将其与新鲜、真实的数据配对——就像你对待任何其他数据集一样。

如果不这样做，最终可能会导致模型崩溃，即模型的输出变得不那么“有创意”，而且更加偏颇，最终严重损害其功能。虽然可以在这一过程变得严重之前发现并阻止它，但这仍然是一种风险。

Soldaini 表示：“研究人员需要检查生成的数据，迭代生成过程，并确定安全措施以删除低质量数据点。合成数据管道不是自我改进的机器；其输出必须经过仔细检查和改进，然后才能用于训练。”

OpenAI 首席执行官 Sam Altman 曾说过，人工智能终有一天会生成足够好的合成数据，从而有效地进行自我训练。但是，即使这是可行的，这项技术目前还不存在。没有一家大型人工智能实验室发布过仅使用合成数据进行训练的模型。

至少在可预见的未来，我们似乎需要人类参与其中，以确保模型的训练不会出错。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/he-cheng-shu-ju-de-qian-jing-yu-feng-xian

Like (0)

王浩然作者

0 0

在《Roadrunner》遭到强烈反对后，导演摩根·内维尔 (Morgan Neville) 避开了生成式人工智能

Previous 2024年10月14日下午12:00

AI21首席执行官表示，由于错误延续，变压器不适合人工智能代理

Next 2024年10月14日

AI前沿

英国获得63亿英镑数据基础设施投资

美国四大公司宣布计划向英国数据基础设施投资总计 63 亿英镑。英国科技大臣彼得·凯尔在国际投资峰会上宣布了这一消息，称这是对英国与企业合作推动增长的方式的“信任投票”…

点点
2024年10月15日
000
AI前沿

微软的 TorchGeo 如何为机器学习专家简化地理空间数据

在当今数据驱动的世界中，地理空间信息对于洞察气候变化、城市发展、灾害管理和全球安全至关重要。尽管地理空间数据潜力巨大，但由于其规模、复杂性和缺乏标准化，处理地理空间数据面临着重大挑…

点点
2024年10月5日
000
AI前沿

Anthropic 推出新“风格”功能，在人工智能军备竞赛中押注个性化

Anthropic是一家由主要技术投资者支持的领先人工智能公司，今天宣布对其Claude AI助手进行重大更新，允许用户自定义 AI 的沟通方式——此举可能会重塑企业将 AI 融入…

王浩然
2024年11月27日
000
AI前沿

Gemini 2.0 闪亮登场：闪思（Flash Thinking）融入记忆与Google应用集成

几个月前，Google为其Gemini AI聊天机器人增添了推理模式功能。如今，Gemini 2.0闪思（Flash Thinking）实验性功能进一步扩展，为聊天体验带来了更多特…

王浩然
2025年3月17日
000
AI前沿

Google 在全球推出适用于 iOS 的 Gemini 应用

周四，谷歌在全球 iOS 上推出了一款专门针对其人工智能助手 Gemini 的应用。到目前为止，iOS 用户必须使用谷歌应用或移动网络才能与人工智能技术聊天。新的 Gemini …

王浩然
2024年11月16日
000
AI前沿

数千名创意人员签署请愿书，反对人工智能数据抓取

演员凯文·贝肯、小说家石黑一雄、音乐家罗伯特·史密斯、记者兼历史学家西德尼·布卢门撒尔有什么共同点？他们都是 11,500 名签署请愿书的人之一，反对未经许可使用创意作品进行人工智…

王浩然
2024年10月24日
000
AI前沿

非营利组织加入伊隆·马斯克的行列，阻止 OpenAI 向营利性转型

Encode 是一家非营利组织，也是加利福尼亚州命运多舛的 SB 1047人工智能安全法案的共同发起人，该组织已请求允许提交一份法庭之友陈述，以支持埃隆·马斯克的禁令，阻止 Ope…

王浩然
2024年12月29日
000
AI前沿

Google Cloud 在 Vertex 上推出 Veo AI 视频生成器模型

随着亚马逊凭借其新的 Nova 系列基础模型向人工智能领域迈出重要一步，谷歌也在加倍加强其自身的多模态人工智能能力。这家科技巨头的云部门宣布，其最新的视频和图像生成模型Veo和Im…

王浩然
2024年12月4日
000
AI前沿

图形数据库军备竞赛：微软及其竞争对手如何彻底改变网络安全

随着民族国家和资金雄厚的网络犯罪攻击团伙试图利用数字资产防御的巨大漏洞，多域攻击即将成为一种数字流行病。企业不得不应对企业资产、应用程序、系统、数据、身份和终端之间不断扩大且往往未…

王浩然
2024年11月23日
000
AI前沿

2025年iPhone上最佳的5款传真应用：轻松从移动设备发送文档

在数字化时代，尽管电子邮件和其他在线文件传输方式日益普及，但传真作为一种传统的通信手段，仍然在许多行业和场景中发挥着重要作用。为了满足用户在移动设备上发送传真的需求，市场上涌现了一…

王浩然
2025年3月16日
000
AI前沿

人工智能如何增强人类在销售和营销方面的潜力

人工智能 (AI) 正在彻底改变各行各业专业人士的营销和销售方式。通过采用 AI，该领域的专业人士可以提高效率、提高成果并做出更快、更明智的决策。销售和营销的 AI 演变不仅意味着…

点点
2024年10月9日
000
AI前沿

Canva 已提高其 Teams 产品的价格

设计平台 Canva 正在大幅提高部分客户的价格。该公司将此举部分归咎于生成式人工智能。在美国，部分使用旧定价计划的 Canva Teams 用户发现，五人计划的标价从每年 11…

王浩然
2024年9月4日
000
AI前沿

人工智能训练研究货币化：风险与最佳实践

随着对生成式人工智能的需求不断增长，对用于训练这些系统的高质量数据的需求也在不断增长。学术出版商已经开始将其研究内容货币化，为大型语言模型 (LLM) 提供训练数据。虽然这一发展为…

王浩然
2024年12月26日
000
AI前沿

ApertureData 获得 825 万美元种子资金并推出 ApertureDB Cloud 以彻底改变多模式 AI

ApertureData是一家处于多模态 AI 数据管理前沿的公司，该公司在超额认购的种子轮融资中筹集了 825 万美元，以推动其开创性平台 ApertureDB 的开发和扩展。此…

点点
2024年10月11日
000
AI前沿

Meta AI 的 GenAI“Imagine”功能扩展到 Facebook、Instagram 和 Messenger

Meta AI 周三在 Meta Connect 2024 大会上宣布，其 Imagine 功能正在 Facebook 和 Instagram 上推广，该功能使用生成式 AI 将文…

王浩然
2024年9月28日
000
AI前沿

语言过度：SLM 如何打败规模更大、资源密集型的同类

ChatGPT 公开发布两年后，各行各业的公司都希望利用大型语言模型(LLM) 来改变业务流程，因此关于 AI 的讨论已不可避免。然而，尽管 LLM 功能强大且前景光明，但许多业务…

王浩然
2024年12月22日
000
AI前沿

移动网络运营商如何利用人工智能革新电信行业

三十多年来，移动网络运营商 (MNO) 一直将研发重点放在五个关键领域：消息传递、漫游、策略、信令和清算。鉴于这些系统处理的数据量巨大，MNO 越来越注重利用人工智能 (AI)来增…

点点
2024年10月5日
000
AI前沿

DeepSeek：全面解析这款AI聊天机器人应用‌

DeepSeek是一款功能强大的AI聊天机器人应用，它集成了最新的自然语言处理技术和深度学习算法，旨在为用户提供前所未有的交互体验。无论是日常闲聊、信息查询还是专业咨询，DeepS…

王浩然
2025年2月27日
000
AI前沿

Sakana AI 的 CycleQD 优于多技能语言模型的传统微调方法

Sakana AI的研究人员开发了一种资源高效的框架，可以创建数百种专门用于不同任务的语言模型。该技术称为CycleQD，它使用进化算法来结合不同模型的技能，而无需昂贵且缓慢的训练…

王浩然
2024年12月7日
000
AI前沿

Pika 2.0 继 Sora 之后推出，将用户自己的角色、物体和场景整合到新的 AI 视频中

Pika是一家总部位于帕洛阿尔托的初创公司，也是创造逼真的 AI 视频生成工具的早期领导者之一，它推出了最新的 AI 视频生成器模型 Pika 2.0，它称这是一次重大更新，承诺为…

王浩然
2024年12月16日
000

发表回复

Please Login to Comment