有可能仅使用另一个人工智能生成的数据来训练一个人工智能吗?这听起来可能有点荒唐。但这个想法已经存在了相当长一段时间——而且随着新的真实数据越来越难获得,这种想法越来越受到关注。
Anthropic 使用一些合成数据来训练其旗舰模型之一Claude 3.5 Sonnet。Meta使用 AI 生成的数据对其Llama 3.1模型进行了微调。据说 OpenAI 正在从其“推理”模型o1中获取合成训练数据,用于即将推出的Orion。
但为什么人工智能需要数据?它需要什么样的数据?这些数据真的可以被合成数据取代吗?
注释的重要性
人工智能系统是统计机器。通过大量示例进行训练,它们可以学习这些示例中的模式来做出预测,例如电子邮件中的“致谁”通常在“相关人员”之前。
注释(通常是标注这些系统所提取数据的含义或部分的文本)是这些示例中的关键部分。它们充当着路标,“教导”模型区分事物、地点和想法。
假设有一个照片分类模型,它向模型展示了大量标有“厨房”一词的厨房图片。在训练过程中,模型将开始将“厨房”与厨房的一般特征联系起来(例如,厨房里有冰箱和台面)。经过训练后,如果给出一张初始示例中没有的厨房照片,模型应该能够识别出它。(当然,如果厨房图片被标记为“牛”,它会将它们识别为牛,这强调了良好注释的重要性。)
对人工智能的渴求以及为其发展提供标记数据的需求使标注服务市场迅速膨胀。Dimension Market Research估计,目前该市场价值 8.382 亿美元,未来十年将达到 103.4 亿美元。虽然没有精确估计有多少人从事标注工作,但 2022 年的一篇 论文 将这一数字定为“数百万”。
大大小小的公司都依赖数据标注公司雇佣的员工来为 AI 训练集创建标签。其中一些工作的薪水相当高,特别是如果标注需要专业知识(例如数学专业知识)。其他工作则可能非常辛苦。发展中国家的标注员平均每小时的工资只有几美元,没有任何福利或未来工作的保障。
干燥数据井
因此,寻求替代人工标签的办法是出于人文主义的原因。但也有实际原因。
人类标注的速度有限。标注者也有偏见,这些偏见会体现在他们的标注中,进而体现在任何基于这些偏见进行训练的模型中。标注者会犯错,或者被标注指令绊倒。而且付钱让人类来做这些事情是昂贵的。
事实上,数据通常很昂贵。Shutterstock 向 AI 供应商收取数千万美元以访问其档案,而 Reddit 则 通过向 Google、OpenAI 和其他公司授权数据赚取了数亿美元。
最后,数据也变得越来越难以获取。
大多数模型都是在海量公共数据上进行训练的——越来越多的数据所有者选择屏蔽这些数据,因为他们担心自己的数据被 剽窃,或者不会因此获得荣誉或归属。 目前,全球前 1000 个网站中,超过 35% 屏蔽了 OpenAI 的网络爬虫。最近的一项研究 发现,大约 25% 的“高质量”来源的数据被禁止用于训练模型的主要数据集 。
如果目前的访问阻止趋势继续下去,研究小组 Epoch AI 预测 ,开发人员将在 2026 年至 2032 年之间耗尽用于训练生成式 AI 模型的数据。再加上对版权诉讼和不良内容进入开放数据集的担忧,AI 供应商不得不开始反思。
合成替代品
乍一看,合成数据似乎是所有这些问题的解决方案。需要注释?生成注释。更多示例数据?没问题。一切皆有可能。
从某种程度上来说,这是事实。
“如果说‘数据是新石油’,那么合成数据就是生物燃料,可以创造而没有真实事物的负面外部性,”华盛顿大学研究新兴技术伦理影响的博士生奥斯·凯斯 (Os Keyes) 告诉 TechCrunch。“你可以从一小组数据开始,然后模拟和推断出新的条目。”
人工智能行业已经采纳了这一概念并开始运行。
本月,专注于企业的生成式 AI 公司 Writer 推出了一款模型 Palmyra X 004,该模型几乎完全基于合成数据进行训练。Writer 称,开发该模型仅花费 70 万美元,而同等规模的 OpenAI 模型的开发成本估计为 460 万美元。
微软的Phi开放模型部分使用合成数据进行训练。谷歌的Gemma模型也是如此。今年夏天, Nvidia推出了一个旨在生成合成训练数据的模型系列,而人工智能初创公司 Hugging Face 最近发布了据称是最大的合成文本人工智能训练数据集。
合成数据生成本身已经成为一门生意,到 2030 年其价值可能达到23.4 亿美元。Gartner 预测 ,今年用于人工智能和分析项目的数据中有 60% 将由合成数据生成。
艾伦人工智能研究所高级研究员 Luca Soldaini 指出,合成数据技术可用于生成训练数据,这种格式的训练数据无法通过抓取(甚至内容许可)轻易获得。例如,在训练其视频生成器Movie Gen时,Meta 使用 Llama 3 为训练数据中的镜头创建字幕,然后人工对其进行改进,添加更多细节,例如对灯光的描述。
同样,OpenAI 表示,它 使用合成数据对GPT-4o进行了微调,从而为 ChatGPT 构建了类似画板的Canvas功能。亚马逊表示,它会生成合成数据来补充用于训练 Alexa 语音识别模型的真实数据。
索尔达尼说:“合成数据模型可用于快速扩展人类的直觉,即需要哪些数据来实现特定的模型行为。”
合成风险
然而,合成数据并非万能药。它与所有人工智能一样,都面临“垃圾输入,垃圾输出”的问题。模型会创建合成数据,如果用于训练这些模型的数据存在偏差和局限性,其输出也会受到类似影响。例如,在基础数据中表现不佳的群体在合成数据中也会如此。
“问题是,你能做的很有限,”凯斯说。“假设你的数据集中只有 30 名黑人。外推可能会有所帮助,但如果这 30 人都是中产阶级,或者都是浅肤色,那么‘代表性’数据就全都是这个样子。”
到目前为止,莱斯大学和斯坦福大学的研究人员在 2023 年进行的一项研究发现,在训练过程中过度依赖合成数据会导致模型的“质量或多样性逐渐下降”。研究人员表示,采样偏差(对现实世界的糟糕表现)会导致模型的多样性在几代训练后恶化(尽管他们也发现,加入一些现实世界的数据有助于缓解这种情况)。
Keyes 认为,OpenAI 的 o1 等复杂模型还存在其他风险,他认为这些模型可能会在合成数据中产生更难发现的幻觉。这反过来又会降低基于数据训练的模型的准确性——尤其是在幻觉来源不易识别的情况下。
“复杂模型会产生幻觉;复杂模型产生的数据也包含幻觉,”Keyes 补充道。“对于像 o1 这样的模型,开发人员自己也未必能解释为什么会出现假象。”
幻觉的累积会导致模型产生胡言乱语。《自然》杂志发表的一项研究揭示了在错误数据上训练的模型如何生成更多错误数据,以及这种反馈循环如何降低未来几代模型的性能。研究人员发现,模型在几代人的努力下,对更深奥的知识的掌握越来越少——变得更加通用,而且经常给出与问题无关的答案。
后续研究表明,其他类型的模型,例如图像生成器,也无法免受这种崩溃的影响:
Soldaini 也认为“原始”合成数据不可信,至少如果我们的目标是避免训练健忘的聊天机器人和千篇一律的图像生成器的话。他说,要想“安全地”使用这些数据,就需要彻底审查、整理和过滤这些数据,最好将其与新鲜、真实的数据配对——就像你对待任何其他数据集一样。
如果不这样做,最终可能会 导致模型崩溃,即模型的输出变得不那么“有创意”,而且更加偏颇,最终严重损害其功能。虽然可以在这一过程变得严重之前发现并阻止它,但这仍然是一种风险。
Soldaini 表示:“研究人员需要检查生成的数据,迭代生成过程,并确定安全措施以删除低质量数据点。合成数据管道不是自我改进的机器;其输出必须经过仔细检查和改进,然后才能用于训练。”
OpenAI 首席执行官 Sam Altman 曾说过,人工智能终有一天会生成足够好的合成数据,从而有效地进行自我训练。但是,即使这是可行的,这项技术目前还不存在。没有一家大型人工智能实验室发布过仅使用合成数据进行训练的模型 。
至少在可预见的未来,我们似乎需要人类参与其中,以确保模型的训练不会出错。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/he-cheng-shu-ju-de-qian-jing-yu-feng-xian