合成数据有其局限性——为什么人类来源的数据可以帮助防止人工智能模型崩溃

王浩然 • 2024年12月16日下午1:00 • AI前沿 • 105 views

天哪，科技界的形势瞬息万变。就在两年前，人工智能还被誉为“统治一切的下一个变革性技术”。现在，人工智能非但没有达到天网的水平并统治世界，反而在逐渐退化。

人工智能曾是新智能时代的先驱，但现在却在自己的代码上遇到了麻烦，难以实现它所承诺的辉煌。但究竟为什么呢？简单的事实是，我们让人工智能缺乏让它真正变得聪明的东西：人类生成的数据。

为了满足这些需要大量数据的模型的需求，研究人员和组织越来越多地转向使用合成数据。虽然这种做法长期以来一直是人工智能开发的主要内容，但我们现在正因为过度依赖它而进入危险领域，导致人工智能模型逐渐退化。这不仅仅是对ChatGPT产生低于标准结果的小小担忧——其后果要危险得多。

当人工智能模型基于之前迭代产生的输出进行训练时，它们往往会传播错误并引入噪音，从而导致输出质量下降。这种递归过程将常见的“垃圾输入，垃圾输出”循环变成了一个自我延续的问题，大大降低了系统的有效性。随着人工智能越来越偏离人类的理解力和准确性，它不仅会损害性能，还会引发人们对长期依赖自生成数据继续开发人工智能的可行性的严重担忧。

但这不仅仅是技术的退化，更是现实、身份和数据真实性的退化——对人类和社会构成严重风险。其连锁反应可能非常深远，导致严重错误增加。随着这些模型失去准确性和可靠性，后果可能非常严重——想想医疗误诊、经济损失，甚至危及生命的事故。

另一个重大影响是，人工智能的发展可能会完全停滞，导致人工智能系统无法吸收新数据，并基本上陷入“停滞状态”。这种停滞不仅会阻碍进步，还会使人工智能陷入收益递减的循环，可能对技术和社会造成灾难性的影响。

但从实际情况来看，企业可以做些什么来确保其客户和用户的安全呢？在回答这个问题之前，我们需要了解这一切是如何运作的。

当模型崩溃时，可靠性就不复存在

人工智能生成的内容在网上传播得越多，它渗透到数据集和模型本身的速度就越快。而且这种情况正在加速发生，这使得开发人员越来越难以过滤掉任何不是纯粹的、人工创建的训练数据。事实上，在训练中使用合成内容会引发一种被称为“模型崩溃”或“模型自噬障碍(MAD)”的有害现象。

模型崩溃是一种退化过程，在此过程中，AI 系统逐渐失去对它们要建模的真实底层数据分布的掌握。当 AI 对其生成的内容进行递归训练时，通常会发生这种情况，从而导致许多问题：

失去细微差别：模型开始忘记异常数据或代表性较低信息，而这些信息对于全面理解任何数据集都至关重要。
多样性降低：模型输出的多样性和质量明显下降。
偏见的放大：由于模型忽视了可以减轻这些偏见的细微数据，现有的偏见，特别是针对边缘群体的偏见，可能会加剧。
产生无意义的输出：随着时间的推移，模型可能会开始产生完全不相关或无意义的输出。

举个例子：《自然》杂志发表的一项研究强调了在人工智能生成的文本上进行递归训练的语言模型的快速退化。到第九次迭代时，人们发现这些模型产生的内容完全不相关且毫无意义，这表明数据质量和模型效用迅速下降。

保障人工智能的未来：企业今天可以采取的措施

企业组织处于负责任地塑造人工智能未来的独特地位，并且可以采取明确、可行的步骤来确保人工智能系统的准确性和可信度：

投资数据来源工具：追踪每条数据来源及其随时间变化的工具可让公司对其 AI 输入充满信心。通过清晰地了解数据来源，组织可以避免向模型提供不可靠或有偏见的信息。
部署 AI 驱动的过滤器来检测合成内容：高级过滤器可以在AI 生成的内容或低质量内容进入训练数据集之前将其捕获。这些过滤器有助于确保模型从真实的、人工创建的信息中学习，而不是从缺乏现实世界复杂性的合成数据中学习。
与值得信赖的数据提供商合作：与经过审查的数据提供商建立牢固的关系，可为组织提供稳定的真实、高质量数据。这意味着 AI 模型可以获得反映实际场景的真实、细致入微的信息，从而提高性能和相关性。
提高数字素养和意识：通过教育团队和客户了解数据真实性的重要性，组织可以帮助人们识别人工智能生成的内容并了解合成数据的风险。培养对负责任的数据使用的意识可以培养一种重视人工智能开发准确性和完整性的文化。

人工智能的未来取决于负责任的行动。企业有真正的机会让人工智能以准确性和完整性为基础。通过选择真实的、来自人类的数据而不是捷径，优先使用能够捕获和过滤低质量内容的工具，并鼓励人们对数字真实性的认识，组织可以让人工智能走上更安全、更智能的道路。让我们专注于建设一个人工智能既强大又真正造福社会的未来。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/he-cheng-shu-ju-you-qi-ju-xian-xing-wei-shen-me-ren-lei-lai

ChatGPT MAD 人工智能变革性技术模型自噬障碍

Like (0)

王浩然作者

0 0

我们已经从 RPA 走了很长一段路：AI 代理如何彻底改变自动化

Previous 2024年12月16日

Cohere 最小、最快的 R 系列模型在 RAG 方面表现出色，能够推理 23 种语言

Next 2024年12月16日

AI前沿

量子机器人和人工智能将与人类智能媲美

一个国际科学家团队预测，量子计算与人工智能的融合可以创造出具有前所未有能力的机器人，甚至可能与人类的智能相匹配。这些“量子机器人”将利用量子算法和流程，克服当前机器人依赖二进制计…

王浩然
2024年12月7日
000
AI前沿

Cohere 联合创始人 Nick Frosst 的独立乐队 Good Kid 几乎和他的 AI 公司一样成功

他们在 Lollapalooza 音乐节上表演过，为葡萄牙音乐节 The Man 做开场表演，白天还做程序员。估值 55 亿美元的加拿大人工智能初创公司 Cohere的联合创始人…

王浩然
2024年9月16日
000
AI前沿

谷歌地图将在印度显示人工智能点评摘要

谷歌正在印度地图上添加新的人工智能功能，包括人工智能摘要、搜索体验的能力和天气警报。该公司表示，地图应用将分析评论并显示地点摘要。该公司于周四在其年度 Google for In…

王浩然
2024年10月5日
000
AI前沿

Neo4j 通过 gen AI copilot 降低了图形技术的门槛，读取容量提高了 15 倍

随着企业继续加大对人工智能和分析的投入，数据基础设施供应商正在竭尽全力降低其产品的采用门槛，并为希望从数据资产中获取价值的团队提供最大的投资回报。我们已经看到了Snowflake …

王浩然
2024年9月9日
000
AI前沿

Vision Pro将在4月融入苹果智能技术

自2021年11月1日起，Yahoo服务在中国大陆地区已无法访问，但这并不妨碍我们关注全球科技领域的最新动态。近日，有消息称，苹果公司的Vision Pro将在4月迎来一次重大更新…

王浩然
2025年2月25日
000
AI前沿

特斯拉 Cybercab 机器人出租车问世——售价可能不到 3 万美元

特斯拉终于发布了 Cybercab 机器人出租车。Cyber cab在公司的We, Robot 活动上亮相，看起来像一款更小、更时尚的双座 Cybertruck——该公…

点点
2024年10月13日
000
AI前沿

D-ID 推出可进行实时对话的全新高质量虚拟形象

AI 视频平台 D-ID 今天宣布推出两种用于内容创作的新类型化身——Express 和 Premium+。各家公司都在追逐创造更像人类的人工智能形象的金蛋，这些形象可能会减轻企…

王浩然
2024年11月2日
000
AI前沿

OpenAI的ChatGPT用户激增至4亿，GPT-5即将面世‌

OpenAI的ChatGPT用户量已突破4亿周活跃用户大关，这一里程碑彰显了公司在消费者和企业市场的快速扩张。根据首席运营官Brad Lightcap周四在X平台上的帖子，Chat…

王浩然
2025年2月22日
000
AI前沿

特朗普的人工智能沙皇和人工智能监管的狂野西部：企业应对混乱的策略

人工智能正在飞速发展，但监管环境却一片混乱。随着即将上任的特朗普政府誓言采取不干预的监管方式，联邦层面缺乏人工智能监管意味着美国正面临着由各州主导的零散规则——在某些情况下甚至根本…

王浩然
2024年11月27日
000
AI前沿

苹果AI背后的秘密大招，为每个人定制“隐私保安”，《连线》深度拆解苹果私密云计算技术PCC

智东西9月12日消息，本周苹果公司刚刚发布了全新的iPhone 16系列手机新品，并同步推出了最新iOS 18系统，其中的最大亮点就是内置的苹果AI功能（Apple Intelli…

点点
2024年9月13日
000
AI前沿

OpenAI将ChatGPT变成搜索引擎，直指谷歌

OpenAI今天将其广受欢迎的ChatGPT服务改造成一款强大的搜索引擎，这是该公司与谷歌竞争以来最大胆的举措。此次升级让用户能够用简单的英语提问，并获取有关新闻、体育、股票和天气…

王浩然
2024年11月3日
000
AI前沿

专家称特朗普撤销拜登人工智能行政令将使行业更加混乱

新的一年，即将上任的特朗普政府预计将对现有政策做出许多改变，人工智能监管也将不例外。这可能包括废除现任总统乔·拜登的人工智能行政命令。拜登的命令设立了政府监督办公室，并鼓励模型开…

王浩然
2024年11月17日
000
AI前沿

Lightmatter 获得 4 亿美元融资，AI 超大规模企业对光子数据中心充满期待

光子计算初创公司Lightmatter已筹集 4 亿美元，旨在突破现代数据中心的一个瓶颈。该公司的光学互连层可让数百个 GPU 同步工作，从而简化了昂贵而复杂的 AI 模型训练和运…

王浩然
2024年10月17日
000
AI前沿

数据新时代的交易枢纽：Carbon Arc打造授权交易数据市场，赋能LLMs与企业应用

在数据被誉为“新石油”的当今时代，数据的重要性不言而喻。然而，尽管数据被视为一种宝贵的资源，但其交易与流通却远不如石油那样顺畅。数据的获取往往伴随着法律纠纷与版权问题，使得企业在追…

王浩然
2025年3月24日
000
AI前沿

Cerebras-Perplexity 交易以超快 AI 瞄准 1000 亿美元搜索市场

Cerebras Systems和Perplexity AI正在联手挑战传统搜索引擎的主导地位，并宣布建立合作伙伴关系，承诺以以前认为不可能的速度提供近乎即时的人工智能搜索结果。 …

王浩然
2025年2月12日
000
AI前沿

人为因素：企业如何预防云灾难

大公司非常努力地确保他们的服务不会中断，原因很简单——严重的中断会损害你的品牌，并促使客户选择具有更好记录的竞争产品。构建可靠的互联网服务是一个技术难题，但对于公司领…

王浩然
2024年10月20日
000
AI前沿

X 正在测试 AI 聊天机器人 Grok 的免费版本

社交网络 X 迄今为止将其 AI 聊天机器人 Grok（由埃隆·马斯克的另一家公司 xAI 开发）限制给高级付费用户使用。不过，该平台似乎正准备向免费用户开放聊天机器人。上周末，…

王浩然
2024年11月12日
000
AI前沿

Perplexity 称其目前每周处理 1 亿次搜索查询

Perplexity 首席执行官 Aravind Srinivas表示，该人工智能搜索引擎目前每周执行 1 亿次查询。按月推算，大约有 4 亿次查询，高于7 月份的 2.5 亿次查…

王浩然
2024年10月26日
000
AI前沿

利用人工智能解锁医疗保健领域的新可能性

由于机器学习和人工智能的使用，美国的医疗保健正处于重大潜在颠覆的早期阶段。这种转变已经进行了十多年，但随着最近的进展，似乎将迎来更快的变化。我们仍有许多工作要做，以了解人工智能在医…

点点
2024年10月18日
000
AI前沿

OpenAI：每周服务用户量突破4亿

OpenAI，这家引领人工智能领域发展的先锋企业，近期宣布其每周服务用户量已突破4亿大关。这一里程碑式的成就，标志着OpenAI的技术和服务在全球范围内受到了广泛认可和热烈欢迎。 …

王浩然
2025年2月24日
000