天哪,科技界的形势瞬息万变。就在两年前,人工智能还被誉为“统治一切的下一个变革性技术”。现在,人工智能非但没有达到天网的水平并统治世界,反而在逐渐退化。
人工智能曾是新智能时代的先驱,但现在却在自己的代码上遇到了麻烦,难以实现它所承诺的辉煌。但究竟为什么呢?简单的事实是,我们让人工智能缺乏让它真正变得聪明的东西:人类生成的数据。
为了满足这些需要大量数据的模型的需求,研究人员和组织越来越多地转向使用合成数据。虽然这种做法长期以来一直是人工智能开发的主要内容,但我们现在正因为过度依赖它而进入危险领域,导致人工智能模型逐渐退化。这不仅仅是对ChatGPT产生低于标准结果的小小担忧——其后果要危险得多。
当人工智能模型基于之前迭代产生的输出进行训练时,它们往往会传播错误并引入噪音,从而导致输出质量下降。这种递归过程将常见的“垃圾输入,垃圾输出”循环变成了一个自我延续的问题,大大降低了系统的有效性。随着人工智能越来越偏离人类的理解力和准确性,它不仅会损害性能,还会引发人们对长期依赖自生成数据继续开发人工智能的可行性的严重担忧。
但这不仅仅是技术的退化,更是现实、身份和数据真实性的退化——对人类和社会构成严重风险。其连锁反应可能非常深远,导致严重错误增加。随着这些模型失去准确性和可靠性,后果可能非常严重——想想医疗误诊、经济损失,甚至危及生命的事故。
另一个重大影响是,人工智能的发展可能会完全停滞,导致人工智能系统无法吸收新数据,并基本上陷入“停滞状态”。这种停滞不仅会阻碍进步,还会使人工智能陷入收益递减的循环,可能对技术和社会造成灾难性的影响。
但从实际情况来看,企业可以做些什么来确保其客户和用户的安全呢?在回答这个问题之前,我们需要了解这一切是如何运作的。
当模型崩溃时,可靠性就不复存在
人工智能生成的内容在网上传播得越多,它渗透到数据集和模型本身的速度就越快。而且这种情况正在加速发生,这使得开发人员越来越难以过滤掉任何不是纯粹的、人工创建的训练数据。事实上,在训练中使用合成内容会引发一种被称为“模型崩溃”或“模型自噬障碍(MAD)”的有害现象。
模型崩溃是一种退化过程,在此过程中,AI 系统逐渐失去对它们要建模的真实底层数据分布的掌握。当 AI 对其生成的内容进行递归训练时,通常会发生这种情况,从而导致许多问题:
- 失去细微差别:模型开始忘记异常数据或代表性较低信息,而这些信息对于全面理解任何数据集都至关重要。
- 多样性降低:模型输出的多样性和质量明显下降。
- 偏见的放大:由于模型忽视了可以减轻这些偏见的细微数据,现有的偏见,特别是针对边缘群体的偏见,可能会加剧。
- 产生无意义的输出:随着时间的推移,模型可能会开始产生完全不相关或无意义的输出。
举个例子:《自然》杂志发表的一项研究强调了在人工智能生成的文本上进行递归训练的语言模型的快速退化。到第九次迭代时,人们发现这些模型产生的内容完全不相关且毫无意义,这表明数据质量和模型效用迅速下降。
保障人工智能的未来:企业今天可以采取的措施
企业组织处于负责任地塑造人工智能未来的独特地位,并且可以采取明确、可行的步骤来确保人工智能系统的准确性和可信度:
- 投资数据来源工具:追踪每条数据来源及其随时间变化的工具可让公司对其 AI 输入充满信心。通过清晰地了解数据来源,组织可以避免向模型提供不可靠或有偏见的信息。
- 部署 AI 驱动的过滤器来检测合成内容:高级过滤器可以在AI 生成的内容或低质量内容进入训练数据集之前将其捕获。这些过滤器有助于确保模型从真实的、人工创建的信息中学习,而不是从缺乏现实世界复杂性的合成数据中学习。
- 与值得信赖的数据提供商合作:与经过审查的数据提供商建立牢固的关系,可为组织提供稳定的真实、高质量数据。这意味着 AI 模型可以获得反映实际场景的真实、细致入微的信息,从而提高性能和相关性。
- 提高数字素养和意识:通过教育团队和客户了解数据真实性的重要性,组织可以帮助人们识别人工智能生成的内容并了解合成数据的风险。培养对负责任的数据使用的意识可以培养一种重视人工智能开发准确性和完整性的文化。
人工智能的未来取决于负责任的行动。企业有真正的机会让人工智能以准确性和完整性为基础。通过选择真实的、来自人类的数据而不是捷径,优先使用能够捕获和过滤低质量内容的工具,并鼓励人们对数字真实性的认识,组织可以让人工智能走上更安全、更智能的道路。让我们专注于建设一个人工智能既强大又真正造福社会的未来。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/he-cheng-shu-ju-you-qi-ju-xian-xing-wei-shen-me-ren-lei-lai