人工智能预言家和新闻贩子们预测生成式人工智能炒作的终结,并谈论即将发生的灾难性的“模型崩溃”。
但这些预测有多现实?模型崩溃到底是什么?
“模型崩溃”这一概念在2023 年就被讨论过,但最近才开始流行,它指的是一种假设情景,即未来的人工智能系统由于互联网上人工智能生成的数据的增加而变得越来越愚蠢。
数据需求
现代人工智能系统是利用机器学习构建的。程序员设置了底层数学结构,但真正的“智能”来自于训练系统模仿数据中的模式。
但并非随便什么数据都可以。当前的生成式人工智能系统需要大量高质量数据。
为了获取这些数据,OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不断搜索互联网,收集数 TB 的内容来提供给机器。但自2022 年广泛可用且实用的生成式人工智能系统问世以来,人们越来越多地上传和分享部分或全部由人工智能制作的内容。
2023 年,研究人员开始怀疑是否可以只依赖人工智能创建的数据进行训练,而不是依赖人类生成的数据。
实现这一目标的动机非常强烈。除了在互联网上激增之外,人工智能制作的内容比人类数据获取成本要低得多。大规模收集人工智能制作的内容在道德和法律上 也不存在任何问题。
然而,研究人员发现,如果没有高质量的人类数据,那么使用人工智能数据进行训练的人工智能系统会变得越来越笨,因为每个模型都会从前一个模型中学习。这就像近亲繁殖问题的数字版本。
这种“反复训练”似乎会导致模型行为的质量和多样性下降。这里的质量大致是指乐于助人、无害和诚实的某种组合。多样性是指反应的变化以及哪些人的文化和社会观点体现在人工智能输出中。
简而言之,过度使用人工智能系统,我们可能会污染最初使它们有用的数据源。
避免崩溃
大型科技公司难道不能过滤掉人工智能生成的内容吗?其实不然。科技公司已经花费了大量的时间和金钱来清理和过滤他们抓取的数据,一位业内人士最近分享说,他们有时会丢弃最初收集的用于训练模型的数据的90% 。
随着专门删除人工智能生成内容的需求增加,这些努力可能会变得更加艰巨。但更重要的是,从长远来看,区分人工智能内容实际上会变得越来越困难。这将使过滤和删除合成数据成为一场收益递减的游戏。
最终,迄今为止的研究表明,我们无法完全摆脱人类数据。毕竟,人工智能中的“I”就是从这里来的。
我们是否正走向一场灾难?
有迹象表明,开发人员已经不得不更加努力地获取高质量数据。例如, GPT-4 发布的文档赞扬了参与该项目数据相关部分的员工数量空前。
我们可能也快要用尽新的人类数据了。有人估计,人类生成的文本数据可能最早在 2026 年就耗尽。
这可能是 OpenAI 和其他公司竞相与Shutterstock、美联社和新闻集团等行业巨头建立独家合作关系的原因。他们拥有大量专有的人类数据,而这些数据在公共互联网上并不容易获得。
然而,模型灾难性崩溃的前景可能被夸大了。迄今为止,大多数研究都着眼于合成数据取代人类数据的情况。实际上,人类和人工智能数据可能会同时积累,从而降低崩溃的可能性。
未来最有可能出现的情况是,一个由各种不同的生成式人工智能平台组成的生态系统将被用于创建和发布内容,而不是单一的模型。这也增加了抵御崩溃的稳健性。
这对于监管机构通过限制人工智能领域的垄断来促进良性竞争、以及资助公益技术开发来说是一个很好的理由。
真正的担忧
过多的人工智能制作内容还会带来更隐蔽的风险。
大量合成内容可能不会对人工智能发展的进程构成生存威胁,但它确实威胁到(人类)互联网的数字公共利益。
例如,研究人员发现,在 ChatGPT 发布一年后,编码网站 StackOverflow 上的活动量下降了 16%。这表明人工智能辅助可能已经减少了一些在线社区中人与人之间的互动。
人工智能内容农场的过度生产也让寻找非充斥着广告的点击诱饵的内容变得更加困难。
越来越不可能准确区分人类生成的内容和人工智能生成的内容。补救措施之一是给人工智能生成的内容添加水印或标签,正如我和其他许多人最近强调的那样,这也反映在澳大利亚政府最近的临时立法中。
还有另一个风险。随着人工智能生成的内容变得系统性地同质化,我们有可能失去社会文化多样性,一些群体甚至可能经历文化抹杀。我们迫切需要对人工智能系统带来的社会和文化挑战进行跨学科研究。
人际交往和人类数据都很重要,我们应该保护它们。这不仅是为了我们自己,也许也是为了未来模型崩溃的潜在风险。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/shen-me-shi-mo-xing-beng-kui-zhuan-jia-jie-shi-you-guan-ji