生成式人工智能不会给濒危语言判死刑

生成式人工智能不会给濒危语言判死刑

联合国教科文组织称,到 2100 年,多达一半的语言可能会消失。许多人表示,生成式人工智能正在加剧这一进程。

语言多样性的下降并非始于人工智能或互联网。但人工智能可以加速本土语言低资源语言的消亡。

世界上 7,000 多种语言中的大多数都没有足够的资源来训练 AI 模型,而且许多语言都没有书面形式。这意味着少数几种主要语言主导着人类潜在的 AI 训练数据,而大多数语言将在 AI 革命中被抛在后面,甚至可能完全消失。

原因很简单,大多数可用的 AI 训练数据都是英文的。英语是大型语言模型 (LLM) 的主要驱动力,而那些使用非常见语言的人在 AI 技术方面缺乏代表性。

请看一下世界经济论坛的以下统计数据

  • 所有网站中有三分之二是英文的。
  • GenAI 学习的大部分数据都是从网络上抓取的。
  • 世界上只有不到20%的人口说英语。

随着人工智能越来越深入我们的日常生活,我们都应该考虑语言平等问题。人工智能具有前所未有的大规模解决问题的潜力,其前景不应局限于英语世界。人工智能正在为富裕发达国家的人们创造便利和工具,以改善人们的个人和职业生活。

语言资源匮乏的使用者已经习惯了技术缺乏代表性——从找不到用他们语言编写的网站到 Siri 无法识别他们的方言。许多可用于训练 AI 的语言资源匮乏的文本质量较差(翻译本身的准确性值得怀疑),而且范围狭窄。

社会如何确保资源较少的语言不会被排除在人工智能方程式之外?我们如何确保语言不会成为人工智能前景的障碍?

为了实现语言包容性,一些大型科技公司已经开始培训大型多语言模型 (MLM)。例如,微软翻译承诺支持“所有语言,所有地方”。Meta 也做出了“不让任何语言掉队”的承诺。这些都值得称赞,但它们现实吗?

追求一种能够处理世界上所有语言的模型有利于特权阶层,因为世界上主要语言的数据量要大得多。当我们开始处理资源较少的语言和非拉丁文字的语言时,训练人工智能模型变得更加艰巨、耗时,而且成本更高。可以把它看作是对代表性不足的语言的无意征税。

语音技术的进步

AI 模型主要基于文本进行训练,因此自然更青睐文本内容存储量较大的语言。不依赖文本的系统可以更好地支持语言多样性。人类互动曾经完全基于语音,许多文化仍然以口语为中心。为了更好地满足全球受众的需求,AI 行业必须从文本数据发展到语音数据。

语音技术的研究正在取得巨大进步,但仍然落后于基于文本的技术。语音处理的研究正在取得进展,但直接语音转语音技术还远未成熟。现实情况是,业界往往谨慎行事,只有当技术发展到一定水平时才会采取行动。

TransPerfect 新发布的 GlobalLink Live 口译平台再次采用了更为成熟的语音技术——自动语音识别 (ASR) 和文本转语音 (TTS),因为直接语音转语音系统目前还不够成熟。话虽如此,我们的研究团队正在为语音转语音管道全面投入使用的那一天做准备。

语音转语音翻译模型在口语保存方面具有巨大潜力。2022 年,Meta 宣布推出首个由人工智能驱动的闽南语语音转语音翻译系统,闽南语是华人侨民中约 4600 万人使用的一种主要口语语言。它是 Meta 通用语音翻译项目的一部分,该项目正在开发新的人工智能模型,希望能够实现多种语言的实时语音转语音翻译。Meta 选择开源其闽南语翻译模型、评估数据集和研究论文,以便其他人可以复制和借鉴其工作。

用更少的资源学习

事实上,我们作为一个全球社区缺乏某些语言的资源,但这并不意味着这些语言会被淘汰。这正是多语言模型的优势所在,因为语言之间可以相互学习。所有语言都遵循模式。由于语言之间的知识转移,对训练数据的需求减少了。

假设你有一个模型正在学习 90 种语言,并且你想添加因纽特语(一组北美土著语言)。由于知识转移,你需要的因纽特语数据会更少。我们正在寻找用更少的数据进行学习的方法。微调引擎所需的数据量更少。

我对未来更具包容性的人工智能充满希望。我不认为我们注定会看到大量语言消失——我也不认为人工智能会一直是英语世界的专利。我们已经看到人们对语言平等问题的认识有所提高。从更多样化的数据收集到构建更多特定语言的模型,我们正在取得进展。

以丰语为例,这种语言在贝宁和邻近的非洲国家有大约 400 万人使用。不久前,一个流行的人工智能模型将丰语描述为一种虚构语言。一位名叫 Bonaventure Dosseau 的计算机科学家,他的母亲讲丰语,他已经习惯了这种排斥。讲法语的 Dosseau 从小就没有翻译程序来帮助他与母亲交流。如今,多亏了他精心打造的丰语-法语翻译器,他可以与母亲交流。如今,还有一个刚刚起步的丰语维基百科。

为了利用技术保护语言,土耳其艺术家 Refik Anadol 开始为土著人民创建开源人工智能工具。在世界经济峰会上,他问道:“我们究竟如何才能创造出一种不了解整个人类的人工智能?”

我们不能,也不会。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/sheng-cheng-shi-ren-gong-zhi-neng-bu-hui-gei-bin-wei-yu-yan

Like (0)
王 浩然的头像王 浩然作者
Previous 2024年8月23日 下午10:20
Next 2024年8月25日 上午11:29

相关推荐

发表回复

Please Login to Comment