生成式人工智能不会给濒危语言判死刑

王浩然 • 2024年8月25日上午12:14 • AI前沿 • 79 views

据联合国教科文组织称，到 2100 年，多达一半的语言可能会消失。许多人表示，生成式人工智能正在加剧这一进程。

语言多样性的下降并非始于人工智能或互联网。但人工智能可以加速本土语言和低资源语言的消亡。

世界上 7,000 多种语言中的大多数都没有足够的资源来训练 AI 模型，而且许多语言都没有书面形式。这意味着少数几种主要语言主导着人类潜在的 AI 训练数据，而大多数语言将在 AI 革命中被抛在后面，甚至可能完全消失。

原因很简单，大多数可用的 AI 训练数据都是英文的。英语是大型语言模型 (LLM) 的主要驱动力，而那些使用非常见语言的人在 AI 技术方面缺乏代表性。

请看一下世界经济论坛的以下统计数据：

所有网站中有三分之二是英文的。
GenAI 学习的大部分数据都是从网络上抓取的。
世界上只有不到20％的人口说英语。

随着人工智能越来越深入我们的日常生活，我们都应该考虑语言平等问题。人工智能具有前所未有的大规模解决问题的潜力，其前景不应局限于英语世界。人工智能正在为富裕发达国家的人们创造便利和工具，以改善人们的个人和职业生活。

语言资源匮乏的使用者已经习惯了技术缺乏代表性——从找不到用他们语言编写的网站到 Siri 无法识别他们的方言。许多可用于训练 AI 的语言资源匮乏的文本质量较差（翻译本身的准确性值得怀疑），而且范围狭窄。

社会如何确保资源较少的语言不会被排除在人工智能方程式之外？我们如何确保语言不会成为人工智能前景的障碍？

为了实现语言包容性，一些大型科技公司已经开始培训大型多语言模型 (MLM)。例如，微软翻译承诺支持“所有语言，所有地方”。Meta 也做出了“不让任何语言掉队”的承诺。这些都值得称赞，但它们现实吗？

追求一种能够处理世界上所有语言的模型有利于特权阶层，因为世界上主要语言的数据量要大得多。当我们开始处理资源较少的语言和非拉丁文字的语言时，训练人工智能模型变得更加艰巨、耗时，而且成本更高。可以把它看作是对代表性不足的语言的无意征税。

语音技术的进步

AI 模型主要基于文本进行训练，因此自然更青睐文本内容存储量较大的语言。不依赖文本的系统可以更好地支持语言多样性。人类互动曾经完全基于语音，许多文化仍然以口语为中心。为了更好地满足全球受众的需求，AI 行业必须从文本数据发展到语音数据。

语音技术的研究正在取得巨大进步，但仍然落后于基于文本的技术。语音处理的研究正在取得进展，但直接语音转语音技术还远未成熟。现实情况是，业界往往谨慎行事，只有当技术发展到一定水平时才会采取行动。

TransPerfect 新发布的 GlobalLink Live 口译平台再次采用了更为成熟的语音技术——自动语音识别 (ASR) 和文本转语音 (TTS)，因为直接语音转语音系统目前还不够成熟。话虽如此，我们的研究团队正在为语音转语音管道全面投入使用的那一天做准备。

语音转语音翻译模型在口语保存方面具有巨大潜力。2022 年，Meta 宣布推出首个由人工智能驱动的闽南语语音转语音翻译系统，闽南语是华人侨民中约 4600 万人使用的一种主要口语语言。它是 Meta 通用语音翻译项目的一部分，该项目正在开发新的人工智能模型，希望能够实现多种语言的实时语音转语音翻译。Meta 选择开源其闽南语翻译模型、评估数据集和研究论文，以便其他人可以复制和借鉴其工作。

用更少的资源学习

事实上，我们作为一个全球社区缺乏某些语言的资源，但这并不意味着这些语言会被淘汰。这正是多语言模型的优势所在，因为语言之间可以相互学习。所有语言都遵循模式。由于语言之间的知识转移，对训练数据的需求减少了。

假设你有一个模型正在学习 90 种语言，并且你想添加因纽特语（一组北美土著语言）。由于知识转移，你需要的因纽特语数据会更少。我们正在寻找用更少的数据进行学习的方法。微调引擎所需的数据量更少。

我对未来更具包容性的人工智能充满希望。我不认为我们注定会看到大量语言消失——我也不认为人工智能会一直是英语世界的专利。我们已经看到人们对语言平等问题的认识有所提高。从更多样化的数据收集到构建更多特定语言的模型，我们正在取得进展。

以丰语为例，这种语言在贝宁和邻近的非洲国家有大约 400 万人使用。不久前，一个流行的人工智能模型将丰语描述为一种虚构语言。一位名叫 Bonaventure Dosseau 的计算机科学家，他的母亲讲丰语，他已经习惯了这种排斥。讲法语的 Dosseau 从小就没有翻译程序来帮助他与母亲交流。如今，多亏了他精心打造的丰语-法语翻译器，他可以与母亲交流。如今，还有一个刚刚起步的丰语维基百科。

为了利用技术保护语言，土耳其艺术家 Refik Anadol 开始为土著人民创建开源人工智能工具。在世界经济峰会上，他问道：“我们究竟如何才能创造出一种不了解整个人类的人工智能？”

我们不能，也不会。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/sheng-cheng-shi-ren-gong-zhi-neng-bu-hui-gei-bin-wei-yu-yan

Like (0)

王浩然作者

0 0

D-ID推出AI视频翻译工具

Previous 2024年8月23日下午10:20

解锁人工智能的投资回报率：成功实施人工智能的策略

Next 2024年8月25日上午11:29

AI前沿

Verizon 与 Nvidia 联手在 5G 专用网络上为 AI 工作负载提供支持

Verizon和Nvidia宣布他们已经开发出一个新平台，两家公司表示该平台代表着为企业客户加速 AI 的下一阶段。新的带有企业 AI 的 5G 专用网络允许大量 AI 应用程序…

王浩然
20小时前
000
AI前沿

伟大的人工智能伪装：当自动化穿上特工服装时

这是一年中最恐怖的时刻，而在 2024 年，不仅仅是人们穿着服装。科技界正在上演一场伪装：自动化系统披上了人工智能代理的外衣，而许多人都被这种伪装所蒙骗。随着Gartner将“代…

王浩然
2024年11月3日
000
AI前沿

Mostly AI 的合成文本工具可以解锁企业电子邮件和对话，用于 AI 训练

Mostly AI正在努力解决企业面临的主要 AI 训练瓶颈。这家以提供合成数据生成平台而闻名的奥地利公司今天宣布推出合成文本。这项新功能使企业能够从其专有数据集中释放价值，而无需…

点点
2024年10月3日
000
AI前沿

人工智能生成的内容如何增加维基百科编辑的工作量

随着 OpenAI 的 GPT 等大型语言模型 (LLM) 的兴起，人工智能生成的垃圾内容占据了越来越多的用户生成的互联网领域，请为维基百科编辑们着想。除了他们通常的工作，即清除糟…

王浩然
2024年10月12日
000
AI前沿

揭秘！新型开源AI模型引领材料设计革命

可持续材料开发专家 Orbital Materials 开源了一种最先进的 AI 模型，用于模拟先进材料以支持全球脱碳。该模型名为 Orb，是该公司从头开…

点点
2024年9月7日
000
AI前沿

最推荐的电动汽车充电器公司之一刚刚抛弃了美国用户

任何电动汽车车主都会告诉你，买一个好的充电器是一项重要的投资。使用电动可能会让您不必去加油站，但您的汽车仍然需要能源才能运行，一个好的充电器将确保您的电池快速充满，同时保护它免受任…

点点
2024年10月8日
000
AI前沿

Mistral 推出 Pixtral Large，并将 Le Chat 升级为 ChatGPT 的全面竞争对手

法国初创公司Mistral去年凭借创纪录的欧洲种子资金融资额引起轰动，今天该公司发布了一系列更新，包括一个名为 Pixtral Large 的全新大型基础模型。该公司正在进一步升…

王浩然
2024年11月20日
000
AI前沿

剪纸原理推动微型机器人设计的突破

近年来，微型机器人领域取得了长足进步，突破了微型机器人的极限。这些进步为从医疗应用到环境监测等领域的潜在突破铺平了道路。在这一创新领域，康奈尔大学的研究人员做出了值得注意的贡献，开…

点点
2024年9月23日
000
AI前沿

Gartner：2025 年十大战略技术趋势

本周，在奥兰多举行的年度 IT 研讨会/Xpo 上，Gartner 公布了 2025 年十大战略技术趋势，人工智能、物联网技术和量子计算的进步均榜上有名。该活动在天鹅…

点点
2024年10月22日
000
AI前沿

Distributional 融资 1900 万美元，用于自动化 AI 模型和应用程序测试

Distributional是由英特尔前人工智能软件总经理 Scott Clark 创立的人工智能测试平台，已完成由 Two Sigma Ventures 领投的 1900 万美元…

王浩然
2024年10月10日
000
AI前沿

AR 的突破：微型化显示屏为主流 AR 眼镜铺平道路

多年来，增强现实 (AR) 技术一直吸引着人们的想象力，有望将数字信息与我们的物理世界无缝融合。通过将计算机生成的图像叠加到现实世界的视图上，AR 有可能彻底改变我们与环境的互动方…

点点
2024年10月6日
000
AI前沿

Workday 收购人工智能文档平台 Evisort

Workday周二宣布，将收购人工智能合同管理平台Evisort ，收购金额未公开。 Workday集团总经理 Terrance Wampler 在一份声明中表示，Evisort …

王浩然
2024年9月19日
000
AI前沿

2024 年上半年网络安全趋势与洞察：您需要了解的内容

Perception Point发布的2024 年上半年网络安全趋势与洞察报告揭示了快速演变的网络威胁形势，其特点是攻击的复杂性和频率都在增加。与 2023 年上半年相比，每位用户…

点点
2024年9月5日
000
AI前沿

OpenAI 联合创始人的 Safe Superintelligence Inc 获得 10 亿美元融资

成立仅三个月，由 OpenAI 联合创始人 Ilya Sutskever 创办的 AI 新创公司Safe Superintelligence (SSI) 就已筹集 10 亿美元资金…

点点
2024年9月10日
000
AI前沿

OpenAI 正在资助“人工智能道德”研究

OpenAI 正在资助能够预测人类道德判断的算法的学术研究。在提交给美国国税局的文件中，OpenAI 的非盈利组织 OpenAI Inc. 披露，它向杜克大学的研究人员提供了一项…

王浩然
2024年11月30日
000
用于自动驾驶开发的生成式 AI 视频已升级

总部位于加州的初创公司 Helm.ai 发布了用于自动驾驶的 VidGen 生成式 AI 模型的更新版本。 VidGen-2 是继今年早些时候推出的 VidGen-1 之后推出的…

点点
AI前沿 2024年10月8日
000
AI前沿

微软的 Windows Agent Arena：教 AI 助手操作你的 PC

微软推出了一项突破性的基准测试，名为Windows Agent Arena (WAA)，用于在真实的 Windows 操作系统环境中测试人工智能代理。这个新平台旨在加速开发能够在各…

王浩然
2024年9月15日
000
AI前沿

埃隆·马斯克称特斯拉“无需”授权 xAI 模型

埃隆·马斯克否认了有关他的一家公司特斯拉曾与另一家公司 xAI 讨论分享收入，以便后者可以使用这家初创公司的人工智能模型的报道。《华尔街日报》报道称，根据向投资者描述的拟议协议，…

王浩然
2024年9月10日
000
AI前沿

谷歌推出全新 AI 视频生成器 Veo 2，观众评分高于 Sora

谷歌将推出其最新版本的视频生成模型 Veo 2，与OpenAI的 Sora展开正面交锋，据称，Veo 2可以制作出更加逼真的视频。该公司还更新了其图像生成模型 Imagen 3，…

王浩然
3天前
000
AI前沿

埃隆·马斯克的 xAI 搬进了 OpenAI 的旧总部

旧金山的 Mission 区并不以公司办公室而闻名，但它现在是两家全球资金最雄厚的人工智能初创公司的所在地。据《旧金山商业时报》报道，埃隆马斯克的人工智能初创公司 xAI 最近搬…

王浩然
2024年10月4日
000

发表回复

Please Login to Comment

生成式人工智能不会给濒危语言判死刑

语音技术的进步

用更少的资源学习

相关推荐

发表回复