MOSEL：推进所有欧洲语言的语音数据收集

点点 • 2024年10月8日下午1:00 • AI前沿 • 92 views

人工智能语言模型的发展在很大程度上以英语为主，而许多欧洲语言却没有得到充分重视。这导致人工智能技术在理解和响应不同语言和文化方面存在严重不平衡。MOSEL旨在通过为欧盟 24 种官方语言创建全面的开源语音数据集合来改变这种状况。通过提供多样化的语言数据， MOSEL力求确保人工智能模型更具包容性，并能代表欧洲丰富的语言格局。

语言多样性对于确保人工智能发展的包容性至关重要。过度依赖以英语为中心的模型可能会导致技术效率降低，甚至无法供其他语言使用者使用。多语言数据集有助于创建服务于所有人的人工智能系统，无论他们说什么语言。拥抱语言多样性可以提高技术的可及性，并确保公平地代表不同的文化和社区。通过促进语言包容性，人工智能可以真正反映用户的不同需求和声音。

MOSEL 概况

MOSEL，即欧洲语言海量开源语音数据，是一个开创性的项目，旨在建立一个涵盖欧盟所有 24 种官方语言的广泛开源语音数据集。MOSEL 由一个国际研究团队开发，整合了 18 个不同项目的数据，例如 CommonVoice、LibriSpeech 和 VoxPopuli。该数据集包括转录的语音记录和未标记的音频数据，为推进多语言 AI 开发提供了重要资源。

MOSEL 的主要贡献之一是包含了转录数据和未标记数据。转录数据为训练 AI 模型提供了可靠的基础，而未标记的音频数据可用于进一步的研究和实验，尤其是对于资源匮乏的语言。这些数据集的组合为开发更具包容性且能够理解欧洲多样化语言格局的语言模型创造了独特的机会。

弥补代表性不足的语言的数据差距

欧洲各语言的语音数据分布极不均衡，英语占据了大多数可用数据集。这种不平衡对开发能够理解并准确响应代表性较低的语言的 AI 模型提出了重大挑战。许多欧盟官方语言（例如马耳他语或爱尔兰语）的数据非常有限，这阻碍了 AI 技术有效服务于这些语言社区的能力。

MOSEL 旨在利用OpenAI 的 Whisper 模型自动转录 441,000 小时以前未标记的音频数据，从而弥补这一数据缺口。这种方法大大扩展了训练材料的可用性，特别是对于缺乏大量手动转录数据的语言。虽然自动转录并不完美，但它为进一步开发提供了一个宝贵的起点，从而可以构建更具包容性的语言模型。

然而，某些语言面临的挑战尤其明显。例如，Whisper 模型在马耳他语方面遇到了困难，单词错误率超过 80%。如此高的错误率凸显了需要开展更多工作，包括改进转录模型和收集更多高质量的手动转录数据。MOSEL 团队致力于继续这些努力，确保即使是资源匮乏的语言也能从 AI 技术的进步中受益。

开放获取在推动人工智能创新中的作用

MOSEL 的开源可用性是推动欧洲 AI 研究创新的关键因素。通过免费提供语音数据，MOSEL 使研究人员和开发人员能够使用以前无法获得或有限的大量高质量数据集。这种可访问性鼓励协作和实验，促进以社区为主导的方法，推动所有欧洲语言的 AI 技术发展。

研究人员和开发人员可以利用 MOSEL 的数据来训练、测试和改进 AI 语言模型，尤其是针对在 AI 领域中代表性不足的语言。这些数据的开放性还使较小的组织和学术机构能够参与尖端的 AI 研究，打破了通常有利于拥有独家资源的大型科技公司的壁垒。

未来方向和前进之路

展望未来，MOSEL 团队计划继续扩大数据集，特别是针对代表性不足的语言。通过收集更多数据并提高自动转录的准确性，MOSEL 旨在为人工智能开发创建更加平衡和包容的资源。这些努力对于确保所有欧洲语言（无论使用者数量多少）在不断发展的人工智能领域中占有一席之地至关重要。

MOSEL 的成功也可能激发全球类似的举措，促进欧洲以外的人工智能语言多样性。通过为开放获取和协作开发树立先例，MOSEL 为未来优先考虑人工智能包容性和代表性的项目铺平了道路，最终有助于实现更加公平的技术未来。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/mosel-tui-jin-suo-you-ou-zhou-yu-yan-de-yu-yin-shu-ju-shou

AI AI 模型 MOSEL OpenAI Whisper 人工智能

Like (0)

点点

0 0

伦敦国王商学院：人工智能如何改变问题解决方式

Previous 2024年10月8日

IBM 和 NASA 如何重新定义地理空间 AI 以应对气候挑战

Next 2024年10月8日

AI前沿

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

亚马逊网络服务 (AWS) 正在将其Amazon Q Developer AI 助手作为附加组件提供，开发人员可以在其集成开发环境 (IDE)（例如 Visual Studio C…

王浩然
2024年11月1日
000
AI前沿

Pedego 的 Cargo 电动自行车：运动、时尚、动力强劲，售价 4,000 美元

Pedego的 Cargo 电动自行车被宣传为一款强劲而运动的自行车，主要面向带着孩子在城里走动的父母和任何需要携带重型装备的人。我花了整个夏天测试这款货运电动自行车，看看它是…

点点
2024年9月23日
000
AI前沿

平衡成本、功耗和性能，实现生成式人工智能的民主化

如今，生成式人工智能还只是早期采用者使用的新事物，但明天，它将成为我们日常生活中不可或缺的一部分。因此，它必须可以在各种消费设备上使用，独立于基于云的处理，并且可供所有人使用，而不…

王浩然
2025年2月6日
000
AI前沿

Grok 图像生成器背后的初创公司 Black Forest Labs 发布了 API

Black Forest Labs 是一家由 Andreessen Horowitz 支持的初创公司，负责开发xAI 的 Grok 助手的图像生成组件，目前已推出测试版 API，并…

王浩然
2024年10月6日
000
AI前沿

以下是 2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据数据，人工智能公司在第三季度筹集了 189 亿美元。这一…

王浩然
2024年10月12日
000
AI前沿

在 Midjourney 之前，有 NightCafe — 而且它现在还在营业

图像生成的 OG 是成功的，只是少了一些审核挑战艾丽·拉塞尔 (Elle Russell) 是位于澳大利亚凯恩斯的NightCafe的联合创始人，该公司提供一套人工智能艺术创作工…

王浩然
2024年9月1日
000
AI前沿

AMD 裁员 4%

AMD 已确认将裁员 4%，以专注于“巨大的增长机会”。目前尚不清楚此次裁员影响了多少员工，以及哪些部门受到影响。根据AMD 的年度 10-K 文件，截至去年，AMD 拥有约 2…

王浩然
2024年11月14日
000
AI前沿

加州州长签署 9 项法案，规范人工智能生成内容

立法旨在解决深度伪造带来的风险

点点
2024年9月27日
000
AI前沿

人工智能行业对 Chatbot Arena 非常着迷，但它可能不是最好的基准

在过去的几个月里，埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准：Chatbot Arena 上的表现。 Chatbot Arena 由一个名为 LMSYS 的非营利…

王浩然
2024年9月8日
000
AI前沿

Meta 确认它可以根据你要求 Ray-Ban Meta AI 分析的任何图像来训练其 AI

最近询问 Meta 是否利用用户使用雷朋 Meta 智能眼镜拍摄的照片和视频来训练 AI。该公司最初并没有透露太多信息。自此以后，Meta 就提供了更多精彩内容。简而言之，您与 …

点点
2024年10月3日
000
AI前沿

OpenAI 的 o1-preview 和 o1-mini 模型对开发人员意味着什么

OpenAI 昨天下午震惊世界，它发布的不是传闻中的“Strawberry”，也不是 GPT-5，而是一个名为 o1 的全新“推理”大型语言模型 (LLM) 系列，旨在为与科学、技…

王浩然
2024年9月15日
000
AI前沿

又热闹了，OpenAI的加强版“Her”正式开放，压过了Gemini的“生产级”大升级

今天真是AI圈久违了的热闹一天啊！昨天刚被奥特曼发的那篇AI小作文搞得一头雾水，现在他这波操作的意图就呼之欲出了。奥特曼想临门狙击的正是宿敌Google，更确切地说，是Goog…

点点
2024年9月25日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

向分子世界的视频生成模型迈进

新系统从模拟中的单个帧开始，使用生成式人工智能模拟分子的动态，连接静态分子结构并将模糊的图片开发成视频。随着生成式人工智能模型能力的不断增强，您可能已经看到它们如何将简单的文本提…

王浩然
2025年1月27日
000
AI前沿

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度，展示了其安全团队在两个领域的先进能力：多步强化和外部红队演练。OpenAI 最近发布了两篇论文，为在这两种技术及…

王浩然
2025年1月7日
000
AI前沿

Apptroniks人形机器人迈出自主建造第一步‌

在科技创新日新月异的今天，Apptroniks公司宣布其人形机器人已经迈出了自主建造的第一步。这一突破性进展预示着未来机器人技术的巨大潜力，以及人形机器人在智能制造、自动化生产等领…

王浩然
2025年2月28日
000
AI前沿

据报道，前 OpenAI 首席技术官 Mira Murati 正在为一家新的 AI 初创公司筹集资金

据路透社报道，上个月宣布离职的OpenAI 首席技术官米拉·穆拉蒂 (Mira Murati)正在为一家新的人工智能初创公司筹集风险投资资金。据报道，这家初创公司将专注于构建基于…

王浩然
2024年10月20日
000
AI前沿

ServiceNow扩展AI服务，以预构建代理瞄准更广泛的企业采用

ServiceNow，这家专注于企业级服务管理解决方案的公司，最近宣布了一系列重大举措，旨在通过引入更多预构建的AI代理来扩展其AI服务范围。这些新举措不仅丰富了ServiceNo…

王浩然
2025年3月17日
000
AI前沿

微软在 Windows 召回系统重新发布前详细介绍了其安全/隐私方面的改进

微软正在对其备受争议的 Copilot+ Windows PC 的 Recall 功能进行另一次调整，此前该功能的原始版本在夏季安全研究人员和测试人员的严格审查下崩溃并烧毁。Rec…

点点
2024年9月30日
000
AI前沿

随着行业升温，Perplexity AI 估值逼近 80 亿美元

据报道， Perplexity AI正在商讨获得约 5 亿美元的新融资，这是人工智能技术爆炸式增长的重要进展。这轮潜在投资可能会使这家人工智能搜索公司的估值飙升至 80 亿美元，较…

点点
2024年10月22日
000