苹果针对性别语言翻译的解决方案

点点 • 2024年10月9日下午1:00 • AI前沿 • 180 views

苹果公司刚刚与南加州大学合作发表了一篇论文，探讨了用于让 iOS18 操作系统用户在翻译时拥有更多性别选择权的机器学习方法。

在 iOS18 中，用户可以在原生翻译应用中为翻译的单词选择其他性别建议。来源：https://support.apple.com/guide/iphone/translate-text-voice-and-conversations-iphd74cb450f/ios

虽然该作品（苹果已在此处公布）中处理的问题在一定程度上涉及了当前围绕性别定义的热门辩论，但它围绕的是一个更为古老的问题：世界上已知的 229 种语言中，有 84 种使用基于性别的性别系统。

红点表示使用基于性别的性别系统的语言。来源：https://wals.info/feature/31A#map

令人惊讶的是，英语属于基于性别的语言类别，因为它指定了男性或女性单数代词。

相比之下，所有罗曼语（包括超过5 亿西班牙语使用者）以及其他多种流行语言（如俄语）都要求性别一致，从而迫使翻译系统解决语言中的性别分配问题。

新论文通过观察“秘书对老板很生气”这句话的所有可能的西班牙语翻译来说明这一点：

摘自新论文，其中的一个例子是“秘书对老板生气了”这句话中潜在的性别分配，从英语翻译成西班牙语。来源：https://arxiv.org/pdf/2407.20438

对于较长的文本，简单的翻译是远远不够的，因为较长的文本可能在开头就确定了性别（“他”、“她”等），之后就不再提及性别了。尽管如此，翻译必须记住整个文本中参与者的指定性别。

对于基于标记的方法而言，这可能具有挑战性，因为该方法以离散块的形式解决翻译问题，并且有可能在内容的整个持续时间内丢失指定的性别背景。

更糟糕的是，为有偏见的性别分配提供替代翻译的系统不能不加区分地做到这一点，即仅仅替换性别名词，而必须确保语言的所有其他部分都同意改变后的性别名词。

在 Apple/USC 论文中的这个例子中，我们看到尽管“Secretary”被指定为男性，但单数过去时却保留为女性（estaba）：

暴力的性别替换可能会忽略必要的性别一致。在这个例子中，“enojada”这个词应该是“enojado”，以与阳性“El secretario”一致。

翻译系统还必须处理特定语言在性别方面的怪异现象。正如论文指出的，代词“ I”在印地语中是有性别的，这为性别问题提供了一条不常见的线索。

性别问题

在题为《机器翻译中的性别替代生成》的新论文中，苹果和南加州大学的研究人员提出了一种半监督方法，将性别模糊的实体转换为一系列实体级替代。

该系统用于为 iOS18 中的 Apple Translate 应用程序提供翻译信息，通过使用大型语言模型 (LLM) 和微调预先训练的开源机器翻译模型来构建语言模式。

这些系统的翻译结果被训练成包含性别结构的架构——包含代表同一实体的不同性别名词的不同形式的短语组。

论文指出*：

“众所周知，训练数据中存在的性别偏见会渗透到自然语言处理 (NLP) 系统中，导致这些偏见的传播和潜在放大。这种偏见通常也是错误的根本原因。

例如，当输入“医生要求护士帮助她进行手术”时，机器翻译 (MT) 系统可能会将“医生”翻译为西班牙语术语 médico （阳性），而不是 médica（阴性）。

“为了避免错误地指定性别，机器翻译系统需要通过上下文消除性别歧义。当无法通过上下文确定正确的性别时，提供涵盖所有有效性别选择的多种翻译替代方案是一种合理的方法。”

研究人员提出的方法有效地将翻译从单个标记转变为用户控制的数组。

（虽然论文中没有提到，但这为 Apple Translate 或类似提供翻译服务的门户网站提供了可能性，可以将用户的选择反馈到模型的后续迭代中）

Apple 和 USC 开发的模型在GATE和MT-GenEval测试集上进行了评估。GATE 包含最多 3 个性别模糊实体的源句子，而 MT-GenEval 包含无法推断性别的材料，作者表示，这有助于理解何时不应向用户提供其他性别选项。

在这两种情况下，都必须重新注释测试集，以符合项目目标。

为了训练该系统，研究人员依靠一种新颖的自动数据增强算法，而不是前面提到的由人工注释的测试集。

为 Apple 策展贡献的数据集包括Europarl、WikiTitles和WikiMatrix。语料库分为G-Tag（包含 12,000 个句子），包含所有实体的主词句子以及性别模糊注释；以及G-Trans（包含 50,000 个句子），包含性别模糊实体和性别对齐。

作者断言：

“据我们所知，这是第一个包含性别模糊性及其如何影响翻译中的性别形式的大规模语料库。”

该项目的数据集和各种数据已在 GitHub 上发布。数据包含五种语言对，包括英语、俄语、德语、法语、葡萄牙语和西班牙语。

作者利用2019 年的先前方法赋予模型输出性别对齐的能力，并使用交叉熵损失和额外的对齐损失进行训练。

对于数据增强程序，作者摒弃了传统的基于规则的方法，而采用以数据为中心的方法，在 G-Tag 数据集上对BERT预训练语言模型进行微调。

双重打击

对于检测到模糊性别实体的情况，苹果和南加州大学探索了两种方法——预训练语言模型的微调和使用 LLM。

关于第一种方法，论文指出：

“我们根据从 G-Trans 数据集中提取的双语文本对预训练的 MT 模型 M 进行微调。此双语文本的源句子包含使用<M>/<F>标签标记为阳性或阴性的歧义实体，并且目标翻译具有正确的性别词形变化，这些性别标签均正确无误。”

从 G-Trans 数据集中提取双文本的方案说明。

在上图中，我们可以在中下栏看到微调后的文本，在右栏看到所需的输出，其基本原理如上所示。

对于这种方法，作者利用了2020 年早期研究中的格子重评分方法。为了确保只解决目标领域（性别），使用约束束搜索作为过滤器。

对于 LLM 方法，作者设计了一种策略，使用 LLM 作为编辑，通过重写提供的翻译来提供性别分配。

LLM 使用上下文示例来指定性别。

将两种方法的结果连接起来后，模型随后进行微调，将源标记分类为对齐（在下面的模式中用“1”表示）或不对齐（在下面的模式中用“2”表示）。

将两种方法的结果串联起来的模式。

数据和测试

该项目使用的模糊实体检测器是通过使用transformers对 Facebook AI 的xlm-roberta-large模型进行微调而开发的。为此，在所有五种语言对中使用了组合的 G-Tag。

在上述两种方法中，M2M 1.2B模型在Fairseq上进行训练，并结合来自 G-Trans 数据集的双文本数据，以及 Wiktionary 提供的性别词形变化。

对于 LLM 方法，作者使用了GPT-3.5-turbo。对于性别结构的对齐，再次使用了 xlm-roberta-large，这次是从 G-Trans 中提取的性别对齐。

替代方案的评估指标、结构（包括精确度和召回率）以及对齐精确度。

虽然前两个是不言自明的，但对齐准确度衡量符合已知正确源身份的输出性别结构的百分比，并使用δ-BLEU 方法，符合 MT-GenEval 的方法。

以下是数据增强管道的结果：

数据增强测试的结果。向上的箭头表示“越高越好”，向下的箭头表示“越低越好”。

以下是作者的评论*：

“M2M 和 GPT 的表现基本相当，但英语-俄语除外，GPT 的备选召回率要低得多（58.7 对比 89.3）。从结构指标可以看出，GPT 在英语-德语和英语-葡萄牙语上生成的性别结构质量更好，而 M2M 在英语-西班牙语和英语-俄语上生成的性别结构质量更好。

“请注意，我们没有任何英语-意大利语的 G-Trans 数据，因此 M2M 模型的结果和英语-意大利语的对齐精度纯粹归功于M2M 和 XLM 模型的零样本泛化。”

研究人员还通过 M2M 将数据增强系统的性能与 GATE 的句子级性别重写器（按照 GATE 自己声明的术语）进行了比较。

Apple/USC 数据增强流程与 GATE 句子级方法相竞争。

本文指出：

“我们发现，在准确率略有下降的情况下（英语-意大利语除外），召回率得到了显著提升。我们的系统在所有 3 种语言对上的表现都优于 GATE 提出的 F.5 指标。”

最后，作者将各种“原始”多语言模型训练成原始双语文本。贡献的数据集包括 WikiMatrix、WikiTitles、Multi-UN、NewsCommentary和Tilde。

另外训练了两个原始模型，一个模型结合了带有前缀标签<gender>的 G-Trans 数据集，用作监督基线；第三个模型结合了性别结构和一致性（在较小的本地模型上，因为使用 GPT 基于 API 的服务来实现此目的的成本非常高）。

这些模型是根据 2022 FloRes数据集进行测试的。

测试端到端的原始机器翻译模型（P = 准确率，R = 召回率）。

本文总结了这些结果：

“原始模型无法生成替代方案，并且明显偏向于生成男性形式（δ-BLEU 范围从 5.3 到 12.5 点）。

“这种偏差通过监督基线大大减少。在增强数据上训练的模型进一步降低了偏差，并在替代指标、对齐准确度和δ-BLEU方面获得了最佳性能。

“这证明了数据增强管道的有效性。增强数据还使我们能够训练一个针对缺乏监督数据的英语-意大利语的竞争系统。”

作者最后指出，该模型的成功必须在 NLP 努力合理化翻译方法中的性别分配的更广泛背景下考虑；他们指出，这仍然是一个悬而未决的问题。

尽管研究人员认为所获得的结果并未完全实现生成实体级性别中立翻译和/或性别歧义的目的，但他们相信这项工作将成为未来探索机器翻译最具挑战性的领域之一的“有力工具”。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ping-guo-zhen-dui-xing-bie-yu-yan-fan-yi-de-jie-jue-fang-an

Like (0)

点点

0 0

Vectorize 融资 360 万美元，利用突破性的 RAG 平台彻底改变人工智能数据检索

Previous 2024年10月9日

OpenAI获英伟达B200最强超算，GPT-5训练无底洞，微软算力却严重不足

Next 2024年10月9日

AI前沿

随着数据中心使用率不断上升，Submer 筹集 5550 万美元以降低数据中心温度

人们竞相开发更好的芯片和数据中心容量来处理 AI 工作负载，但所有这些活动都存在一个问题。强大的处理能力意味着会产生大量热量，这对服务器的运行和环境都有重大影响。由于…

王浩然
2024年10月5日
000
AI前沿

音频平台 Pocket FM 利用人工智能工具扩展其内容目录

印度音频平台Pocket FM的服务内容超过 20 万小时。不过，该公司首席执行官 Rohan Nayak 认为，该平台在创作原创内容和将其内容库扩展到多种类型和子类型方面仍有发展…

王浩然
2024年11月29日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

OpenAI 的 Converge 2 计划一直笼罩在神秘之中

去年 12 月，OpenAI 宣布将开放 2022 年启动的为期六周的加速器计划的第二批申请。随后，事情变得非常平静。但据两位熟悉该计划的消息人士透露，OpenAI 的 Conve…

王浩然
2024年8月31日
000
AI前沿

研究人员称，医疗领域的人工智能应该受到监管，但不要忘记算法

在最近的一篇评论中，麻省理工学院、Equality AI 和波士顿大学的团队强调了医疗保健领域人工智能模型和非人工智能算法的监管差距。有人可能会说，医生的主要职责之一就是不断评估…

王浩然
2025年1月3日
000
AI前沿

GPT-4o：OpenAI推出原生图像生成功能，惊艳用户

引言‌ 自OpenAI在2024年5月发布其首款“全能”或多模态模型GPT-4o以来，近一年的时间里，这款模型始终保持着强大的竞争力。而今，OpenAI再次为ChatGPT的Plu…

王浩然
2025年3月27日
000
AI前沿

Adobe 宣布视频生成功能今年将登陆 Firefly

几个月后，用户将首次有机会试用 Adobe 的视频生成 AI 模型。该公司表示，由Adobe Firefly Video 模型提供支持的功能将在 2024 年底前在 Pre…

王浩然
2024年9月13日
000
AI前沿

Basecamp Research 斥资 6000 万美元打造“生物学 GPT”

就在 OpenAI 和 Anthropic 等公司继续推广使用普通语言向人工智能代理询问问题、撰写提案或绘制图片的想法时，一家名为Basecamp Research 的伦敦初创公司…

王浩然
2024年10月10日
000
AI前沿

Pig API：为您的 AI 代理提供虚拟桌面以自动化 Windows 应用程序

在不断发展的人工智能领域，企业面临着将现代解决方案与传统系统集成的挑战，而这些系统往往缺乏无缝集成所需的应用程序编程接口 (API)。约 66%的组织继续依赖传统应用程序进行核心运…

王浩然
2025年2月4日
000
AI前沿

有没有想过拍广告？这家航空公司将利用人工智能的力量实现这一目标

你可以成为一部浪漫电影的主角，宣传一家航空公司和全球旅行，或者至少你的脸可以成为主角，这要感谢卡塔尔航空的新活动。该航空公司推出了一项新的人工智能冒险活动，将短片和深度伪造工具结合…

王浩然
2024年9月9日
000
AI前沿

Meta 将发布重大 WhatsApp AI 更新

想象一下这样一个世界：消息应用不仅仅是通讯工具，更是改善日常生活的强大助手。消息平台不再只是简单的文本交流。它们已经发展成为使用人工智能 (AI) 来提高生产力和沟通能力的强大工具…

王浩然
2024年8月26日
000
AI前沿

Diffbot 的人工智能模型无需猜测——它能够知道，这要归功于万亿事实知识图谱

Diffbot是一家位于硅谷的小公司，以维护世界上最大的网络知识索引之一而闻名，该公司今天宣布发布一种新的人工智能模型，有望解决该领域最大的挑战之一：事实准确性。新模型是Meta…

王浩然
2025年1月10日
000
AI前沿

智能适配，成就AI成功应用的关键：精准计算的力量

在当今这个技术日新月异的时代，人工智能（AI）已成为推动企业转型和创新的重要力量。然而，尽管AI技术潜力巨大，但其在实际应用中的成功却往往受到诸多因素的制约。其中，一个至关重要却常…

王浩然
2025年3月21日
000
AI前沿

Figure将于2025年启动家用仿人机器人Alpha测试‌

创新科技公司Figure近日宣布，计划在2025年正式启动其家用仿人机器人的Alpha测试阶段。这一举措标志着Figure在智能机器人领域迈出了重要一步。 ‌一、项目背景‌ 随着人…

王浩然
2025年3月2日
000
AI前沿

FTC 要求 AI 无障碍初创公司 accessiBe 因误导性广告支付 100 万美元

美国联邦贸易委员会对accessiBe处以罚款，该公司是一家初创公司，声称可以让网站与盲人访问互联网所依赖的屏幕阅读器更加兼容，原因是该公司发布虚假广告，并向评论者提供报酬而未披露…

王浩然
2025年1月5日
000
AI前沿

为何各国以主权人工智能的名义竞相建立人工智能工厂

如今，人工智能已成为一项至关重要的技术，世界也陷入了激烈的地缘政治斗争，“主权人工智能”成为国家问题也就不足为奇了。想想看，美国会允许其为人工智能生成的数据在中国存储和处理吗？欧盟…

王浩然
2024年10月2日
000
AI前沿

Patronus AI 推出全球首个自助服务 API，旨在阻止 AI 幻觉

客服聊天机器人自信地描述一款并不存在的产品。金融人工智能编造市场数据。医疗保健机器人提供危险的医疗建议。这些人工智能幻觉曾被视为有趣的怪癖，但如今已成为急于部署人工智能的公司面临的…

王浩然
2024年11月3日
000
AI前沿

超越Transformer：NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉

引言‌ 在人工智能（AI）的广阔领域中，计算机视觉一直是推动技术进步和应用创新的关键力量。然而，传统的基于Transformer的计算机视觉模型虽然性能卓越，但计算成本高昂，限制了…

王浩然
2025年3月26日
000
AI前沿

挪威1X公司正在研发家用仿人机器人

挪威的创新科技公司1X近日宣布，他们正在致力于开发一款专为家庭环境设计的仿人机器人。这一项目旨在通过先进的人工智能和机器人技术，为日常生活带来便利和新的互动体验。据1X公司介绍，…

王浩然
2025年2月26日
000
AI前沿

次二次系统：加速人工智能的效率和可持续性

人工智能 (AI)正在以惊人的速度改变着我们的世界，影响着医疗、金融和零售等行业。从在线推荐产品到诊断医疗状况，AI 无处不在。然而，效率问题日益严重，研究人员和开发人员正在努力解…

点点
2024年10月23日
000

发表回复

Please Login to Comment

苹果针对性别语言翻译的解决方案

性别问题

双重打击

数据和测试

相关推荐

发表回复

Share To :