苹果公司刚刚与南加州大学合作发表了一篇论文,探讨了用于让 iOS18 操作系统用户在翻译时拥有更多性别选择权的机器学习方法。
虽然该作品(苹果已在此处公布)中处理的问题在一定程度上涉及了当前围绕性别定义的热门辩论,但它围绕的是一个更为古老的问题:世界上已知的 229 种语言中,有 84 种使用基于性别的性别系统。
令人惊讶的是,英语属于基于性别的语言类别,因为它指定了男性或女性单数代词。
相比之下,所有罗曼语(包括超过5 亿西班牙语使用者)以及其他多种流行语言(如俄语)都要求性别一致,从而迫使翻译系统解决语言中的性别分配问题。
新论文通过观察“秘书对老板很生气”这句话的所有可能的西班牙语翻译来说明这一点:
对于较长的文本,简单的翻译是远远不够的,因为较长的文本可能在开头就确定了性别(“他”、“她”等),之后就不再提及性别了。尽管如此,翻译必须记住整个文本中参与者的指定性别。
对于基于标记的方法而言,这可能具有挑战性,因为该方法以离散块的形式解决翻译问题,并且有可能在内容的整个持续时间内丢失指定的性别背景。
更糟糕的是,为有偏见的性别分配提供替代翻译的系统不能不加区分地做到这一点,即仅仅替换性别名词,而必须确保语言的所有其他部分都同意改变后的性别名词。
在 Apple/USC 论文中的这个例子中,我们看到尽管“Secretary”被指定为男性,但单数过去时却保留为女性(estaba):
翻译系统还必须处理特定语言在性别方面的怪异现象。正如论文指出的,代词“ I”在印地语中是有性别的,这为性别问题提供了一条不常见的线索。
性别问题
在题为《机器翻译中的性别替代生成》的新论文中,苹果和南加州大学的研究人员提出了一种半监督方法,将性别模糊的实体转换为一系列实体级替代。
该系统用于为 iOS18 中的 Apple Translate 应用程序提供翻译信息,通过使用大型语言模型 (LLM) 和微调预先训练的开源机器翻译模型来构建语言模式。
这些系统的翻译结果被训练成包含性别结构的架构——包含代表同一实体的不同性别名词的不同形式的短语组。
论文指出*:
“众所周知,训练数据中存在的性别偏见会渗透到自然语言处理 (NLP) 系统中,导致这些偏见的传播和潜在放大。这种偏见通常也是错误的根本原因。
例如,当输入“医生要求护士帮助她进行手术”时,机器翻译 (MT) 系统可能会将“医生”翻译为西班牙语术语 médico (阳性),而不是 médica(阴性)。
“为了避免错误地指定性别,机器翻译系统需要通过上下文消除性别歧义。当无法通过上下文确定正确的性别时,提供涵盖所有有效性别选择的多种翻译替代方案是一种合理的方法。”
研究人员提出的方法有效地将翻译从单个标记转变为用户控制的数组。
(虽然论文中没有提到,但这为 Apple Translate 或类似提供翻译服务的门户网站提供了可能性,可以将用户的选择反馈到模型的后续迭代中)
Apple 和 USC 开发的模型在GATE和MT-GenEval测试集上进行了评估。GATE 包含最多 3 个性别模糊实体的源句子,而 MT-GenEval 包含无法推断性别的材料,作者表示,这有助于理解何时不应向用户提供其他性别选项。
在这两种情况下,都必须重新注释测试集,以符合项目目标。
为了训练该系统,研究人员依靠一种新颖的自动数据增强算法,而不是前面提到的由人工注释的测试集。
为 Apple 策展贡献的数据集包括Europarl、WikiTitles和WikiMatrix。语料库分为G-Tag(包含 12,000 个句子),包含所有实体的主词句子以及性别模糊注释;以及G-Trans(包含 50,000 个句子),包含性别模糊实体和性别对齐。
作者断言:
“据我们所知,这是第一个包含性别模糊性及其如何影响翻译中的性别形式的大规模语料库。”
该项目的数据集和各种数据已在 GitHub 上发布。数据包含五种语言对,包括英语、俄语、德语、法语、葡萄牙语和西班牙语。
作者利用2019 年的先前方法赋予模型输出性别对齐的能力,并使用交叉熵 损失和额外的对齐损失进行训练。
对于数据增强程序,作者摒弃了传统的基于规则的方法,而采用以数据为中心的方法,在 G-Tag 数据集上对BERT预训练语言模型进行微调。
双重打击
对于检测到模糊性别实体的情况,苹果和南加州大学探索了两种方法——预训练语言模型的微调和使用 LLM。
关于第一种方法,论文指出:
“我们根据从 G-Trans 数据集中提取的双语文本对预训练的 MT 模型 M 进行微调。此双语文本的源句子包含使用<M>/<F>标签标记为阳性或阴性的歧义实体,并且目标翻译具有正确的性别词形变化,这些性别标签均正确无误。”
在上图中,我们可以在中下栏看到微调后的文本,在右栏看到所需的输出,其基本原理如上所示。
对于这种方法,作者利用了2020 年早期研究中的格子重评分方法。为了确保只解决目标领域(性别),使用约束束搜索作为过滤器。
对于 LLM 方法,作者设计了一种策略,使用 LLM 作为编辑,通过重写提供的翻译来提供性别分配。
将两种方法的结果连接起来后,模型随后进行微调,将源标记分类为对齐(在下面的模式中用“1”表示)或不对齐(在下面的模式中用“2”表示)。
数据和测试
该项目使用的模糊实体检测器是通过使用transformers对 Facebook AI 的xlm-roberta-large模型进行微调而开发的 。为此,在所有五种语言对中使用了组合的 G-Tag。
在上述两种方法中,M2M 1.2B模型在Fairseq上进行训练,并结合来自 G-Trans 数据集的双文本数据,以及 Wiktionary 提供的性别词形变化。
对于 LLM 方法,作者使用了GPT-3.5-turbo。对于性别结构的对齐,再次使用了 xlm-roberta-large,这次是从 G-Trans 中提取的性别对齐。
替代方案的评估指标、结构(包括精确度和召回率)以及对齐精确度。
虽然前两个是不言自明的,但对齐准确度衡量符合已知正确源身份的输出性别结构的百分比,并使用δ-BLEU 方法,符合 MT-GenEval 的方法。
以下是数据增强管道的结果:
以下是作者的评论*:
“M2M 和 GPT 的表现基本相当,但英语-俄语除外,GPT 的备选召回率要低得多(58.7 对比 89.3)。从结构指标可以看出,GPT 在英语-德语和英语-葡萄牙语上生成的性别结构质量更好,而 M2M 在英语-西班牙语和英语-俄语上生成的性别结构质量更好。
“请注意,我们没有任何英语-意大利语的 G-Trans 数据,因此 M2M 模型的结果和英语-意大利语的对齐精度纯粹归功于M2M 和 XLM 模型的零样本泛化。”
研究人员还通过 M2M 将数据增强系统的性能与 GATE 的句子级性别重写器(按照 GATE 自己声明的术语)进行了比较。
本文指出:
“我们发现,在准确率略有下降的情况下(英语-意大利语除外),召回率得到了显著提升。我们的系统在所有 3 种语言对上的表现都优于 GATE 提出的 F.5 指标。”
最后,作者将各种“原始”多语言模型训练成原始双语文本。贡献的数据集包括 WikiMatrix、WikiTitles、Multi-UN、NewsCommentary和Tilde。
另外训练了两个原始模型,一个模型结合了带有前缀标签<gender>的 G-Trans 数据集,用作监督基线;第三个模型结合了性别结构和一致性(在较小的本地模型上,因为使用 GPT 基于 API 的服务来实现此目的的成本非常高)。
这些模型是根据 2022 FloRes数据集进行测试的。
本文总结了这些结果:
“原始模型无法生成替代方案,并且明显偏向于生成男性形式(δ-BLEU 范围从 5.3 到 12.5 点)。
“这种偏差通过监督基线大大减少。在增强数据上训练的模型进一步降低了偏差,并在替代指标、对齐准确度和δ-BLEU方面获得了最佳性能。
“这证明了数据增强管道的有效性。增强数据还使我们能够训练一个针对缺乏监督数据的英语-意大利语的竞争系统。”
作者最后指出,该模型的成功必须在 NLP 努力合理化翻译方法中的性别分配的更广泛背景下考虑;他们指出,这仍然是一个悬而未决的问题。
尽管研究人员认为所获得的结果并未完全实现生成实体级性别中立翻译和/或性别歧义的目的,但他们相信这项工作将成为未来探索机器翻译最具挑战性的领域之一的“有力工具”。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/ping-guo-zhen-dui-xing-bie-yu-yan-fan-yi-de-jie-jue-fang-an