Google DeepMind和Hugging Face刚刚发布了SynthID Text,这是一款用于标记和检测大型语言模型(LLM) 生成的文本的工具。SynthID Text 将水印编码到 AI 生成的文本中,以帮助确定它是否由特定的 LLM 生成。更重要的是,它这样做不会修改底层 LLM 的工作方式或降低生成文本的质量。
SynthID Text 背后的技术是由 DeepMind 的研究人员开发的,并在 10 月 23 日发表在《自然》杂志上的一篇论文中进行了介绍。SynthID Text 的实现已添加到 Hugging Face 的 Transformers 库中,该库用于创建基于 LLM 的应用程序。值得注意的是,SynthID 并非用于检测由 LLM 生成的任何文本。它旨在为特定 LLM 的输出添加水印。
使用 SynthID 不需要重新训练底层 LLM。它使用一组参数来配置水印强度和响应保存之间的平衡。使用 LLM 的企业可以针对不同的模型使用不同的水印配置。这些配置应安全且私密地存储,以避免被他人复制。
对于每个水印配置,您必须训练一个分类器模型,该模型接收一个文本序列并确定它是否包含模型的水印。可以使用几千个已使用指定配置加水印的正常文本和响应示例来训练水印检测器。
SynthID Text 的工作原理
水印是一个活跃的研究领域,尤其是随着法学硕士在不同领域和应用中的兴起和采用。公司和机构正在寻找检测人工智能生成的文本的方法,以防止大规模的虚假信息活动、控制人工智能生成的内容并防止在教育中使用人工智能工具。
目前存在多种为 LLM 生成的文本添加水印的技术,每种技术都有局限性。有些技术需要收集和存储敏感信息,而有些技术则需要在模型生成响应后进行计算量很大的处理。
SynthID 使用“生成建模”,这是一类不影响 LLM 训练且仅修改模型采样过程的水印技术。生成水印技术修改下一个标记生成过程,对生成的文本进行细微的、上下文特定的更改。这些修改在生成的文本中创建统计签名,同时保持其质量。
然后训练分类器模型来检测水印的统计特征,以确定响应是否由模型生成。该技术的一个主要优点是检测水印的计算效率高,并且不需要访问底层 LLM。
SynthID Text 以之前关于生成水印的研究为基础,使用一种名为“锦标赛采样”的新型采样算法,该算法使用多阶段过程在创建水印时选择下一个标记。水印技术使用伪随机函数来增强任何 LLM 的生成过程,使得水印对人类来说是不可察觉的,但对经过训练的分类器模型来说是可见的。集成到 Hugging Face 库中将使开发人员可以轻松地将水印功能添加到现有应用程序中。
为了证明水印在大规模生产系统中的可行性,DeepMind 的研究人员进行了一项现场实验,评估了Gemini 模型生成的近 2000 万条响应的反馈。他们的研究结果表明,SynthID 能够保留响应质量,同时仍可被分类器检测到。
据 DeepMind 介绍,SynthID-Text 已被用于为 Gemini 和 Gemini Advanced 加水印。
他们在论文中写道:“这充分证明了生成文本水印可以成功实现并扩展到现实世界的生产系统,为数百万用户提供服务,并在人工智能生成内容的识别和管理中发挥不可或缺的作用。”
限制
据研究人员介绍,SynthID Text 对一些生成后转换(例如裁剪文本片段或修改生成文本中的几个单词)具有很强的鲁棒性。它在一定程度上也能抵御释义。
然而,该技术也有一些局限性。例如,对于需要事实性回答的查询,它的效果较差,而且没有修改的空间,否则准确性会降低。他们还警告说,当文本被彻底重写时,水印检测器的质量可能会大幅下降。
他们写道:“SynthID Text 并非旨在直接阻止有动机的对手造成伤害。但是,它可以使人工智能生成的内容更难用于恶意目的,并且可以与其他方法相结合,以更好地覆盖各种内容类型和平台。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepmind-he-hugging-face-fa-bu-synthid-wei-llm-sheng-cheng