谷歌正在推出 SynthID Text 技术,该技术可以让开发人员为生成式 AI 模型编写的文本添加水印并进行检测。
SynthID Text 可以从 AI 平台Hugging Face和 Google 更新的Responsible GenAI Toolkit下载。
该公司在 X 上的一篇文章中写道:“我们正在开源我们的 SynthID Text 水印工具。它将免费提供给开发人员和企业,帮助他们识别他们的 AI 生成的内容。”
那么 SynthID Text 究竟是如何工作的呢?
给出“你最喜欢的水果是什么?”这样的提示,文本生成模型会预测哪个“标记”最有可能跟在另一个标记后面——一次一个标记。标记可以是单个字符或单词,是生成模型用来处理信息的构建块。模型会为每个可能的标记分配一个分数,即它包含在输出文本中的百分比概率。谷歌表示,SynthID Text 通过“调节生成标记的可能性”在这个标记分布中插入了额外的信息。
该公司在一篇博客文章中写道:“模型的词汇选择与调整后的概率得分的最终模式被视为水印。” “将这种得分模式与有水印和无水印文本的预期得分模式进行比较,帮助 SynthID 检测文本是否由 AI 工具生成或是否可能来自其他来源。”
谷歌声称,自今年春季以来已与其Gemini模型集成的 SynthID Text不会影响文本生成的质量、准确性或速度,甚至可以处理已被裁剪、改写或修改的文本。
但该公司也承认其水印方法存在局限性。
例如,SynthID Text 在处理短文本、从其他语言重写或翻译的文本或回答事实性问题时表现不佳。该公司解释说:“在回答事实性提示时,调整标记分布而不影响事实准确性的机会较少。这包括‘法国首都是哪里?’之类的提示,或‘背诵威廉·华兹华斯的诗’等几乎不需要变化的查询。”
谷歌并不是唯一一家研究 AI 文本水印技术的公司。OpenAI 多年来一直在研究水印方法,但出于技术和商业方面的考虑而推迟了发布。
如果文本水印技术得到广泛采用,将有助于扭转不准确但日益流行的“人工智能检测器”的局面,这些检测器会错误地标记以更通用的语气撰写的论文和论文。但问题是,它们会被广泛采用吗?一个组织提出的标准或技术会胜过其他组织吗?
可能很快就会出现迫使开发者采取行动的法律机制。中国政府已出台强制要求对人工智能生成的内容添加水印的规定,加利福尼亚州也在考虑采取同样的措施。
情况十分紧迫。根据欧盟执法机构的一份报告,到 2026 年,90% 的在线内容可能由人工合成,这将给执法部门带来新的挑战,包括虚假信息、宣传、欺诈和欺骗。根据 AWS 的一项研究,由于人工智能翻译器的广泛使用,目前网络上近 60% 的句子可能都是由人工智能生成的。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-fa-bu-wei-ren-gong-zhi-neng-sheng-cheng-de-wen-ben