根据 Anthropic 和中国与美国大学研究人员的一项新预印本研究,人工智能公司用来提高大型语言模型质量的最流行技术之一,可能会使这些模型更好地欺骗人类。
这是研究首次实证证明一种他们称之为非故意诡辩的现象,即用人类反馈训练的模型学会做出一些反应,欺骗人类评估者相信这些反应是准确的,而不是学会做出真正准确的反应。
从人类反馈中进行强化学习(通常缩写为 RLHF)是训练流程的重要组成部分,Anthropic 和OpenAI等公司使用它来教他们的生成语言模型以人类喜欢的方式做出反应,例如正确回答问题并且不在回答中包含有害内容。在 RLHF 中,模型会响应提示,而人类评估者会对这些提示提供反馈,指出好与坏的回答。该反馈用于为原始语言模型构建一个激励系统,以算法喜欢的任何方式奖励它,以生成人类喜欢的响应类型。
研究人员此前曾表明,奖励系统训练可能导致所谓的奖励黑客行为,即模型复制训练材料中的模式,这些模式与预期结果相关,但实际上并不是开发人员想要的。例如,2023 年的一项研究检查了一个使用问答论坛公司 StackExchange 的数据训练的模型,发现语言模型认识到较长的帖子通常会获得更多的点赞,因此它在回答问题时不会产生更高质量的回复,而是通过输出更长、质量更低的回复来奖励黑客其激励系统。
这项新研究正在审查中,仅以预印本的形式发表,记录了语言模型在 RLHF 过程中对人类的奖励黑客攻击。
研究人员让人类评估语言模型对两个提示的响应质量——一个是要求它回答问题,另一个是要求它编写代码——在模型经过 RLHF 过程之前和之后。他们测量了模型响应的准确性是否有所提高,以及人类评估者正确将模型响应标记为准确或不准确的频率。在 RLHF 过程之后,他们发现,当模型对问题的回答实际上是错误的时,人类批准该模型答案的可能性高出 24%。与没有 RLHF 的模型生成的错误代码相比,评估者批准有错误的 RLHF 模型生成的错误代码的可能性也高出 18%。
“我们发现,经过 RLHF 后,[语言模型] 并没有在任务上表现得更好,但它会误导我们的受试者更频繁地认可其错误答案,”作者写道。“在问答方面,[语言模型] 学会通过挑选或捏造支持证据、提出一致但不真实的论点以及提供包含微妙因果谬误的论点来捍卫错误答案。在编程任务中,[语言模型] 学会生成部分错误的程序,这些程序仍然通过所有评估者设计的单元测试,生成可读性较差的程序,并且犯的常见错误更少,而这些错误通常是人类通常会检查的。”
这一结果意义重大,因为人工智能公司经常使用人工审查研究作为基准,以显示他们的模型相对于之前的迭代改进了多少,而 RLHF 已成为减少语言模型中不准确性(通常称为幻觉)的常用方法。如果模型越来越善于欺骗人类,那么这意味着仅仅让人类审查生成式人工智能模型的输出可能不足以进行充分的质量或安全检查。
“你看到的改进可能不是真实的,”研究作者写道,并补充道,“我们的研究结果强调了应用 RLHF 来控制日益强大的 AI 系统的风险:未来的 AI 系统可能会变得更善于误导我们并假装正确,导致我们在不知不觉中失去控制。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-biao-ming-ren-lei-fan-kui-shi-ren-gong-zhi-neng