大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出,通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误,但由以色列理工学院、谷歌研究院和苹果的研究人员进行的一项新研究调查了 LLM 的内部工作原理,结果显示这些模型对真实性的理解比以前认为的要深刻得多。
幻觉一词缺乏一个普遍接受的定义,它涵盖了法学硕士的各种错误。研究人员在研究中采用了广义的解释,认为幻觉涵盖了法学硕士产生的所有错误,包括事实错误、偏见、常识推理失败和其他现实世界的错误。
之前大多数关于幻觉的研究都集中在分析 LLM 的外部行为,并研究用户如何看待这些错误。然而,这些方法对于模型本身如何编码和处理错误所提供的信息有限。
一些研究人员探索了 LLM 的内部表示,认为它们编码了真实性信号。然而,之前的努力主要集中在检查模型生成的最后一个标记或提示中的最后一个标记。由于 LLM 通常生成长格式的响应,这种做法可能会遗漏关键细节。
这项新研究采用了不同的方法。研究人员不只是查看最终输出,而是分析“精确答案标记”,即如果修改响应标记,答案的正确性就会改变。
研究人员在 10 个数据集上对Mistral 7B和Llama 2模型的四种变体进行了实验,这些数据集涵盖了各种任务,包括问答、自然语言推理、数学问题解决和情绪分析。他们允许模型生成不受限制的响应以模拟现实世界的使用。他们的研究结果表明,真实性信息集中在精确的答案标记中。
研究人员写道:“这些模式在几乎所有数据集和模型中都是一致的,表明了 LLM 在文本生成过程中编码和处理真实性的普遍机制。”
为了预测幻觉,他们训练了分类器模型(他们称之为“探测分类器”),以根据 LLM 的内部激活来预测与生成输出的真实性相关的特征。研究人员发现,在精确答案标记上训练分类器可以显著提高错误检测能力。
研究人员写道:“我们证明经过训练的探测分类器可以预测错误,这表明 LLM 编码了与其自身真实性相关的信息。”
普遍性和特定技能的真实性
研究人员还研究了在一个数据集上训练的探测分类器是否可以检测出其他数据集中的错误。他们发现,探测分类器不能适用于不同的任务。相反,它们表现出“特定技能”的真实性,这意味着它们可以在需要类似技能的任务中进行推广,例如事实检索或常识推理,但不能适用于需要不同技能的任务,例如情绪分析。
“总体而言,我们的研究结果表明模型对真实性的表征是多方面的,”研究人员写道。“它们不是通过单一的统一机制来编码真实性,而是通过多种机制来编码,每种机制都对应不同的真实概念。”
进一步的实验表明,这些探测分类器不仅可以预测错误的存在,还可以预测模型可能犯的错误类型。这表明 LLM 表示包含有关其可能失败的具体方式的信息,这对于制定有针对性的缓解策略很有用。
最后,研究人员调查了 LLM 激活中编码的内部真实性信号如何与其外部行为保持一致。他们在某些情况下发现了令人惊讶的差异:模型的内部激活可能正确地识别出正确答案,但它始终产生错误的响应。
这一发现表明,目前的评估方法仅依赖于法学硕士的最终成果,可能无法准确反映学生的真实能力。通过更好地理解和利用法学硕士的内部知识,我们或许能够释放隐藏的潜力并显著减少错误。
未来影响
这项研究的成果有助于设计更好的幻觉缓解系统。然而,它所使用的技术需要访问内部 LLM 表示,这主要通过开源模型来实现。
然而,这些发现对该领域具有更广泛的意义。通过分析内部激活获得的见解可以帮助开发更有效的错误检测和缓解技术。这项工作是更广泛的研究领域的一部分,旨在更好地了解 LLM 内部发生的事情以及每个推理步骤中发生的数十亿次激活。OpenAI、Anthropic 和 Google DeepMind 等领先的人工智能实验室一直在研究各种技术来解释语言模型的内部工作原理。这些研究共同有助于构建更多的机器人和可靠的系统。
研究人员写道:“我们的研究结果表明,LLM 的内部表征为其错误提供了有用的见解,强调了模型内部过程与外部输出之间的复杂联系,并希望为进一步改进错误检测和缓解铺平道路。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/yan-jiu-fa-xian-fa-xue-shuo-shi-ke-yi-shi-bie-zi-ji-de-cuo