研究发现法学硕士可以识别自己的错误

王浩然 • 2024年11月1日上午9:00 • AI前沿 • 84 views

大型语言模型 (LLM) 的一个众所周知的问题是它们倾向于生成不正确或无意义的输出，通常被称为“幻觉”。虽然许多研究都集中于从用户的角度分析这些错误，但由以色列理工学院、谷歌研究院和苹果的研究人员进行的一项新研究调查了 LLM 的内部工作原理，结果显示这些模型对真实性的理解比以前认为的要深刻得多。

幻觉一词缺乏一个普遍接受的定义，它涵盖了法学硕士的各种错误。研究人员在研究中采用了广义的解释，认为幻觉涵盖了法学硕士产生的所有错误，包括事实错误、偏见、常识推理失败和其他现实世界的错误。

之前大多数关于幻觉的研究都集中在分析 LLM 的外部行为，并研究用户如何看待这些错误。然而，这些方法对于模型本身如何编码和处理错误所提供的信息有限。

一些研究人员探索了 LLM 的内部表示，认为它们编码了真实性信号。然而，之前的努力主要集中在检查模型生成的最后一个标记或提示中的最后一个标记。由于 LLM 通常生成长格式的响应，这种做法可能会遗漏关键细节。

这项新研究采用了不同的方法。研究人员不只是查看最终输出，而是分析“精确答案标记”，即如果修改响应标记，答案的正确性就会改变。

研究人员在 10 个数据集上对Mistral 7B和Llama 2模型的四种变体进行了实验，这些数据集涵盖了各种任务，包括问答、自然语言推理、数学问题解决和情绪分析。他们允许模型生成不受限制的响应以模拟现实世界的使用。他们的研究结果表明，真实性信息集中在精确的答案标记中。

研究人员写道：“这些模式在几乎所有数据集和模型中都是一致的，表明了 LLM 在文本生成过程中编码和处理真实性的普遍机制。”

为了预测幻觉，他们训练了分类器模型（他们称之为“探测分类器”），以根据 LLM 的内部激活来预测与生成输出的真实性相关的特征。研究人员发现，在精确答案标记上训练分类器可以显著提高错误检测能力。

研究人员写道：“我们证明经过训练的探测分类器可以预测错误，这表明 LLM 编码了与其自身真实性相关的信息。”

普遍性和特定技能的真实性

研究人员还研究了在一个数据集上训练的探测分类器是否可以检测出其他数据集中的错误。他们发现，探测分类器不能适用于不同的任务。相反，它们表现出“特定技能”的真实性，这意味着它们可以在需要类似技能的任务中进行推广，例如事实检索或常识推理，但不能适用于需要不同技能的任务，例如情绪分析。

“总体而言，我们的研究结果表明模型对真实性的表征是多方面的，”研究人员写道。“它们不是通过单一的统一机制来编码真实性，而是通过多种机制来编码，每种机制都对应不同的真实概念。”

进一步的实验表明，这些探测分类器不仅可以预测错误的存在，还可以预测模型可能犯的错误类型。这表明 LLM 表示包含有关其可能失败的具体方式的信息，这对于制定有针对性的缓解策略很有用。

最后，研究人员调查了 LLM 激活中编码的内部真实性信号如何与其外部行为保持一致。他们在某些情况下发现了令人惊讶的差异：模型的内部激活可能正确地识别出正确答案，但它始终产生错误的响应。

这一发现表明，目前的评估方法仅依赖于法学硕士的最终成果，可能无法准确反映学生的真实能力。通过更好地理解和利用法学硕士的内部知识，我们或许能够释放隐藏的潜力并显著减少错误。

未来影响

这项研究的成果有助于设计更好的幻觉缓解系统。然而，它所使用的技术需要访问内部 LLM 表示，这主要通过开源模型来实现。

然而，这些发现对该领域具有更广泛的意义。通过分析内部激活获得的见解可以帮助开发更有效的错误检测和缓解技术。这项工作是更广泛的研究领域的一部分，旨在更好地了解 LLM 内部发生的事情以及每个推理步骤中发生的数十亿次激活。OpenAI、Anthropic 和 Google DeepMind 等领先的人工智能实验室一直在研究各种技术来解释语言模型的内部工作原理。这些研究共同有助于构建更多的机器人和可靠的系统。

研究人员写道：“我们的研究结果表明，LLM 的内部表征为其错误提供了有用的见解，强调了模型内部过程与外部输出之间的复杂联系，并希望为进一步改进错误检测和缓解铺平道路。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/yan-jiu-fa-xian-fa-xue-shuo-shi-ke-yi-shi-bie-zi-ji-de-cuo

Anthropic DeepMind Llama 2 LLM Mistral 7B OpenAI 法学硕士

Like (0)

王浩然作者

0 0

谷歌的人工智能系统可能会改变我们的写作方式：InkSight 将手写笔记数字化

Previous 2024年11月1日

Creatio 通过 Energy 发布代理 AI 实现 CRM 自动化

Next 2024年11月1日

AI前沿

网站建设者 Squarespace 表示正在通过策划和品味来训练其人工智能工具

生成式人工智能工具能帮助人们建立更好的网站吗？还是只会让网络充斥着垃圾信息？Squarespace 最近推出了Design Intelligence，这是一款充满生成式人工智能工具…

王浩然
2024年10月8日
000
AI前沿

亚马逊的 Tye Brady 讨论下一代机器人仓库

过去几年，“交付未来”活动展示了亚马逊运营的最新技术。西雅图 2023 年的活动展示了该公司药房服务和无人机送货的最新进展。今年在纳什维尔，亚马逊讨论了人工智能对其购物体验的更新…

点点
2024年10月13日
000
AI前沿

Meta 的新款智能眼镜看起来是未来趋势

Meta 最令人印象深刻的新产品——代号为 Orion 的智能眼镜目前还无法购买。几年后，你也许可以买到类似产品，但大多数人甚至都无法戴上它们。不过，这并不一定会让它们变得不那么令…

王浩然
2024年9月30日
000
AI前沿

OpenAI发布Responses API与开源Agents SDK：赋能开发者打造个性化深度研究与运营工具

在人工智能技术日新月异的今天，OpenAI再次迈出重要一步，推出了Responses API与开源Agents SDK。这两项创新成果不仅为开发者提供了更为灵活和强大的工具，还极大…

王浩然
2025年3月16日
000
AI前沿

利用人工智能解锁医疗保健领域的新可能性

由于机器学习和人工智能的使用，美国的医疗保健正处于重大潜在颠覆的早期阶段。这种转变已经进行了十多年，但随着最近的进展，似乎将迎来更快的变化。我们仍有许多工作要做，以了解人工智能在医…

点点
2024年10月18日
000
AI前沿

中国电信利用国产芯片训练具有1万亿参数的AI模型

中国电信是中国国有电信巨头之一，它已设立了两门仅针对国产芯片进行培训的法学硕士课程。这一突破代表着中国在人工智能技术自主化方面不断努力迈出的重要一步，特别是在美国对其竞争对手获取…

点点
2024年10月11日
000
AI前沿

加密货币骗子入侵 OpenAI 在 X 上的新闻账号

OpenAI 在 X 上的官方新闻账号似乎也遭到了加密货币骗子的攻击，前几个月攻击该公司领导层的账号的也是同样的情况。周一下午晚些时候，OpenAI Newsroom（OpenA…

王浩然
2024年9月25日
000
AI前沿

伊隆马斯克的 X 正在改变其隐私政策，允许第三方在你的帖子上训练人工智能

周三，社交网络 X（前身为 Twitter）更新了其隐私政策，表明它将允许第三方“合作者”使用 X 数据训练他们的 AI 模型，除非用户选择退出。虽然 X 所有者埃隆·马斯克使用 …

点点
2024年10月18日
000
AI前沿

苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

点点
2024年10月16日
000
AI前沿

特斯拉 Cybercab 机器人出租车问世——售价可能不到 3 万美元

特斯拉终于发布了 Cybercab 机器人出租车。Cyber cab在公司的We, Robot 活动上亮相，看起来像一款更小、更时尚的双座 Cybertruck——该公…

点点
2024年10月13日
000
AI前沿

Mistral AI发布新型开源AI模型，性能超越GPT-4o Mini，参数量却大幅减少‌

法国人工智能创新企业Mistral AI近期揭晓了其最新的开源AI模型——Mistral Small 3.1。据Mistral AI宣称，该模型在性能上超越了行业内的其他佼佼者，包…

王浩然
2025年3月20日
000
AI前沿

Gartner 预测，到 2027 年，80% 的 AI 员工将需要提升技能

AI开发者平台可以帮助组织支持软件工程师并更有效地构建能力

点点
2024年10月14日
000
AI前沿

人工智能会成为你的老板吗？

随着人工智能 (AI) 的发展，它引发了许多有关失业的问题。如果它接管的不是你的工作，而是你老板的工作，会怎么样？虽然这看起来很奇怪，但一些企业已经开始尝试使用人工智能经理。人工…

点点
2024年10月5日
000
AI前沿

IBM 和欧莱雅将生成式人工智能应用于化妆品

IBM 和欧莱雅宣布，将联手开发一种新的定制 AI 基础模型，帮助这家化妆品巨头改善其可持续原材料的使用，并减少能源和材料浪费。 IBM 表示，该模型将是美容行业首创的，它将使用 …

王浩然
2025年1月26日
000
AI前沿

微软希望与 OpenAI 建立开放关系

微软和 OpenAI 之间有着某种共生关系，前者向一家初创的人工智能实验室投入了数十亿美元的资金，作为回报，微软获得了尖端模型的早期使用权，这些模型现已融入微软的生产力软件套件中。…

王浩然
2024年12月25日
000
AI前沿

Shutterstock 与 Lightricks 合作率先推出“研究许可”模式，降低 AI 训练数据的门槛

Shutterstock正在通过一种新颖的“研究许可”方法重塑 AI 公司访问训练数据的方式，并率先与 AI 创意技术公司Lightricks合作。今天宣布的合作允许 Lightr…

王浩然
2024年12月16日
000
AI前沿

Meta 提出新的可扩展记忆层，可提高知识水平并减少幻觉

随着企业继续在各种应用中采用大型语言模型 (LLM)，他们面临的关键挑战之一是提高模型的事实知识并减少幻觉。在一篇新论文中，Meta AI的研究人员提出了“可扩展的内存层”，这可能…

王浩然
2025年1月8日
000
AI前沿

Tails OS 与 Tor Project 合并

Tor 项目是一家非盈利组织，负责维护 Tor 匿名网络的软件。目前，该项目正与使用 Tor 的便携式操作系统制造商 Tails 携手合作。两家组织都希望共享资源、降低管理费用，并…

点点
2024年10月1日
000
AI前沿

【划重点】数字人类对话，让员工培训逼真又高效！

员工培训对于适应职位和吸收公司文化至关重要；同样，它还能让人们学习新技能并在专业上成长。然而，当“员工培训”电子邮件出现在收件箱中时，为新公司工作或晋升到新职位的兴奋感就会消失殆尽…

点点
2024年9月11日
000
AI前沿

亚马逊因人类投资避开英国反垄断审查

英国反垄断机构得出结论：由于交易的规模和范围，亚马逊与人工智能初创公司 Anthropic 的合作和股权投资不能根据现行的合并规则进行调查。英国竞争与市场管理局 (CMA) 宣布…

王浩然
2024年9月29日
000

发表回复

Please Login to Comment

研究发现法学硕士可以识别自己的错误

普遍性和特定技能的真实性

未来影响

相关推荐

发表回复

Share To :