DeepMind 的 SCoRe 表明，法学硕士可以利用他们的内部知识来纠正错误

点点 • 2024年10月2日下午10:00 • AI前沿 • 112 views

虽然大型语言模型 (LLM) 在复杂任务中越来越有效，但在很多情况下，它们无法在第一次尝试时得到正确答案。这就是为什么人们对让 LLM 发现并纠正错误（也称为“自我纠正”）越来越感兴趣。然而，目前自我纠正的尝试是有限的，而且在现实世界中往往无法满足要求。

在一篇新论文中，Google DeepMind的研究人员介绍了通过强化学习进行自我纠正(SCoRe)，这是一项新技术，仅使用自生成数据即可显著提高 LLM 的自我纠正能力。SCoRe 可以成为一种有价值的工具，使 LLM 更加稳健和可靠，并为增强其推理和解决问题的能力开辟了新的可能性。

你准备好迎接人工智能代理了吗？

法学硕士 (LLM) 课程中自我纠正的重要性

“自我纠正是一种可以极大增强人类思维的能力，”谷歌 DeepMind 研究科学家 Aviral Kumar 告诉 VentureBeat。“人类通常会花更多时间思考、尝试多种想法、纠正错误，最终解决给定的难题，而不是一次性为难题找到解决方案。我们希望法学硕士也能做到这一点。”

理想情况下，具有强大自我纠正能力的 LLM 应该能够检查和改进自己的答案，直到得出正确的答案。这一点尤其重要，因为 LLM 通常拥有解决问题所需的内部知识，但在生成初始答案时无法有效地利用这些知识。

Kumar 表示：“从基本的机器学习角度来看，没有任何 LLM 能够利用其记忆在零样本内解决所有难题（人类当然无法做到这一点），因此我们希望 LLM 花费更多的时间进行思考计算并自我纠正，以成功解决难题。”

之前在 LLM 中实现自我修正的尝试依赖于专门用于自我修正的快速工程或微调模型。这些方法通常假设模型可以接收有关输出质量的外部反馈，或者可以访问可以指导自我修正过程的“预言机”。

这些技术未能利用模型固有的自我修正能力。监督微调 (SFT) 方法涉及训练模型以修复基础模型的错误，但也显示出局限性。它们通常需要来自人类注释者或更强大的模型的 Oracle 反馈，并且不依赖于模型自身的知识。一些 SFT 方法甚至在推理过程中需要多个模型来验证和改进答案，这使得部署和使用它们变得困难。

此外，DeepMind 的研究表明，虽然 SFT 方法可以改善模型的初始响应，但当模型需要在多个步骤内修改其答案时，它们的表现并不好，而复杂问题通常就是这种情况。

库马尔说：“很有可能发生的情况是，在训练结束时，模型将知道如何修复基础模型的错误，但可能没有足够的能力来检测自己的错误。”

SFT 的另一个挑战是它可能导致意外行为，例如模型学习在第一次尝试中产生最佳答案，并且不会在后续步骤中改变它，即使它不正确。

“我们发现，SFT 训练模型的行为在很大程度上屈服于这种‘直接’策略，而不是学习如何自我纠正，”库马尔说。

通过强化学习进行自我纠正

为了克服以前方法的局限性，DeepMind 研究人员转向了强化学习(RL)。

“从之前评估自我纠正的研究可以看出，如今的法学硕士无法做到 [自我纠正]。这是一个根本问题，”库马尔说。“法学硕士没有接受过回顾和反省自己错误的训练，他们接受的训练是针对问题做出最佳回答。因此，我们开始建立自我纠正的方法。”

SCoRe 训练单个模型来生成响应并纠正自身的错误，而无需依赖外部反馈。重要的是，SCoRe 通过完全基于自生成数据训练模型来实现这一点，从而无需外部知识。

以前使用 RL 进行自我纠正的尝试大多依赖于单轮交互，这可能会导致不良结果，例如模型仅关注最终答案而忽略指导自我纠正的中间步骤。

“我们确实看到……在接受过简单强化学习自我纠正训练的 LLM 中出现了‘行为崩溃’。它学会了简单地忽略自我纠正的指令，并在零样本中根据记忆产生最佳反应，而无需学会自我纠正，”Kumar 说。

为了防止行为崩溃，SCoRe 使用带有正则化技术的两阶段训练过程。第一阶段用优化校正性能的过程取代 SFT，同时确保模型的初始尝试接近基础模型的输出。

第二阶段采用多轮 RL 来优化初次和后续尝试的奖励，同时加入奖励奖金，鼓励模型从第一次到第二次尝试改进其响应。

研究人员写道：“初始化和奖励奖励都确保模型不能简单地学会产生最佳的首次尝试响应并对其进行少量编辑。”“总的来说，SCoRe 能够从基础模型中获取知识，从而实现积极的自我纠正。”

SCoRe 实际行动

DeepMind 研究人员将 SCoRe 与使用自生成数据进行自我校正训练的现有方法进行了比较。他们专注于数学和编码任务，使用了 MATH、MBPP 和 HumanEval 等基准。

结果表明，SCoRe 显著提升了Gemini 1.0 Pro 和 1.5 Flash 模型的自校正能力。例如，与基础模型相比，SCoRe 在 MATH 基准测试中实现了 15.6% 的自校正绝对增益，在 HumanEval 基准测试中实现了 9.1% 的自校正绝对增益，比其他自校正方法高出几个百分点。

最显著的改进是模型在第一次尝试和第二次尝试之间纠正错误的能力。SCoRe 还大大减少了模型错误地将正确答案更改为错误答案的情况，表明它学会了仅在必要时应用更正。

此外，SCoRe与自洽性等推理时间扩展策略相结合时被证明非常高效。通过将相同的推理预算分配到多轮校正中，SCoRe 实现了进一步的性能提升。

虽然该论文主要关注编码和推理任务，但研究人员认为 SCoRe 对其他应用也有益处。

库马尔说：“你可以想象一下，教学模型回顾其可能不安全的输出，并在向用户展示之前自行改进它们。”

研究人员认为，他们的工作对于法学硕士培训具有更广泛的意义，并强调了教导模型如何推理和自我纠正而不是简单地将输入映射到输出的重要性。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/deepmind-de-score-biao-ming-fa-xue-shuo-shi-ke-yi-li-yong

Like (0)

点点

0 0

微软为 Bing 带来 AI 概览

Previous 2024年10月2日

推理框架 Archon 有望加快 LLM 进程，且无需额外成本

Next 2024年10月3日

AI前沿

Agentic AI 可以帮助您在 2025 年找到一份新的软件工程工作

45% 的美国人担心自己的个人财务状况，最担心的是自己的财务未来，包括没有足够的钱退休（68%）、维持生活成本（56%）和控制债务水平（45%）。一份新的退休准备报告还发现，62…

王浩然
2025年1月8日
000
AI前沿

人工智能心理健康平台获 82.5 万美元融资

心理健康初创公司 Yung Sidekick 已获得 825,000 美元的种子前资金，用于开发针对心理健康专业人士的人工智能平台。此轮融资由 Altair Capital 和 …

点点
2024年10月8日
000
AI前沿

Adobe全新AI代理：为您的客户打造个性化网站

重写与翻译内容 Adobe全新AI代理：为您的客户打造个性化网站在数字化转型的浪潮中，企业正不断探索如何通过创新技术提升客户体验。Adobe，这家在创意软件和数字体验领域享有盛誉…

王浩然
2025年3月20日
000
AI前沿

Nvidia 人工智能人形机器人在拉斯维加斯提供咖啡

Richtech Robotics 公司生产的 Adam 机器人将于周日在 Town Square 的 Clouffee and Tea 开始工作采用 Nvidia AI 技术的…

王浩然
2025年2月18日
000
AI前沿

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。微软今天发布了一项服务，名为 Correction，旨在自动…

王浩然
2024年9月25日
000
AI前沿

Anthropic重塑教育AI：Claude学习模式让学生主动思考

在人工智能（AI）迅速发展的今天，其在教育领域的应用引发了广泛关注。然而，大多数现有的教育AI工具往往侧重于提供快速答案，而非培养学生的批判性思维和深度理解能力。为了打破这一局面，…

王浩然
2天前
000
AI前沿

2025 年值得关注的数据中心监管趋势

全球各地的政府机构都在制定法规，以提高数据中心的可持续性和弹性。这反过来又迫使数据中心运营商实施新的流程和程序来满足新的要求。欧盟修订的《能源效率指令》（EED）旨在减少能源…

王浩然
2024年12月7日
000
AI前沿

LinkedIn 在更新服务条款前曾抓取用户数据用于培训

LinkedIn 可能已经在没有更新其条款的情况下利用用户数据训练了 AI 模型。 LinkedIn 的美国用户（欧盟、欧洲经济区或瑞士除外，这可能是由于这些地区的数据隐私规则）在…

王浩然
2024年9月19日
000
AI前沿

激辩大模型：投资人泼冷水，创业企业能走多远？

眼看着大模型越来越火，最近给大模型泼冷水的大佬们，却越来越多了。比如，前Google科学家、出门问问创始人兼CEO李志飞就表示：中国的OpenAI是个伪命题，OpenAI也不一定…

点点
2024年9月16日
000
AI前沿

Goodnotes增加了一个人工智能，甚至可以读取和解释最糟糕的笔迹

人工智能已经非常擅长坚持与人类对话的结束，但来自数字笔记应用程序Goodnotes的一组新的人工智能功能通过阅读足够好的手写来讨论它，甚至回答有关涂鸦的问题，表演了更令人印象深刻的…

点点
2024年10月8日
000
AI前沿

利用人工智能和知识图谱进行企业决策

当今的商业环境无疑比以往任何时候都更具竞争性和复杂性：客户期望空前高涨，企业需要满足（或超越）这些需求，同时创造新产品和新体验，为消费者带来更多价值。与此同时，许多组织资源匮乏，预…

点点
2024年11月5日
000
AI前沿

JetBrains AI 部门负责人 Vladislav Tankov – 访谈系列

Vladislav Tankov 是 AI 总监，领导 JetBrains AI 和 Grazie 产品的开发，负责 JetBrains IDE 中的 AI 助手。 JetBrai…

点点
2024年9月25日
000
AI前沿

Anthropic 的新 AI 模型可以控制你的电脑

去年春天，Anthropic在向投资者推介时表示，公司打算开发人工智能来驱动虚拟助理，让其能够独立进行研究、回复电子邮件和处理其他后台工作。该公司将此称为“人工智能自学的下一代算法…

王浩然
2024年10月24日
000
AI前沿

我们可以从道德黑客身上学到的 3 个领导力课程

当你听到“黑客”这个词时，你会想到什么？这个词最初是指20 世纪 50 年代和 60 年代探索技术边界的计算机爱好者。直到 20 世纪 80 年代，新法律和媒体与文化中的耸人听闻的…

王浩然
2024年11月20日
000
AI前沿

谷歌首席执行官表示，人工智能模型 Gemini 将成为公司 2025 年的“最大重点”

据报道，首席执行官桑达尔·皮查伊 (Sundar Pichai) 告诉谷歌员工，2025 年将是公司“关键”的一年。据 CNBC 报道，它获得了 12 月 18 日战略会议的音频…

王浩然
2024年12月29日
000
AI前沿

字节入局AI硬件赛道，一切为火山引擎卖方案服务？

谈起2023年的互联网大事件，有两件事是必不可能绕开的：其一是拼多多市值超越阿里，其二就是字节跳动（下文简称字节）上半年营收超过了腾讯。凭借今日头条和抖音两款现象级产品，字节几…

点点
2024年9月12日
000
AI前沿

从伊隆·马斯克到警车追逐，一名软件工程师如何创办一家警用 AI 初创公司

今年早些时候，Abel创始人 Daniel Francis 驾驶一辆汽车在加利福尼亚州奥克兰的高速公路上以每小时 135 英里的速度行驶。司机是一名警察，腿上放着一把枪。弗朗…

点点
2024年10月19日
000
AI前沿

Basil Faruqui，BMC Software：如何制定数据和 AI 战略

BMC Software 的解决方案营销总监 Basil Faruqui 讨论了 DataOps、数据编排的重要性以及 AI 在优化复杂工作流自动化以实现业务成功方面的作用。 BM…

点点
2024年9月28日
000
AI前沿

NVIDIA推出Llama Nemotron开放推理模型，加速自主AI发展

在人工智能（AI）领域，NVIDIA始终走在创新的前沿。近日，在NVIDIA GTC大会上，这家AI巨头宣布了一系列硬件和软件更新，其中最为引人注目的莫过于其全新推出的Llama …

王浩然
2025年3月22日
000
AI前沿

微软利用三哩岛核电站为人工智能提供动力

训练人工智能背后大型语言模型的数据中心消耗着难以想象的大量能源，大型科技公司必须确保有足够的电力来运行这些工厂。这就是微软现在全力支持核电的原因。这家科技巨头周五与核电站运营商 …

王浩然
2024年9月21日
000