DeepMind 的 SCoRe 表明,法学硕士可以利用他们的内部知识来纠正错误

DeepMind 的 SCoRe 表明,法学硕士可以利用他们的内部知识来纠正错误

虽然大型语言模型 (LLM) 在复杂任务中越来越有效,但在很多情况下,它们无法在第一次尝试时得到正确答案。这就是为什么人们对让 LLM 发现并纠正错误(也称为“自我纠正”)越来越感兴趣。然而,目前自我纠正的尝试是有限的,而且在现实世界中往往无法满足要求。

在一篇新论文中,Google DeepMind的研究人员介绍了通过强化学习进行自我纠正(SCoRe),这是一项新技术,仅使用自生成数据即可显著提高 LLM 的自我纠正能力。SCoRe 可以成为一种有价值的工具,使 LLM 更加稳健和可靠,并为增强其推理和解决问题的能力开辟了新的可能性。

你准备好迎接人工智能代理了吗?

法学硕士 (LLM) 课程中自我纠正的重要性

“自我纠正是一种可以极大增强人类思维的能力,”谷歌 DeepMind 研究科学家 Aviral Kumar 告诉 VentureBeat。“人类通常会花更多时间思考、尝试多种想法、纠正错误,最终解决给定的难题,而不是一次性为难题找到解决方案。我们希望法学硕士也能做到这一点。”

理想情况下,具有强大自我纠正能力的 LLM 应该能够检查和改进自己的答案,直到得出正确的答案。这一点尤其重要,因为 LLM 通常拥有解决问题所需的内部知识,但在生成初始答案时无法有效地利用这些知识。

Kumar 表示:“从基本的机器学习角度来看,没有任何 LLM 能够利用其记忆在零样本内解决所有难题(人类当然无法做到这一点),因此我们希望 LLM 花费更多的时间进行思考计算并自我纠正,以成功解决难题。”

之前在 LLM 中实现自我修正的尝试依赖于专门用于自我修正的快速工程或微调模型。这些方法通常假设模型可以接收有关输出质量的外部反馈,或者可以访问可以指导自我修正过程的“预言机”。

这些技术未能利用模型固有的自我修正能力。监督微调 (SFT) 方法涉及训练模型以修复基础模型的错误,但也显示出局限性。它们通常需要来自人类注释者或更强大的模型的 Oracle 反馈,并且不依赖于模型自身的知识。一些 SFT 方法甚至在推理过程中需要多个模型来验证和改进答案,这使得部署和使用它们变得困难。

此外,DeepMind 的研究表明,虽然 SFT 方法可以改善模型的初始响应,但当模型需要在多个步骤内修改其答案时,它们的表现并不好,而复杂问题通常就是这种情况。

库马尔说:“很有可能发生的情况是,在训练结束时,模型将知道如何修复基础模型的错误,但可能没有足够的能力来检测自己的错误。”

SFT 的另一个挑战是它可能导致意外行为,例如模型学习在第一次尝试中产生最佳答案,并且不会在后续步骤中改变它,即使它不正确。

“我们发现,SFT 训练模型的行为在很大程度上屈服于这种‘直接’策略,而不是学习如何自我纠正,”库马尔说。

通过强化学习进行自我纠正

DeepMind 的 SCoRe 表明,法学硕士可以利用他们的内部知识来纠正错误

为了克服以前方法的局限性,DeepMind 研究人员转向了强化学习(RL)。 

“从之前评估自我纠正的研究可以看出,如今的法学硕士无法做到 [自我纠正]。这是一个根本问题,”库马尔说。“法学硕士没有接受过回顾和反省自己错误的训练,他们接受的训练是针对问题做出最佳回答。因此,我们开始建立自我纠正的方法。”

SCoRe 训练单个模型来生成响应并纠正自身的错误,而无需依赖外部反馈。重要的是,SCoRe 通过完全基于自生成数据训练模型来实现这一点,从而无需外部知识。

以前使用 RL 进行自我纠正的尝试大多依赖于单轮交互,这可能会导致不良结果,例如模型仅关注最终答案而忽略指导自我纠正的中间步骤。

“我们确实看到……在接受过简单强化学习自我纠正训练的 LLM 中出现了‘行为崩溃’。它学会了简单地忽略自我纠正的指令,并在零样本中根据记忆产生最佳反应,而无需学会自我纠正,”Kumar 说。

为了防止行为崩溃,SCoRe 使用带有正则化技术的两阶段训练过程。第一阶段用优化校正性能的过程取代 SFT,同时确保模型的初始尝试接近基础模型的输出。

第二阶段采用多轮 RL 来优化初次和后续尝试的奖励,同时加入奖励奖金,鼓励模型从第一次到第二次尝试改进其响应。

研究人员写道:“初始化和奖励奖励都确保模型不能简单地学会产生最佳的首次尝试响应并对其进行少量编辑。”“总的来说,SCoRe 能够从基础模型中获取知识,从而实现积极的自我纠正。”

SCoRe 实际行动

DeepMind 研究人员将 SCoRe 与使用自生成数据进行自我校正训练的现有方法进行了比较。他们专注于数学和编码任务,使用了 MATH、MBPP 和 HumanEval 等基准。

DeepMind 的 SCoRe 表明,法学硕士可以利用他们的内部知识来纠正错误

结果表明,SCoRe 显著提升了Gemini 1.0 Pro 和 1.5 Flash 模型的自校正能力。例如,与基础模型相比,SCoRe 在 MATH 基准测试中实现了 15.6% 的自校正绝对增益,在 HumanEval 基准测试中实现了 9.1% 的自校正绝对增益,比其他自校正方法高出几个百分点。

最显著的改进是模型在第一次尝试和第二次尝试之间纠正错误的能力。SCoRe 还大大减少了模型错误地将正确答案更改为错误答案的情况,表明它学会了仅在必要时应用更正。

此外,SCoRe与自洽性等推理时间扩展策略相结合时被证明非常高效。通过将相同的推理预算分配到多轮校正中,SCoRe 实现了进一步的性能提升。

DeepMind 的 SCoRe 表明,法学硕士可以利用他们的内部知识来纠正错误

虽然该论文主要关注编码和推理任务,但研究人员认为 SCoRe 对其他应用也有益处。

库马尔说:“你可以想象一下,教学模型回顾其可能不安全的输出,并在向用户展示之前自行改进它们。”

研究人员认为,他们的工作对于法学硕士培训具有更广泛的意义,并强调了教导模型如何推理和自我纠正而不是简单地将输入映射到输出的重要性。 

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/deepmind-de-score-biao-ming-fa-xue-shuo-shi-ke-yi-li-yong

Like (0)
点点的头像点点
Previous 2024年10月2日
Next 2024年10月3日

相关推荐

发表回复

Please Login to Comment