DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

推理时间扩展是2025 年人工智能的一大主题,人工智能实验室正在从不同角度对其进行攻克。谷歌 DeepMind 在其最新研究论文中引入了“思维进化”的概念,这是一种优化大型语言模型 (LLM) 对规划和推理任务的响应的技术。 

推理时间扩展技术试图通过让 LLM 在生成答案时进行更多“思考”来提高其性能。实际上,这意味着模型不是一次性生成答案,而是可以生成多个答案,检查和更正答案,并探索解决问题的不同方法。 

不断演变的法学硕士应对措施

思维进化依赖于两个关键组件:搜索和遗传算法。搜索算法是许多推理时间扩展技术中的常见组件。它们允许 LLM 找到最佳解决方案的最佳推理路径。遗传算法受到自然选择的启发。它们创建并发展候选解决方案群体以优化目标,通常称为“适应度函数”。 

DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

Mind Evolution 首先创建一组用自然语言表达的候选解决方案。这些解决方案由 LLM 生成,该 LLM 已获得问题描述以及有用的信息和说明。然后,LLM 评估每个候选解决方案,如果其不符合解决方案的标准,则对其进行改进。

然后,该算法通过从现有群体中抽样来选择下一代解决方案的父代,质量更高的解决方案被选中的几率更大。接下来,它通过交叉(选择父代对并组合它们的元素以创建新的解决方案)和变异(对新创建的解决方案进行随机更改)创建新的解决方案。它重复使用评估方法来完善新解决方案。

评估、选择和重新组合的循环持续进行,直到算法达到最优解或用尽预设的迭代次数。

DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

思维进化的一个重要部分是评估功能。推理时间扩展技术的评估者通常需要将问题从自然语言形式化为可由求解器程序处理的结构化符号表示。形式化问题可能需要大量的领域专业知识和对问题的深刻理解,以识别需要以符号表示的所有关键元素以及它们之间的关系,这限制了它的适用性。 

在 Mind Evolution 中,适应度函数旨在用于自然语言规划任务,其中解决方案以自然语言表达。只要有程序化解决方案评估器,系统就可以避免形式化问题。除了数字分数外,它还提供文本反馈,使 LLM 能够了解具体问题并进行有针对性的改进。

“我们专注于在自然语言空间而非形式空间中发展解决方案。这消除了任务形式化的要求,而任务形式化需要为每个任务实例付出大量努力和专业知识,”研究人员写道。

Mind Evolution 还采用了“孤岛”方法,以确保探索出多样化的解决方案。在每个阶段,该算法都会创建单独的解决方案组,这些解决方案会自行演变。然后,它会将最佳解决方案从一个组“迁移”到另一个组,以组合并创建新的解决方案。

规划任务中的思维进化

研究人员将 Mind Evolution 与 1-pass 等基线进行了测试,其中模型只生成一个答案;Best-of-N,其中模型生成多个答案并选择最佳答案;以及 Sequential Revisions+,这是一种修订技术,其中独立提出 10 个候选解决方案,然后分别修订 80 轮。Sequential Revisions+ 最接近 Mind Evolution,尽管它没有遗传算法组件来组合发现的解决方案的最佳部分。作为参考,他们还包括一个使用OpenAI o1-preview的额外 1-pass 基线。

DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

研究人员在快速且价格实惠的Gemini 1.5 Flash上进行了大部分测试。他们还探索了一种两阶段方法,当 Flash 模型无法解决问题时,就使用Gemini 1.5 Pro模型。这种两阶段方法比在每个问题实例上使用 Pro 模型具有更好的成本效益。

研究人员在多个自然语言规划基准上测试了 Mind Evolution,用于旅行和会议规划等任务。先前的研究表明,如果没有正式求解器的帮助,LLM 无法在这些任务上取得良好的表现。

例如,Gemini 1.5 Flash 和 o1-preview 在 TravelPlanner 上的成功率仅为 5.6% 和 11.7%,TravelPlanner 是一个基准测试,该测试模拟根据自然语言表达的用户偏好和约束来组织旅行计划。即使利用 Best-of-N 超过 800 个独立生成的响应,Gemini 1.5 Flash 在 TravelPlanner 上的成功率也仅为 55.6%。

DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

在所有测试中,Mind Evolution 的表现都远远超越基线,尤其是在任务变得越来越困难的时候。 

例如,Mind Evolution 在 TravelPlanner 上实现了 95% 的成功率。在 Trip Planning 基准测试中,Mind Evolution 的成功率达到 94.1%,而其他方法的成功率最高达到 77%。有趣的是,随着城市数量的增加,Mind Evolution 与其他技术之间的差距也在扩大,这表明它能够处理更复杂的规划任务。通过两阶段流程,Mind Evolution 在所有基准测试中都实现了近乎完美的成功率。

Mind Evolution 还证明了一种解决自然语言规划问题的经济有效的方法,它只使用了 Sequential-Revision+ 所用标记数量的一小部分,而 Sequential-Revision+ 是唯一一种性能接近其的其他技术。 

研究人员写道:“总的来说,这些结果证明了进化策略的明显优势,该策略结合了通过随机探索进行的广泛搜索和利用 LLM 进行解决方案改进的深度搜索。”

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepmind-de-xin-tui-li-shi-jian-suo-fang-ji-shu-ti-gao-le

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年1月23日
Next 2025年1月23日

相关推荐

发表回复

Please Login to Comment