DeepMind 的新推理时间缩放技术提高了 LLM 中的规划准确性

王浩然 • 2025年1月23日下午5:00 • AI前沿 • 90 views

推理时间扩展是2025 年人工智能的一大主题，人工智能实验室正在从不同角度对其进行攻克。谷歌 DeepMind 在其最新研究论文中引入了“思维进化”的概念，这是一种优化大型语言模型 (LLM) 对规划和推理任务的响应的技术。

推理时间扩展技术试图通过让 LLM 在生成答案时进行更多“思考”来提高其性能。实际上，这意味着模型不是一次性生成答案，而是可以生成多个答案，检查和更正答案，并探索解决问题的不同方法。

不断演变的法学硕士应对措施

思维进化依赖于两个关键组件：搜索和遗传算法。搜索算法是许多推理时间扩展技术中的常见组件。它们允许 LLM 找到最佳解决方案的最佳推理路径。遗传算法受到自然选择的启发。它们创建并发展候选解决方案群体以优化目标，通常称为“适应度函数”。

Mind Evolution 首先创建一组用自然语言表达的候选解决方案。这些解决方案由 LLM 生成，该 LLM 已获得问题描述以及有用的信息和说明。然后，LLM 评估每个候选解决方案，如果其不符合解决方案的标准，则对其进行改进。

然后，该算法通过从现有群体中抽样来选择下一代解决方案的父代，质量更高的解决方案被选中的几率更大。接下来，它通过交叉（选择父代对并组合它们的元素以创建新的解决方案）和变异（对新创建的解决方案进行随机更改）创建新的解决方案。它重复使用评估方法来完善新解决方案。

评估、选择和重新组合的循环持续进行，直到算法达到最优解或用尽预设的迭代次数。

思维进化的一个重要部分是评估功能。推理时间扩展技术的评估者通常需要将问题从自然语言形式化为可由求解器程序处理的结构化符号表示。形式化问题可能需要大量的领域专业知识和对问题的深刻理解，以识别需要以符号表示的所有关键元素以及它们之间的关系，这限制了它的适用性。

在 Mind Evolution 中，适应度函数旨在用于自然语言规划任务，其中解决方案以自然语言表达。只要有程序化解决方案评估器，系统就可以避免形式化问题。除了数字分数外，它还提供文本反馈，使 LLM 能够了解具体问题并进行有针对性的改进。

“我们专注于在自然语言空间而非形式空间中发展解决方案。这消除了任务形式化的要求，而任务形式化需要为每个任务实例付出大量努力和专业知识，”研究人员写道。

Mind Evolution 还采用了“孤岛”方法，以确保探索出多样化的解决方案。在每个阶段，该算法都会创建单独的解决方案组，这些解决方案会自行演变。然后，它会将最佳解决方案从一个组“迁移”到另一个组，以组合并创建新的解决方案。

规划任务中的思维进化

研究人员将 Mind Evolution 与 1-pass 等基线进行了测试，其中模型只生成一个答案；Best-of-N，其中模型生成多个答案并选择最佳答案；以及 Sequential Revisions+，这是一种修订技术，其中独立提出 10 个候选解决方案，然后分别修订 80 轮。Sequential Revisions+ 最接近 Mind Evolution，尽管它没有遗传算法组件来组合发现的解决方案的最佳部分。作为参考，他们还包括一个使用OpenAI o1-preview的额外 1-pass 基线。

研究人员在快速且价格实惠的Gemini 1.5 Flash上进行了大部分测试。他们还探索了一种两阶段方法，当 Flash 模型无法解决问题时，就使用Gemini 1.5 Pro模型。这种两阶段方法比在每个问题实例上使用 Pro 模型具有更好的成本效益。

研究人员在多个自然语言规划基准上测试了 Mind Evolution，用于旅行和会议规划等任务。先前的研究表明，如果没有正式求解器的帮助，LLM 无法在这些任务上取得良好的表现。

例如，Gemini 1.5 Flash 和 o1-preview 在 TravelPlanner 上的成功率仅为 5.6% 和 11.7%，TravelPlanner 是一个基准测试，该测试模拟根据自然语言表达的用户偏好和约束来组织旅行计划。即使利用 Best-of-N 超过 800 个独立生成的响应，Gemini 1.5 Flash 在 TravelPlanner 上的成功率也仅为 55.6%。

在所有测试中，Mind Evolution 的表现都远远超越基线，尤其是在任务变得越来越困难的时候。

例如，Mind Evolution 在 TravelPlanner 上实现了 95% 的成功率。在 Trip Planning 基准测试中，Mind Evolution 的成功率达到 94.1%，而其他方法的成功率最高达到 77%。有趣的是，随着城市数量的增加，Mind Evolution 与其他技术之间的差距也在扩大，这表明它能够处理更复杂的规划任务。通过两阶段流程，Mind Evolution 在所有基准测试中都实现了近乎完美的成功率。

Mind Evolution 还证明了一种解决自然语言规划问题的经济有效的方法，它只使用了 Sequential-Revision+ 所用标记数量的一小部分，而 Sequential-Revision+ 是唯一一种性能接近其的其他技术。

研究人员写道：“总的来说，这些结果证明了进化策略的明显优势，该策略结合了通过随机探索进行的广泛搜索和利用 LLM 进行解决方案改进的深度搜索。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepmind-de-xin-tui-li-shi-jian-suo-fang-ji-shu-ti-gao-le

Like (0)

王浩然作者

0 0

谷歌发布免费 Gemini 2.0 Flash Thinking 模型，对 OpenAI 的付费战略施压

Previous 2025年1月23日

OpenAI Stargate 是一笔 5000 亿美元的赌注：美国的人工智能曼哈顿计划还是代价高昂的死胡同？

Next 2025年1月23日

AI前沿

单一标记如何成就或破坏人工智能推理

想象一下，让人工智能解决一个关于偿还贷款的简单数学问题。当人工智能遇到“欠”这个词时，它会结巴，产生错误的计算和错误的逻辑。但是，将这个词改成“付”，人工智能的推理就会突然转变——…

王浩然
2024年12月9日
000
AI前沿

今年的智能手机不只具备人工智能

苹果周一发布了iPhone 16 系列，最大的卖点是 Apple Intelligence。苹果的设备内置 AI 系统提供了一些炫酷的功能，比如重写电子邮件、生成自定义表情符号以及…

王浩然
2024年9月14日
000
AI前沿

GPU迈向生物领域：BBB发布Bionode，打造基于实验室培育活神经元的AI计算平台

在人工智能（AI）技术的飞速发展进程中，计算硬件的革新始终是推动其前进的关键力量。长久以来，图形处理单元（GPU）作为昂贵的计算机芯片，一直由Nvidia、AMD等行业巨头主导，是…

王浩然
2025年3月21日
000
AI前沿

网站建设者 Squarespace 表示正在通过策划和品味来训练其人工智能工具

生成式人工智能工具能帮助人们建立更好的网站吗？还是只会让网络充斥着垃圾信息？Squarespace 最近推出了Design Intelligence，这是一款充满生成式人工智能工具…

王浩然
2024年10月8日
000
AI前沿

人工智能失散已久的孪生兄弟：工程智能

我们正面临第四次人工智能寒冬，人们开始动摇对人工智能将产生足够的实际价值来证明其成本合理的信心。随着高盛和其他研究机构的文章纷纷落叶归根，我们仍然有时间阻止下一个人工智能寒冬，而…

王浩然
2024年9月2日
000
AI前沿

CES 2025：机器人、人工智能、自动驾驶和智能物联的展望

预计将有超过 135,000 名参会者和 4,000 名参展商挤满拉斯维加斯会议中心年度大型技术贸易展会CES本周末在拉斯维加斯拉开帷幕，展会上将展示机器人、人工智能和移动领域的…

王浩然
2025年1月4日
000
AI前沿

Chipotle 投资人工智能来增强食品安全

Lumachain 的 AI 供应链平台可实时监控供应链中的每个项目

点点
2024年10月22日
000
AI前沿

Tiger Global 支持的 InVideo 推出基于 GenAI 的视频创作

印度视频编辑平台 InVideo 正在推出一项生成式 AI 视频创作功能，让您可以使用提示来生成视频片段。该平台得到了 Tiger Global 和 Peak XV 等公司的支持…

王浩然
2024年11月15日
000
AI前沿

有争议的研究表明，教科书对神经元的描述可能是错误的

19 世纪末，西班牙神经科学家圣地亚哥·拉蒙·卡哈尔绘制了数百张神经元图像。他的精湛作品影响了我们对神经元外观的理解：细胞的中心呈球状，一端是树枝般的树枝，另一端是长而光滑的尾巴。…

王浩然
2024年12月30日
000
AI前沿

OpenAI 全球事务副总裁声称 o1 在纠正偏见方面“几乎完美”，但数据并不完全支持这一点

本周，OpenAI 的头条新闻可能都是高管离职。但该公司全球事务副总裁 Anna Makanju 对人工智能偏见的评论也引起了我们的注意。周二，马坎朱在联合国未来峰会的一个小组讨…

王浩然
2024年9月27日
000
AI前沿

ServiceNow 开源 Fast-LLM，旨在帮助企业以 20% 的速度训练 AI 模型

训练大型语言模型 (LLM) 是企业最昂贵且最耗时的练习之一。ServiceNow 今天发布的新开源模型可能会带来巨大的改变，有望将训练速度提高 20%，从而为企业节省时间和金钱。…

王浩然
2024年12月11日
000
AI前沿

波士顿动力公司的电动 Atlas 机器人可自动挑选汽车零件

波士顿动力公司的新机器人一直在幕后悄然飞速发展。该公司于 4 月宣布推出这款机器人，8 月我们通过一段机器人做俯卧撑的视频简要了解了电动 Atlas 的实力。周三发布的最新视频展示…

王浩然
2024年10月31日
000
AI前沿

亚马逊推出人工智能购物指南

亚马逊周三推出了一系列针对消费者的人工智能功能和产品中的最新产品：人工智能购物指南。该指南将于周四推出，涵盖亚马逊网站上的 100 多种产品类型，有助于整合消费者在购买前往往会研究…

王浩然
2024年10月10日
000
AI前沿

人工智能育儿已然到来，a16z 已做好准备

人工智能希望帮助我们更好地驾驶、更好地书写和更快地诊断疾病。现在想象一下人工智能帮助你成为更好的父母。安德森·霍洛维茨基金合伙人贾斯汀·摩尔 (Justine Moo…

王浩然
2024年11月8日
000
AI前沿

前谷歌CEO泄露AI高级机密，英伟达将引爆“抢购潮”

上个周末，前谷歌CEO 埃里克·施密特在斯坦福大学进行了一场关于如果更智能的重要讲座，在不知道全程直播的情况下泄露了“AI行业的高级机密”，其中就包括了英伟达接下来的重磅利好消息。…

点点
2024年8月21日
000
AI前沿

我们已经从 RPA 走了很长一段路：AI 代理如何彻底改变自动化

在过去的一年里，自动化竞赛愈演愈烈，人工智能代理逐渐成为企业效率的终极变革者。虽然生成式人工智能工具在过去三年中取得了重大进展——成为企业工作流程中的重要助手——但现在人们的注意力…

王浩然
2024年12月16日
000
AI前沿

Agentic AI：重塑企业会议的新篇章

一、引言：超越转录的智能会议助手在数字化转型的浪潮中，企业会议作为沟通协作的核心环节，正经历着前所未有的变革。Agentic AI，作为一种新兴的人工智能技术，正逐步超越传统的语…

王浩然
2025年3月28日
000
AI前沿

SLK Software 首席执行官 Ajay Kumar – 访谈系列

Ajay Kumar 是SLK Software的首席执行官。Ajay 热衷于为客户带来积极影响，同时领导 SLK 所有垂直领域的损益表。作为行业资深人士，Ajay 具有创业信念，…

点点
2024年10月27日
000
AI前沿

超越 RAG：缓存增强生成如何降低较小工作负载的延迟和复杂性

检索增强生成 (RAG) 已成为定制大型语言模型 (LLM) 以处理定制信息的实际方法。然而，RAG 需要前期技术成本，而且速度可能很慢。现在，得益于长上下文 LLM 的进步，企业…

王浩然
2025年1月18日
000
AI前沿

电动汽车充电行业利用AI提升智能电表数据应用

随着越来越多的驾驶员转向电动汽车（EV），电网面临的充电需求预计将呈指数级增长，给现有配电系统带来巨大压力。如果不加以管理，当前的无序充电模式在未来十年内可能导致电网基础设施投资高…

王浩然
2025年2月22日
000