少即是多：加州大学伯克利分校与谷歌通过简单采样解锁大型语言模型潜力‌

王浩然 • 2025年3月24日下午1:00 • AI前沿 • 55 views

在人工智能领域，大型语言模型（LLMs）的推理能力一直是研究者和开发者关注的焦点。近期，来自谷歌研究和加州大学伯克利分校的研究人员发表了一篇新论文，揭示了一种令人惊讶的简单测试时间缩放方法，能够显著提升LLMs的推理能力。这一发现不仅挑战了传统观念，即高度专业化的训练或复杂架构是实现顶级性能的必要条件，而且为企业应用提供了全新的可能性。

采样基搜索：一种简单而强大的方法

研究人员发现，通过增加采样基搜索的使用，可以显著提高LLMs的推理表现。采样基搜索是一种依赖生成多个响应并利用模型本身进行验证的技术。这种方法的核心在于其简单性和可扩展性：模型生成多个候选响应，并通过自我验证机制选择最佳响应。

论文指出，即使是最小化的采样基搜索实现——仅使用随机采样和自我验证——也能在流行基准测试中使模型的推理性能超越那些经过专门训练的模型。例如，使用这种方法，Gemini 1.5 Pro在AIME和MATH等推理基准测试中的表现甚至超过了专门为推理问题训练的o1-Preview模型。

测试时间缩放的新策略

当前，LLMs中流行的测试时间缩放方法是通过强化学习训练模型，以生成带有思维链（CoT）痕迹的更长响应。这种方法虽然有效，但通常需要在训练阶段投入大量资源。另一种方法是“自我一致性”，即模型对查询生成多个响应，并选择出现次数最多的答案。然而，当处理复杂问题时，这种方法可能会达到极限，因为最重复的答案并不一定是正确的。

相比之下，采样基搜索提供了一种更简单且高度可扩展的替代方案。它允许模型生成多个响应，并通过验证机制选择最佳响应。这种方法不仅可以与其他测试时间计算缩放策略相辅相成，而且具有独特的优势：它极易并行化，并允许任意缩放——只需生成更多响应即可。

自我验证：模型自我评估的新途径

在这项研究中，研究人员使用了一种“自我验证”过程，其中模型评估自己的输出，而不依赖外部真实答案或符号验证系统。这一算法通过几个简单步骤实现：首先，模型使用非零温度设置多次生成候选解决方案；然后，对每个候选响应进行多次验证，以确定其正确性；最后，选择得分最高的响应作为最终答案。

研究还探讨了两种关键的测试时间缩放轴：采样（模型为每个输入问题生成的响应数量）和验证（为每个生成的解决方案计算的验证分数数量）。研究结果显示，即使测试时间计算远超过自我一致性饱和的点，采样基搜索的推理性能也会继续提升。

成本与效益的平衡

尽管采样基搜索的结果令人印象深刻，但其成本也可能变得非常高昂。例如，在AIME基准测试中，使用200个样本和每个样本50个验证步骤，将生成约1.3亿个令牌，使用Gemini 1.5 Pro的成本约为650美元。然而，研究人员指出，通过更智能的采样和验证方法，可以显著降低推理成本。例如，使用Gemini 1.5 Flash进行验证，每个问题的成本可以降低到12美元。

未来的展望

这项研究不仅展示了采样基搜索在提升LLMs推理能力方面的巨大潜力，而且为企业应用提供了新的思路。通过分配更多的计算资源用于采样和验证，企业可以显著增加LLMs的性能。此外，随着模型学会利用隐式缩放和输出样式适宜性原则，模型的自我验证能力预计将在短期内迅速提高，从而推动采样基搜索的缩放速率。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/shao-ji-shi-duo-jia-zhou-da-xue-bo-ke-li-fen-xiao-yu-gu-ge

加州大学伯克利分校大型语言模型并行化强化学习成本效益推理能力测试时间缩放自我一致性自我验证谷歌研究采样基搜索

Like (0)

王浩然作者

0 0

OpenAI推出全新语音AI模型：gpt-4o-transcribe，让你的文本应用秒变语音交互神器

Previous 2025年3月24日

AI工作取代：是逐渐发生还是突然到来？‌

Next 2025年3月24日

AI前沿

实习生涉嫌破坏字节跳动 AI 项目，导致被解雇

TikTok 的创建者字节跳动最近遭遇了一起安全漏洞，一名实习生涉嫌破坏人工智能模型训练。微信上报道的这起事件引发了人们对该公司人工智能部门安全协议的担忧。对此，字节跳动澄清称，…

点点
2024年10月26日
000
AI前沿

模型太多，混乱不堪：OpenAI 承诺简化其产品线

OpenAI 计划“简化”其模型产品，即使它准备发布其最后一个非推理模型 GPT-4.5。对于一家科技公司来说，这是罕见的承认，其产品发布对客户来说没有足够的差异化。 OpenAI…

王浩然
2025年2月13日
000
AI前沿

LLM 反学习如何塑造 AI 隐私的未来

大型语言模型 (LLM)的快速发展带来了人工智能 (AI) 的重大进步。从自动化内容创建到在医疗保健、法律和金融领域提供支持，LLM 正在凭借其理解和生成类似人类的文本的能力重塑行…

点点
2024年10月24日
000
AI前沿

搜索的未来：当人工智能从检索转向深度推理时

随着生成式人工智能重新定义我们与技术的互动，我们搜索信息的方式也在发生深刻的转变。传统的搜索引擎依赖于关键词匹配和检索，而现在正逐渐被更先进的系统所取代，这些系统利用生成式人工智能…

王浩然
2024年8月27日
000
AI前沿

小而强大：H2O.ai 的新 AI 模型在文档分析领域挑战科技巨头

开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型，旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OV…

王浩然
2024年10月19日
000
AI前沿

微软严厉打击副驾驶人工智能的恶意使用

微软数字犯罪部门正在采取法律行动，打击那些创建恶意工具、逃避生成式人工智能服务的安全护栏和准则并创建有害内容的网络犯罪分子。根据弗吉尼亚州东区一份未密封的投诉，尽管该公司竭尽全力…

王浩然
2025年1月17日
000
AI前沿

德勤调查：企业对生成式人工智能持谨慎乐观态度

一项新调查发现，一年前，企业对生成式人工智能的前景充满热情，但随着它们面临将人工智能的可能性转化为成果的复杂性，这种热情已逐渐消退，转而变得乐观起来。德勤第四份《企业生成人工智能…

王浩然
2025年1月26日
000
AI前沿

史上最大的一笔风险投资，跌跌撞撞的来了

如果只从资本层面计较利弊的话，那OpenAI依然是最火的人工智能大模型超级独角兽，没有之一。 8月底，各大财经媒体纷纷爆料人工智能的头号玩家OpenAI即将完成最新一轮融资，本轮的…

点点
2024年10月7日
000
AI前沿

据报道，谷歌正在开发一种“使用计算机的代理”人工智能系统

据报道，谷歌最早可能在 12 月预览其对 Rabbit 大型动作模型概念的看法。据该媒体采访的三位直接了解该项目的人士称，该项目的代号为“Project Jarvis”，将为用户执…

王浩然
2024年10月29日
000
AI前沿

Relyance 获得 3200 万美元融资，帮助公司遵守数据法规

随着对人工智能的需求激增，人工智能供应商正在投入更多精力解决数据安全问题。他们不仅被迫遵守新兴的数据隐私法规（例如欧盟数据法案），而且还发现自己受到客户的密切关注，这些客户对他们的…

点点
2024年10月13日
000
AI前沿

Spotter 推出 AI 工具，帮助 YouTube 用户集思广益制作视频创意、缩略图等

为内容创作者提供财务解决方案的初创公司Spotter周二宣布推出其新的人工智能创意套件。该解决方案名为Spotter Studio，旨在为 YouTube 创作者提供整个创作过程的…

王浩然
2024年9月4日
000
AI前沿

Jony Ive 证实他正在与 OpenAI 合作开发一款新设备

/《纽约时报》在一篇重要人物特写报道中证实了艾维离开苹果后的动向。乔尼·艾维已确认他正在与 OpenAI 首席执行官山姆·奥特曼合作开发一个人工智能硬件项目。这一确认是今天《纽约…

王浩然
2024年9月24日
000
AI前沿

DataStax 首席执行官：2025 年将是我们真正看到人工智能转型的一年

当企业领导者努力应对实施生成式人工智能的复杂性时，DataStax 首席执行官 Chet Kapoor 提出了一个令人放心的观点：当前的挑战是技术革命的正常组成部分，2025 年将…

王浩然
2024年9月22日
000
AI前沿

生成式人工智能不会主动来找你——你不愿意采用它才是

我是一名作家，而且一直都是。我的写作技能无疑是我作为内部公关主管和传播策略师职业生涯的核心。不可否认，我嘲笑生成式人工智能会取代我的工作。一台没有灵魂的机器怎么能与我的创造力相匹敌…

王浩然
2024年10月29日
000
AI前沿

Adobe 如何保护艺术家免受 AI 滥用

近年来，生成式人工智能在创造逼真的视觉效果、模仿艺术风格和创造全新表达形式方面的能力日益增强，重新定义了艺术的创作和体验方式。虽然这种转变为创意行业的创新和生产力提供了巨大的机会，…

点点
2024年10月16日
000
AI前沿

ElevenLabs 聘请了阅读应用 Omnivore 背后的团队

生成式人工智能公司ElevenLabs聘请了开源稍后阅读应用程序Omnivore背后的团队。 Omnivore 联合创始人杰克逊·哈珀 (Jackson Harper) 和吴洪波 …

王浩然
2024年10月30日
000
AI前沿

人工智能行业对 Chatbot Arena 非常着迷，但它可能不是最好的基准

在过去的几个月里，埃隆·马斯克等科技高管一直在吹捧其公司人工智能模型在特定基准：Chatbot Arena 上的表现。 Chatbot Arena 由一个名为 LMSYS 的非营利…

王浩然
2024年9月8日
000
AI前沿

Google Gemini 的 Imagen 3 让玩家可以设计自己的棋子

谷歌实验室是科技巨头谷歌旗下的实验部门，它推出了一项新的在线项目，提供一种有趣的国际象棋游戏变体。该网络实验名为 GenChess，顾名思义，它采用了谷歌的图像生成模型 Gemi…

王浩然
2024年11月28日
000
AI前沿

Adobe 推出全新生成式 AI 视频工具

Adobe MAX 2024 上推出了 Firefly 视频模型和其他增强的创意工具

点点
2024年10月23日
000
AI前沿

认识 OpenAI 的 Operator，这是一个人工智能代理，它使用网络为你预订晚餐、订票、编制购物清单等

OpenAI 推出了其首款半自主 AI 代理Operator，旨在像人类一样“操作”网络浏览器。代理使用光标进行指向和点击，自行输入内容，浏览网页并在各种网站上执行操作，例如通过 …

王浩然
2025年1月25日
000