小语言模型如何通过测试时缩放解锁隐藏推理能力并超越大型语言模型‌

王浩然 • 2025年2月22日下午2:00 • AI前沿 • 50 views

根据上海人工智能实验室的一项新研究，非常小的语言模型（SLMs）在推理任务中能够超越领先的大型语言模型（LLMs）。研究人员展示，通过正确的工具和测试时缩放技术，一个具有10亿参数的SLM在复杂的数学基准测试中能够超越一个4050亿参数的LLM。在复杂推理任务中部署SLMs的能力非常有用，因为企业正在寻找在新环境和应用中使用这些新模型的新方法。

‌测试时缩放解释‌

测试时缩放（TTS）是指在推理过程中为LLMs提供额外的计算资源以提高其在各种任务上的性能。领先的推理模型，如OpenAI的GPT-1和DeepSeek-R1，使用“内部TTS”，这意味着它们被训练成通过生成一长串思维链（CoT）标记来“缓慢思考”。另一种方法是“外部TTS”，其中模型性能通过外部帮助得到增强。外部TTS适用于在不进一步微调的情况下将现有模型重新用于推理任务。外部TTS设置通常由一个“策略模型”（主要生成答案的LLM）和一个过程奖励模型（PRM，评估策略模型的答案）组成。这两个组件通过采样或搜索方法耦合在一起。

‌不同的测试时缩放方法‌

‌“最佳N选”（Best-of-N）‌：策略模型生成多个答案，PRM选择一个或多个最佳答案来组成最终响应。
‌“束搜索”（Beam Search）‌：模型将答案分解为多个步骤。对于每个步骤，它采样多个答案并通过PRM运行它们，然后选择一个或多个合适的候选者并生成答案的下一步。
‌“多样化验证树搜索”（DVTS）‌：模型生成多个答案分支以创建一个更多样化的候选响应集，然后将其合成为最终答案。

‌选择正确的缩放策略‌

研究作者对不同的策略模型和PRM如何影响TTS方法的效率进行了系统调查。他们的发现表明，效率在很大程度上取决于策略模型和PRM。例如，对于小型策略模型，基于搜索的方法优于最佳N选。然而，对于大型策略模型，最佳N选更有效，因为这些模型具有更好的推理能力，不需要奖励模型来验证其推理的每一步。此外，研究发现正确的TTS策略还取决于问题的难度。

‌小模型为何能击败大模型‌

研究人员发现，使用计算最优的TTS策略，SLM可以在计算预算内超越比其大100-1000倍的大型模型。例如，一个具有32亿参数的Llama模型在MATH-500和AIME24这两个复杂的数学基准测试中超越了具有4050亿参数的Llama模型。这表明，对于推理能力较弱的模型，测试时计算缩放会带来实质性改进，而对于推理能力较强的模型，增益则有限。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xiao-yu-yan-mo-xing-ru-he-tong-guo-ce-shi-shi-suo-fang-jie

内部TTS 外部TTS 多样化验证树搜索（DVTS）大型语言模型（LLMs）小语言模型（SLMs）推理能力最佳N选束搜索测试时缩放（TTS）策略模型计算最优策略过程奖励模型（PRM）

Like (0)

王浩然作者

0 0

电动汽车充电行业利用AI提升智能电表数据应用

Previous 2025年2月22日

医学教育的AI飞跃：代理式检索增强生成（RAG）、开放权重大型语言模型（LLMs）和实时病例洞察如何塑造纽约大学朗格尼医学中心的新一代医生

Next 2025年2月22日

AI前沿

Encord CEO Eric Landau访谈：AI如何颠覆行业？

Eric Landau 是Encord的首席执行官兼联合创始人，Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员，将数千…

点点
2024年9月11日
000
AI前沿

2025年iPhone上最佳的5款传真应用：轻松从移动设备发送文档

在数字化时代，尽管电子邮件和其他在线文件传输方式日益普及，但传真作为一种传统的通信手段，仍然在许多行业和场景中发挥着重要作用。为了满足用户在移动设备上发送传真的需求，市场上涌现了一…

王浩然
2025年3月16日
000
AI前沿

利用人工智能节省照片筛选时间

如果您是摄影师，没有什么比在大型活动或拍摄后整理数百张（甚至数千张）照片更耗时的事情了。您是否知道专业摄影师平均每小时拍摄一次，要花 3-4 个小时进行编辑？我最近偶然发现了Af…

AI评测师
2024年10月7日
000
AI前沿

Agentic AI：重塑企业会议的新篇章

一、引言：超越转录的智能会议助手在数字化转型的浪潮中，企业会议作为沟通协作的核心环节，正经历着前所未有的变革。Agentic AI，作为一种新兴的人工智能技术，正逐步超越传统的语…

王浩然
2025年3月28日
000
AI前沿

Uber 正在组建一支零工队伍，为人工智能模型标记数据

Uber 正在扩大其零工劳动力队伍并创建一个新的类别：人工智能注释和数据标记。这家叫车公司已开始为一个名为 Scaled Solutions 的新 AI 和数据标签部门招聘合同工…

王浩然
2024年11月29日
000
AI前沿

DeepSeek 有助于加速威胁检测，但同时也引发了国家安全担忧

DeepSeek 及其 R1 模型不会浪费任何时间来实时重写网络安全 AI 规则，从初创公司到企业提供商等所有公司都在本月试行集成到他们的新模型中。 R1 是在中国开发的，基于纯强…

王浩然
2025年2月3日
000
AI前沿

AWS 将数据库价格降低近 50%，并增加了分布式扩展功能

AWS正在扩展其云数据库产品组合的功能，同时降低企业成本。在今天的AWS re:invent 2024会议上，这家云计算巨头概述了一系列云数据库创新。其中包括新的 Amazon …

王浩然
2024年12月6日
000
AI前沿

好戏还没完：2024 年人工智能投资将大幅增加

2024 年第三季度，全球人工智能交易量达到 1,245 笔，达到 2022 年第一季度以来的最高水平，反映出投资者对投资人工智能的信心和韧性。全球人工智能交易同比增长 24%，…

王浩然
2024年11月3日
000
AI前沿

畅销书作家批评全国小说写作月的人工智能中立立场

全国小说写作月（NaNoWriMo）是一个已有 25 年历史的非营利组织，旨在鼓励任何有兴趣的人每年 11 月创作一本小说。该组织最近宣布将接受使用人工智能 (AI)作为写作过程的…

王浩然
2024年9月5日
000
AI前沿

沃尔玛和亚马逊利用人工智能推动零售转型

沃尔玛和亚马逊正在利用人工智能推动零售转型，带来全新的消费者体验并提高运营效率。据分析公司GlobalData称，沃尔玛正专注于增强现实和人工智能增强型商店管理。与此同时，亚马逊…

点点
2024年9月17日
000
AI前沿

Slack 正在成为人工智能工作场所：这对你的工作意味着什么

这款让数百万办公室工作人员分享表情包、协调项目的消息应用程序正在悄然转变为一个更具雄心壮志的目标：一个让人工智能代理作为数字同事与人类一起工作的平台。作为 Salesforce …

王浩然
2024年12月21日
000
AI前沿

适当的节奏对人工智能至关重要：Gartner 主题演讲的见解

在周一 Gartner IT Symposium/Xpo 2024 的开幕主题演讲中，分析师 Mary Mesaglio 和 Hung LeHong 描述了构建成功的 AI 堆栈的…

点点
2024年10月22日
000
AI前沿

开放权重模型的兴起：阿里巴巴的 Qwen2 如何重新定义 AI 能力

人工智能 (AI)已经从早期基于基本规则的系统和简单的机器学习算法发展到如今的水平。如今，世界正在进入人工智能的新时代，而推动这一时代发展的是开放权重模型这一革命性概念。与具有固定…

点点
2024年10月11日
000
AI前沿

AI编程助手并非万能解决方案

近期的一份报告显示，人工智能（AI）编程助手虽然在一定程度上提高了编程效率，但并非所有编程问题的万能解决方案。这一结论基于对当前市场上主流AI编程助手功能的深入分析，以及对开发者实…

王浩然
2025年2月25日
000
AI前沿

微软押注碳去除竞赛将有助于抵消其飙升的人工智能排放量

微软陷入困境：该公司承诺到 2030 年实现碳负排放，但自 2020 年以来，其排放量飙升了 40% 以上，部分原因是其蓬勃发展的人工智能业务。该公司购买了大量可再生能源，但有些排…

王浩然
2024年11月17日
000
AI前沿

让艺术世界更加触手可及

初创公司 NALA 最初是麻省理工学院的一个课堂项目，旨在将艺术品买家与艺术家直接匹配。在高价艺术品的世界里，画廊通常扮演着守门人的角色。他们精心挑选的策展过程是大城市的画廊经常…

王浩然
2025年1月27日
000
AI前沿

代码私语者：Anthropic 的 Claude 如何改变软件开发人员的游戏规则

软件开发领域正在经历自开源编码出现以来最大的变革。人工智能助手曾经被专业开发人员持怀疑态度，但现在已成为价值7369.6亿美元的全球软件开发市场中不可或缺的工具。引领这一巨变的产品…

王浩然
2024年12月24日
000
AI前沿

微软将在德国面临更严格的竞争审查，包括其对人工智能的使用

微软已加入受德国特殊滥用控制制度约束的科技巨头专属俱乐部。德国联邦企业联合办公室 (FCO) 周一证实，如果竞争管理机构认为有必要进行干预，这家软件巨头可能会受到限制。这项为期五…

王浩然
2024年10月1日
000
AI前沿

Distributional 融资 1900 万美元，用于自动化 AI 模型和应用程序测试

Distributional是由英特尔前人工智能软件总经理 Scott Clark 创立的人工智能测试平台，已完成由 Two Sigma Ventures 领投的 1900 万美元…

王浩然
2024年10月10日
000
AI前沿

克服人工智能基础设施部署障碍的 5 种方法

如今，企业面临着利用人工智能作为竞争优势的巨大压力，但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能，但障碍使另外 40% 的企业处于探索和实验阶段。尽管人…

王浩然
2024年11月1日
000

发表回复

Please Login to Comment

小语言模型如何通过测试时缩放解锁隐藏推理能力并超越大型语言模型‌

相关推荐

发表回复

Share To :