Hugging Face 展示了测试时间扩展如何帮助小型语言模型发挥其最大作用

王浩然 • 2024年12月21日上午10:00 • AI前沿 • 95 views

在一项新的案例研究中，Hugging Face 的研究人员展示了如何配置小型语言模型(SLM)，使其表现优于大型模型。他们的研究结果表明，具有 3B 参数的 Llama 3 模型在解决复杂数学问题时的表现优于 70B 版本的模型。

Hugging Face完整记录了整个过程，并为想要创建自己的定制推理模型的企业提供了路线图。

扩展测试时间计算

这项工作受到OpenAI o1的启发，它使用额外的“思考”来解决复杂的数学、编码和推理问题。

o1 等模型背后的关键思想是扩展“测试时计算”，这实际上意味着在推理过程中使用更多计算周期来测试和验证不同的响应和推理路径，然后再得出最终答案。当内存不足以运行大型模型时，扩展测试时计算尤其有用。

由于 o1 是一个私有模型，OpenAI 对其内部工作原理守口如瓶，研究人员一直在猜测其工作原理，并试图逆向工程该过程。目前已经有几种o1 的公开替代方案。

Hugging Face 的工作基于DeepMind 于 8 月发布的一项研究，该研究调查了推理时间和预训练计算之间的权衡。该研究提供了有关如何平衡训练和推理计算以在固定预算内获得最佳结果的全面指导。

除了使用额外的推理时间计算之外，该技术的成功还取决于两个关键组件：评估 SLM 答案的奖励模型，以及优化改进答案所需路径的搜索算法。

不同的推理算法

使用测试时间扩展的最简单方法是“多数投票”，即向模型发送相同的提示多次，并选择得票最高的提示。在简单问题中，多数投票可能很有用，但在复杂推理问题或错误在几代人之间一致的任务上，其收益很快就会停滞不前。

一种更高级的推理方法是“N 中最佳”。在这种技术中，SLM 会生成多个答案，但不是采用多数投票，而是使用奖励模型来评估答案并选择最佳答案。这种方法的更细致的版本是“加权 N 中最佳”，它考虑了一致性来选择可信度高且出现频率高的答案。

研究人员使用了一种“过程奖励模型”（PRM），该模型不仅根据最终答案对 SLM 的响应进行评分，还根据其得出该答案所经历的多个阶段进行评分。他们的实验表明，加权最佳 N 和 PRM 使Llama-3.2 1B在困难的 MATH-500 基准测试中接近 Llama-3.2 8B 的水平。

添加搜索

为了进一步提高模型的性能，研究人员在模型的推理过程中添加了搜索算法。他们没有一次性生成答案，而是使用了“定向搜索”算法，这是一种逐步引导模型回答过程的算法。

在每个步骤中，SLM 都会生成多个部分答案。搜索算法使用奖励模型来评估答案并选择值得进一步探索的子集。这个过程会重复进行，直到模型耗尽其推理预算或得出正确答案。这样，推理预算就可以缩小到最有希望的答案。

研究人员发现，虽然集束搜索可以提高模型在复杂问题上的表现，但它在简单问题上的表现往往不如其他技术。为了应对这一挑战，他们在推理策略中增加了两个元素。

首先是多样化验证器树搜索 (DVTS)，这是集束搜索的一种变体，可确保 SLM 不会陷入错误的推理路径并使其响应分支多样化。其次，他们开发了一种“计算最优扩展策略”，正如 DeepMind 论文中所建议的那样，它根据输入问题的难度动态选择最佳测试时间扩展策略。

这些技术的结合使 Llama-3.2 1B 能够发挥超乎寻常的性能，并显著超越 8B 模型。他们还发现该策略具有可扩展性，当应用于 Llama-3.2 3B 时，它们能够超越更大的 70B 模型。

尚未有一个完美的解决方案

扩展测试时间计算会改变模型成本的动态。企业现在可以选择将计算资源分配到何处。例如，如果您的内存不足或可以容忍较慢的响应时间，则可以使用小型模型并花费更多的推理时间周期来生成更准确的答案。

然而，测试时间扩展也有其局限性。例如，在 Hugging Face 进行的实验中，研究人员使用经过特殊训练的 Llama-3.1-8B 模型作为 PRM，这需要并行运行两个模型（即使它比 70B 模型更节省资源）。研究人员承认，测试时间扩展的终极目标是实现“自我验证”，即原始模型验证自己的答案，而不是依赖外部验证器。这是一个开放的研究领域。

本研究提出的测试时间缩放技术也仅限于答案可以明确评估的问题，例如编码和数学。为创意写作和产品设计等主观任务创建奖励模型和验证器需要进一步研究。

但有一点很明显，测试时间扩展已经引起了人们的极大兴趣和活动，我们可以期待在未来几个月内出现更多的工具和技术。企业应该密切关注形势的发展。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/hugging-face-zhan-shi-le-ce-shi-shi-jian-kuo-zhan-ru-he

Like (0)

王浩然作者

0 0

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

Previous 2024年12月20日

Perplexity 与Carbon 的集成将使企业更容易将其数据连接到 AI 搜索

Next 2024年12月21日

AI前沿

据报道，Perplexity 正寻求以 80 亿美元的估值进行融资

据《华尔街日报》报道，人工智能搜索引擎 Perplexity 正在进行融资谈判，希望以 80 亿美元的估值筹集约 5 亿美元。如果按照这些条款达成交易，Perplexity 的估…

王浩然
2024年10月21日
000
AI前沿

网络防御的NFL战术：安全领袖如何闪电突击、灵活转向并取得胜利

在当今数字化时代，网络安全已成为企业运营的核心要素。面对层出不穷的网络威胁，安全领袖们需要制定一套高效且灵活的防御策略，如同美式足球（橄榄球）比赛中的战术布局一样，既要快速突击，又…

王浩然
2025年2月23日
000
AI前沿

研究人员质疑人工智能的“推理”能力，因为模型在解决数学问题时出现了微小的变化

机器学习模型是如何做到的？它们真的像我们一样“思考”或“推理”吗？这既是一个哲学问题，也是一个实践问题，但周五发表的一篇新论文表明，答案至少就目前而言，是一个相当明确的“不”。苹…

王浩然
2024年10月12日
000
AI前沿

CyberHavens的AI数据血统工具：助力安全团队事件响应速度提升80%

一、引言：网络安全的新纪元在当今数字化时代，网络攻击事件频发，给企业和个人带来了前所未有的安全挑战。为了应对这些威胁，安全团队需要高效、精准的工具来监测、分析和响应安全事件。Cy…

王浩然
2025年3月28日
000
AI前沿

OpenAI 的红队创新为 AI 时代的安全领导者定义了新的要素

OpenAI 在红队演练方面采取了比其 AI 竞争对手更积极的态度，展示了其安全团队在两个领域的先进能力：多步强化和外部红队演练。OpenAI 最近发布了两篇论文，为在这两种技术及…

王浩然
2025年1月7日
000
AI前沿

Flower Labs发布创新服务：自动切换本地与云端AI

引言‌ 在科技日新月异的今天，人工智能（AI）正逐步渗透到我们生活的方方面面，从智能家居到自动驾驶，从医疗诊断到金融分析，AI正以其独特的优势引领着新一轮的科技革命。近日，Flow…

王浩然
2025年3月13日
000
AI前沿

人工智能行业研究：创纪录的增长背后隐藏着严峻挑战

由英国科学、创新和技术部(DSIT) 与Perspective Economics、Ipsos和glass.ai合作开展的一项全面的人工智能行业研究详细概述了该行业的现状及其未来前…

点点
2024年10月26日
000
AI前沿

Midjourney 推出 AI 图像编辑器：如何使用它

Midjourney是一家热门的 AI 图像生成初创公司，由前 Magic Leap 工程师 David Holz 创立并运营，昨晚它发布的一项新功能让用户惊叹不已：AI 图像编辑…

王浩然
2024年10月27日
000
AI前沿

Meta 将你自 2007 年以来发布的几乎所有内容都输入到人工智能中

Meta 承认，自 2007 年以来，Facebook 和 Instagram 成年用户公开发布的所有文本和照片均已被输入其人工智能模型。澳大利亚 ABC 新闻报道称，Meta 的…

王浩然
2024年9月14日
000
AI前沿

介绍“叙事指挥”，这一有助于解释 2024 年大选的新商业论点

9 月底，天使投资人亚历克斯·罗伊（Alex Roy）——我曾在已倒闭的自动驾驶汽车初创公司 Argo AI 工作的同事——在他新成立的精品深度科技风险投资公司New Indust…

王浩然
2024年11月9日
000
AI前沿

确保人工智能前沿：保护企业系统免受人工智能驱动的威胁

到 2025 年，针对身份的武器化人工智能攻击（看不见且通常恢复成本最高）将对企业网络安全构成最大威胁。大型语言模型 (LLM) 是恶意攻击者、网络犯罪集团和民族国家攻击团队的新…

王浩然
2024年11月18日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

据报道，谷歌正在开发一种“使用计算机的代理”人工智能系统

据报道，谷歌最早可能在 12 月预览其对 Rabbit 大型动作模型概念的看法。据该媒体采访的三位直接了解该项目的人士称，该项目的代号为“Project Jarvis”，将为用户执…

王浩然
2024年10月29日
000
AI前沿

人工智能治理差距：95% 的公司尚未实施框架

强有力的治理对于减轻人工智能风险和维护负责任的系统至关重要，但大多数公司尚未实施框架。该报告由Prove AI委托Zogby Analytics进行，调查了来自美国、英国和德国大…

点点
2024年10月18日
000
AI前沿

AWS 推出内联 Q Developer AI 编码助手，与微软的 Github Copilot 竞争

亚马逊网络服务 (AWS) 正在将其Amazon Q Developer AI 助手作为附加组件提供，开发人员可以在其集成开发环境 (IDE)（例如 Visual Studio C…

王浩然
2024年11月1日
000
AI前沿

据报道，TikTok 的研究承认其对青少年产生了负面影响

据美国国家公共广播电台和肯塔基公共广播电台报道，法庭文件表明，TikTok 高管意识到该应用对青少年的潜在危害。本周早些时候， 14 名美国总检察长起诉 TikTok ，声称该应…

点点
2024年10月13日
000
AI前沿

MIPS 发布用于自动驾驶汽车的 RISC-V CPU

MIPS发布了基于 RISC-V 计算架构的 P8700 CPU，针对驾驶辅助和自动驾驶汽车应用。这家总部位于加利福尼亚州圣何塞的公司专注于开发高效且可配置的知识产权计算，并将其…

王浩然
2024年11月9日
000
AI前沿

以下是免费试用 Meta 全新 Llama 3.2 的方法

Together AI通过 Hugging Face 向开发人员免费提供Meta 强大的全新 Llama 3.2 Vision 模型，在人工智能领域引起轰动。该模型名为Llama-…

free
2024年10月2日
000
AI前沿

如何提示 OpenAI 的新 o1 模型

OpenAI的最新模型系列o1有望比以前的模型更强大、推理能力更强。使用 GPT-o1 与提示 GPT-4 甚至 GPT-4o 略有不同。由于此模型具有更多的推理能力，因此一些…

王浩然
2024年9月15日
000
AI前沿

图形数据库军备竞赛：微软及其竞争对手如何彻底改变网络安全

随着民族国家和资金雄厚的网络犯罪攻击团伙试图利用数字资产防御的巨大漏洞，多域攻击即将成为一种数字流行病。企业不得不应对企业资产、应用程序、系统、数据、身份和终端之间不断扩大且往往未…

王浩然
2024年11月23日
000