超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

王浩然 • 2025年3月22日上午11:00 • AI前沿 • 72 views

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题在LLM被用于需要实时数据的动态、信息密集型场景中时尤为突出。为了解决这一难题，SEARCH-R1应运而生。这项技术由伊利诺伊大学厄巴纳-香槟分校和马萨诸塞大学阿默斯特分校的研究人员提出，它训练LLM生成搜索查询，并将搜索引擎检索结果无缝融入推理过程中。

搜索引擎与LLM集成的挑战

搜索引擎对于为LLM应用提供最新外部知识至关重要。将搜索引擎与LLM集成的主要方法有两种：检索增强生成（RAG）和工具使用，后者通过提示工程或模型微调来实现。然而，这两种方法都存在局限性，使其不适合推理模型。

RAG经常面临检索不准确的问题，且缺乏执行多轮、多查询检索的能力，这对于推理任务至关重要。基于提示的工具使用方法在泛化方面经常遇到困难，而基于训练的方法则需要大量经过注释的搜索和推理交互数据集，这些数据集很难大规模生成。

SEARCH-R1简介

SEARCH-R1使LLM能够在推理过程中与搜索引擎进行交互，而不是将其作为单独的检索阶段。它将搜索引擎定义为LLM环境的一部分，使模型能够将其令牌生成与搜索引擎结果无缝结合。研究人员设计了SEARCH-R1以支持迭代推理和搜索。模型被训练为生成用于思考、搜索、信息和回答段落的单独令牌集。

在推理过程中（由<think></think>标记），如果模型确定需要外部信息，它会生成一个包含搜索查询的<search></search>序列。该查询被传递给搜索引擎，结果被插入到上下文窗口中<information></information>部分。模型然后继续结合新增的上下文进行推理，并在准备就绪时，在<answer></answer>部分中生成结果。这种结构允许模型在推理过程中根据需要多次调用搜索引擎并获得新信息。

SEARCH-R1的训练

训练LLM在推理链中穿插搜索查询具有挑战性。为了简化这一过程，研究人员设计了SEARCH-R1，使其通过纯强化学习（RL）来训练模型，模型自主探索推理和搜索工具的使用，而无需人类生成数据的指导。SEARCH-R1采用“基于结果的奖励模型”，其中模型仅根据最终响应的正确性进行评估。这消除了创建验证模型推理过程的复杂奖励模型的需求。

SEARCH-R1的表现

研究人员通过微调Qwen-2.5和Llama-3.2的基础版本和指令版本，并在涵盖多种需要单轮和多跳搜索的推理任务的七个基准上对其进行评估，从而测试了SEARCH-R1。他们将SEARCH-R1与不同的基线进行了比较：直接使用链式思考（Chain-of-Thought）推理进行推断、使用RAG进行推断以及用于工具使用的监督微调。SEARCH-R1始终明显优于基线方法。它还优于接受过RL训练但未进行搜索检索的推理模型。

SEARCH-R1对不同模型家族以及基础版本和指令调整版本均有效，这表明基于结果的RL奖励可能适用于纯推理场景之外的情况。研究人员已将SEARCH-R1的代码发布在GitHub上。

SEARCH-R1能够自主生成搜索查询并将实时信息融入推理，这对企业应用具有重要影响。它可以提高LLM驱动系统在客户服务、知识管理和数据分析等领域的准确性和可靠性。通过使LLM能够动态适应不断变化的信息，SEARCH-R1可帮助企业构建更智能、响应更迅速的AI解决方案。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chao-yue-rag-searchr1-jiang-sou-suo-yin-qing-zhi-jie-rong

GitHub SEARCH-R1 企业应用基于结果的奖励模型大型语言模型客户服务工具使用强化学习推理模型搜索引擎集成数据分析检索增强生成知识管理链式思考

Like (0)

王浩然作者

0 0

NVIDIA推出Llama Nemotron开放推理模型，加速自主AI发展

Previous 2025年3月22日

Adobe发布“项目幻灯片惊叹”（Project Slide Wow）：从原始客户数据自动生成PowerPoint演示文稿

Next 2025年3月22日

AI前沿

禁止勒索软件支付是打击网络犯罪的关键吗？

勒索软件是一种威胁全球组织的无情威胁。犯罪分子精心计算他们的要求，以最大限度地提高付款的可能性，目标是那些最不能承受长期中断的组织。英国政府的新提案可能会大大减少针对其公共服务的威…

王浩然
2025年1月29日
000
AI前沿

欧洲版OpenAI，法国独角兽推多模态大模型Pixtral 12B，源代码已开放下载

智东西9月12日消息，据VentureBeat报道，法国大模型独角兽Mistral AI昨日正式发布Pixtral 12B，这是该公司首个能够同时处理文本和图像的多模态大模型。 P…

点点
2024年9月13日
000
AI前沿

Alexa新技能：阅读、总结与回顾长篇文档‌

亚马逊的智能助手Alexa近日解锁了一项全新技能——能够阅读、总结并回顾长篇文档。这一功能为处理大量文字信息的用户提供了极大的便利。 ‌一、阅读功能‌ Alexa现在能够流畅地阅读…

王浩然
2025年2月28日
000
AI前沿

将人工智能带入实践：LinkedIn 结合 LLM、LangChain 和 Jupyter Notebooks 来提高快速工程水平

对于企业来说，找出正确的提示以从生成式 AI 模型中获得最佳结果并不总是一件容易的事。在某些组织中，这已经落到了新出现的提示工程师的职位上，但LinkedIn的情况并非如此。该专…

王浩然
2025年2月14日
000
AI前沿

在 OpenAI 推出 ChatGPT Search 几个小时前，谷歌刚刚授予其 AI 搜索访问权限

谷歌周四为其 Gemini AI 平台推出了实时搜索功能，使其语言模型能够访问来自谷歌搜索的当前信息。这项名为“ Grounding with Google Search ”的新功…

王浩然
2024年11月3日
000
AI前沿

三星哈曼的人工智能将使汽车更具同情心

如果您认为车道上的汽车只是一个从 A 点到 B 点的设备，那么您就错了，因为三星子公司哈曼已经在 CES 上展示了新技术，声称这项技术将把汽车变成一个有同情心的伴侣。该公司总部位…

王浩然
2025年1月9日
000
AI前沿

Squirrel AI Agent 旨在拯救濒临灭绝的物种

为了保护英国日益减少的红松鼠数量，环保人士已经采用一种新的人工智能工具来识别、追踪和治疗松鼠。自 19 世纪 70 年代引入灰松鼠以来，红松鼠数量急剧下降，从 350 万只减少到…

王浩然
2024年12月2日
000
AI前沿

中国买家无视美国出口管制，仍在采购NVIDIA Blackwell芯片‌

尽管面临美国严格的出口管制措施，但市场消息显示，中国买家仍在设法获取NVIDIA的Blackwell芯片。这一动态引发了业界对国际贸易环境及高科技产品流通管制的深入讨论。 NVID…

王浩然
2025年3月4日
000
AI前沿

人工智能如何增强人类在销售和营销方面的潜力

人工智能 (AI) 正在彻底改变各行各业专业人士的营销和销售方式。通过采用 AI，该领域的专业人士可以提高效率、提高成果并做出更快、更明智的决策。销售和营销的 AI 演变不仅意味着…

点点
2024年10月9日
000
AI前沿

为何更智能的ERP数据是AI驱动增长的关键

在当今这个技术日新月异的时代，企业面临着前所未有的挑战与机遇。一方面，互联网、智能手机和移动应用的普及极大地推动了商业创新；另一方面，业务生产力的增长却似乎陷入了停滞。据麦肯锡的数…

王浩然
2025年3月20日
000
AI前沿

BBC 正在使用 AI 生成字幕

广受欢迎的BBC Sounds音频平台正在通过其网站和应用试用新的 AI 生成字幕，这些字幕可以与节目和完整文本一起播放。为期三个月的试用目前仅限于少数几档节目 – I…

王浩然
2024年9月2日
000
AI前沿

解析 Grok 3：可能重新定义行业的 AI 模型

自推出以来不到两年，xAI 已经推出了迄今为止可以说是最先进的 AI 模型。Grok 3 在所有关键基准以及用户评估的Chatbot Arena上都匹敌或超越了最先进的模型，而且它…

王浩然
2025年2月20日
000
AI前沿

LinkedIn 在更新服务条款前曾抓取用户数据用于培训

LinkedIn 可能已经在没有更新其条款的情况下利用用户数据训练了 AI 模型。 LinkedIn 的美国用户（欧盟、欧洲经济区或瑞士除外，这可能是由于这些地区的数据隐私规则）在…

王浩然
2024年9月19日
000
AI前沿

人工智能助手旨在改变最后一英里的配送

物流公司 NuVizz 表示，该技术可帮助调度员选择优化路线的理想算法总部位于亚特兰大的最后一英里物流专家 NuVizz 在其最新的软件更新中推出了一款名为 Vizzard 的新…

王浩然
2025年2月21日
000
AI前沿

Mistral 推出 Pixtral Large，并将 Le Chat 升级为 ChatGPT 的全面竞争对手

法国初创公司Mistral去年凭借创纪录的欧洲种子资金融资额引起轰动，今天该公司发布了一系列更新，包括一个名为 Pixtral Large 的全新大型基础模型。该公司正在进一步升…

王浩然
2024年11月20日
000
AI前沿

中国人工智能公司 MiniMax 发布新模型，声称可与业内最佳模型相媲美

中国公司不断发布可与 OpenAI 和其他美国人工智能公司开发的系统相媲美的人工智能模型。本周，由阿里巴巴和腾讯支持的初创公司MiniMax推出了三款新模型：MiniMax-Te…

王浩然
2025年1月16日
000
AI前沿

海外客户突破一万家，国际业务成腾讯云新增长点

9月5日至6日，2024腾讯全球数字生态大会在深圳国际会展中心举办。会上，腾讯云公布企业出海全景图，并发布国际业务阶段成绩单：腾讯云海外客户累计突破1万家，全球合作伙伴超过1.1万…

点点
2024年9月7日
000
AI前沿

Microsoft Copilot推出macOS应用程序‌

科技巨头微软近日宣布，其智能助手Microsoft Copilot现已正式推出macOS版本，为Mac用户带来全新的智能工作体验。 ‌一、产品亮点‌ Microsoft Copil…

王浩然
2025年3月2日
000
AI前沿

AWS 关闭了用于 AI 音乐的 MIDI 键盘 DeepComposer

AWS 奇怪的人工智能键盘实验DeepComposer不复存在。该公司在今天的一篇博客文章中宣布关闭已有 5 年历史的 DeepComposer，这是一款物理 MIDI 钢琴和 …

王浩然
2024年9月19日
000
AI前沿

YC 初创公司 Pharos 获得 Felicis 领投的 500 万美元种子轮融资，旨在将 AI 引入医院质量报告

医务人员和行政人员每天都要填写大量文书工作，工作压力越来越大。数十家甚至数百家初创公司看到了利用生成式人工智能减轻这些官僚程序负担的机会。这些公司正在开发人工智能医疗文书、预授权…

王浩然
2024年10月26日
000