超越RAG:SEARCH-R1将搜索引擎直接融入推理模型

超越RAG:SEARCH-R1将搜索引擎直接融入推理模型

在人工智能(AI)领域,大型语言模型(LLM)的推理能力取得了显著进步。然而,这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题在LLM被用于需要实时数据的动态、信息密集型场景中时尤为突出。为了解决这一难题,SEARCH-R1应运而生。这项技术由伊利诺伊大学厄巴纳-香槟分校和马萨诸塞大学阿默斯特分校的研究人员提出,它训练LLM生成搜索查询,并将搜索引擎检索结果无缝融入推理过程中。

搜索引擎与LLM集成的挑战

搜索引擎对于为LLM应用提供最新外部知识至关重要。将搜索引擎与LLM集成的主要方法有两种:检索增强生成(RAG)和工具使用,后者通过提示工程或模型微调来实现。然而,这两种方法都存在局限性,使其不适合推理模型

RAG经常面临检索不准确的问题,且缺乏执行多轮、多查询检索的能力,这对于推理任务至关重要。基于提示的工具使用方法在泛化方面经常遇到困难,而基于训练的方法则需要大量经过注释的搜索和推理交互数据集,这些数据集很难大规模生成。

SEARCH-R1简介

SEARCH-R1使LLM能够在推理过程中与搜索引擎进行交互,而不是将其作为单独的检索阶段。它将搜索引擎定义为LLM环境的一部分,使模型能够将其令牌生成与搜索引擎结果无缝结合。研究人员设计了SEARCH-R1以支持迭代推理和搜索。模型被训练为生成用于思考、搜索、信息和回答段落的单独令牌集。

在推理过程中(由<think></think>标记),如果模型确定需要外部信息,它会生成一个包含搜索查询的<search></search>序列。该查询被传递给搜索引擎,结果被插入到上下文窗口中<information></information>部分。模型然后继续结合新增的上下文进行推理,并在准备就绪时,在<answer></answer>部分中生成结果。这种结构允许模型在推理过程中根据需要多次调用搜索引擎并获得新信息。

SEARCH-R1的训练

训练LLM在推理链中穿插搜索查询具有挑战性。为了简化这一过程,研究人员设计了SEARCH-R1,使其通过纯强化学习(RL)来训练模型,模型自主探索推理和搜索工具的使用,而无需人类生成数据的指导。SEARCH-R1采用“基于结果的奖励模型”,其中模型仅根据最终响应的正确性进行评估。这消除了创建验证模型推理过程的复杂奖励模型的需求。

SEARCH-R1的表现

研究人员通过微调Qwen-2.5和Llama-3.2的基础版本和指令版本,并在涵盖多种需要单轮和多跳搜索的推理任务的七个基准上对其进行评估,从而测试了SEARCH-R1。他们将SEARCH-R1与不同的基线进行了比较:直接使用链式思考(Chain-of-Thought)推理进行推断、使用RAG进行推断以及用于工具使用的监督微调。SEARCH-R1始终明显优于基线方法。它还优于接受过RL训练但未进行搜索检索的推理模型。

SEARCH-R1对不同模型家族以及基础版本和指令调整版本均有效,这表明基于结果的RL奖励可能适用于纯推理场景之外的情况。研究人员已将SEARCH-R1的代码发布在GitHub上。

SEARCH-R1能够自主生成搜索查询并将实时信息融入推理,这对企业应用具有重要影响。它可以提高LLM驱动系统在客户服务知识管理数据分析等领域的准确性和可靠性。通过使LLM能够动态适应不断变化的信息,SEARCH-R1可帮助企业构建更智能、响应更迅速的AI解决方案。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chao-yue-rag-searchr1-jiang-sou-suo-yin-qing-zhi-jie-rong

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年3月22日
Next 2025年3月22日

相关推荐

发表回复

Please Login to Comment