
检索增强生成 (RAG) 已成为定制大型语言模型 (LLM) 以处理定制信息的实际方法。然而,RAG 需要前期技术成本,而且速度可能很慢。现在,得益于长上下文 LLM 的进步,企业可以通过在提示中插入所有专有信息来绕过 RAG。
台湾国立政治大学的一项新研究表明,通过使用长上下文 LLM 和缓存技术,您可以创建性能优于 RAG 管道的定制应用程序。这种方法称为缓存增强生成 (CAG),在企业环境中,它可以简单而有效地替代 RAG,因为知识语料库可以容纳在模型的上下文窗口中。
RAG 的局限性
RAG 是处理开放域问题和专业任务的有效方法。它使用检索算法来收集与请求相关的文档,并添加上下文,使 LLM 能够制定更准确的响应。
然而,RAG 为 LLM 应用程序引入了一些限制。增加的检索步骤会带来延迟,从而降低用户体验。结果还取决于文档选择和排名步骤的质量。在许多情况下,用于检索的模型的局限性要求将文档分解成更小的块,这可能会损害检索过程。
总体而言,RAG 增加了 LLM 应用程序的复杂性,需要开发、集成和维护额外的组件。增加的开销会减慢开发进程。
缓存增强检索

开发 RAG 管道的替代方法是将整个文档语料库插入提示中,并让模型选择与请求相关的位。这种方法消除了 RAG 管道的复杂性以及检索错误引起的问题。
然而,将所有文档预先加载到提示中存在三个关键挑战。首先,较长的提示会减慢模型速度并增加推理成本。其次,LLM 上下文窗口的长度限制了提示中可容纳的文档数量。最后,在提示中添加不相关的信息会使模型感到困惑并降低其答案的质量。因此,将所有文档塞入提示而不是选择最相关的文档最终可能会损害模型的性能。
提出的 CAG 方法利用三个关键趋势来克服这些挑战。
首先,高级缓存技术使处理提示模板变得更快、更便宜。CAG 的前提是知识文档将包含在发送给模型的每个提示中。因此,您可以提前计算其标记的注意力值,而不是在接收请求时这样做。这种前期计算减少了处理用户请求所需的时间。
OpenAI、Anthropic 和 Google 等领先的 LLM 提供商为提示的重复部分提供提示缓存功能,这些部分包括您在提示开头插入的知识文档和说明。借助 Anthropic,您可以将提示缓存部分的成本降低高达 90%,并将延迟降低 85%。已经为开源 LLM 托管平台开发了等效的缓存功能。
其次,长上下文 LLM使提示中更容易包含更多文档和知识。Claude 3.5 Sonnet 支持最多 200,000 个标记,而 GPT-4o 支持 128,000 个标记,Gemini 支持最多 200 万个标记。这使得在提示中包含多个文档或整本书成为可能。
最后,先进的训练方法使模型能够更好地对非常长的序列进行检索、推理和问答。在过去的一年里,研究人员为长序列任务开发了几个 LLM 基准,包括BABILong、LongICLBench和RULER。这些基准测试了 LLM 在多重检索和多跳问答等难题上的表现。这一领域仍有改进空间,但人工智能实验室正在继续取得进展。
随着新一代模型不断扩大其上下文窗口,它们将能够处理更大的知识集合。此外,我们可以预期模型将继续提高从长上下文中提取和使用相关信息的能力。
研究人员写道:“这两种趋势将大大扩展我们方法的可用性,使其能够处理更复杂、更多样化的应用。因此,我们的方法完全有能力成为知识密集型任务的强大而多功能的解决方案,并利用下一代 LLM 不断增长的功能。”
RAG 与 CAG
为了比较 RAG 和 CAG,研究人员在两个被广泛认可的问答基准上进行了实验:SQuAD(专注于基于单个文档的上下文感知问答)和HotPotQA(需要跨多个文档进行多跳推理)。
广告
他们使用了Llama-3.1-8B模型,该模型具有 128,000 个 token 上下文窗口。对于 RAG,他们将 LLM 与两个检索系统相结合,以获得与问题相关的段落:基本BM25 算法和OpenAI 嵌入。对于 CAG,他们将基准中的多个文档插入到提示中,并让模型本身确定使用哪些段落来回答问题。他们的实验表明,在大多数情况下,CAG 的表现都优于两个 RAG 系统。

研究人员写道:“通过预先加载测试集中的整个上下文,我们的系统消除了检索错误并确保对所有相关信息进行整体推理。”“这种优势在 RAG 系统可能检索不完整或不相关的段落导致答案生成不理想的场景中尤为明显。”
CAG 还显著减少了生成答案的时间,特别是当参考文本长度增加时。

尽管如此,CAG 并非灵丹妙药,应谨慎使用。它非常适合知识库不经常变化且足够小以适合模型上下文窗口的设置。企业还应注意其文档包含基于文档上下文的相互矛盾的事实的情况,这可能会在推理过程中混淆模型。
确定 CAG 是否适合您的用例的最佳方法是进行一些实验。幸运的是,CAG 的实施非常简单,在投资更需要开发密集型的 RAG 解决方案之前,应始终将其视为第一步。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chao-yue-rag-huan-cun-zeng-qiang-sheng-cheng-ru-he-jiang-di