超越 RAG：缓存增强生成如何降低较小工作负载的延迟和复杂性

王浩然 • 2025年1月18日下午5:00 • AI前沿 • 67 views

检索增强生成 (RAG) 已成为定制大型语言模型 (LLM) 以处理定制信息的实际方法。然而，RAG 需要前期技术成本，而且速度可能很慢。现在，得益于长上下文 LLM 的进步，企业可以通过在提示中插入所有专有信息来绕过 RAG。

台湾国立政治大学的一项新研究表明，通过使用长上下文 LLM 和缓存技术，您可以创建性能优于 RAG 管道的定制应用程序。这种方法称为缓存增强生成 (CAG)，在企业环境中，它可以简单而有效地替代 RAG，因为知识语料库可以容纳在模型的上下文窗口中。

RAG 的局限性

RAG 是处理开放域问题和专业任务的有效方法。它使用检索算法来收集与请求相关的文档，并添加上下文，使 LLM 能够制定更准确的响应。

然而，RAG 为 LLM 应用程序引入了一些限制。增加的检索步骤会带来延迟，从而降低用户体验。结果还取决于文档选择和排名步骤的质量。在许多情况下，用于检索的模型的局限性要求将文档分解成更小的块，这可能会损害检索过程。

总体而言，RAG 增加了 LLM 应用程序的复杂性，需要开发、集成和维护额外的组件。增加的开销会减慢开发进程。

缓存增强检索

开发 RAG 管道的替代方法是将整个文档语料库插入提示中，并让模型选择与请求相关的位。这种方法消除了 RAG 管道的复杂性以及检索错误引起的问题。

然而，将所有文档预先加载到提示中存在三个关键挑战。首先，较长的提示会减慢模型速度并增加推理成本。其次，LLM 上下文窗口的长度限制了提示中可容纳的文档数量。最后，在提示中添加不相关的信息会使模型感到困惑并降低其答案的质量。因此，将所有文档塞入提示而不是选择最相关的文档最终可能会损害模型的性能。

提出的 CAG 方法利用三个关键趋势来克服这些挑战。

首先，高级缓存技术使处理提示模板变得更快、更便宜。CAG 的前提是知识文档将包含在发送给模型的每个提示中。因此，您可以提前计算其标记的注意力值，而不是在接收请求时这样做。这种前期计算减少了处理用户请求所需的时间。

OpenAI、Anthropic 和 Google 等领先的 LLM 提供商为提示的重复部分提供提示缓存功能，这些部分包括您在提示开头插入的知识文档和说明。借助 Anthropic，您可以将提示缓存部分的成本降低高达 90%，并将延迟降低 85%。已经为开源 LLM 托管平台开发了等效的缓存功能。

其次，长上下文 LLM使提示中更容易包含更多文档和知识。Claude 3.5 Sonnet 支持最多 200,000 个标记，而 GPT-4o 支持 128,000 个标记，Gemini 支持最多 200 万个标记。这使得在提示中包含多个文档或整本书成为可能。

最后，先进的训练方法使模型能够更好地对非常长的序列进行检索、推理和问答。在过去的一年里，研究人员为长序列任务开发了几个 LLM 基准，包括BABILong、LongICLBench和RULER。这些基准测试了 LLM 在多重检索和多跳问答等难题上的表现。这一领域仍有改进空间，但人工智能实验室正在继续取得进展。

随着新一代模型不断扩大其上下文窗口，它们将能够处理更大的知识集合。此外，我们可以预期模型将继续提高从长上下文中提取和使用相关信息的能力。

研究人员写道：“这两种趋势将大大扩展我们方法的可用性，使其能够处理更复杂、更多样化的应用。因此，我们的方法完全有能力成为知识密集型任务的强大而多功能的解决方案，并利用下一代 LLM 不断增长的功能。”

RAG 与 CAG

为了比较 RAG 和 CAG，研究人员在两个被广泛认可的问答基准上进行了实验：SQuAD（专注于基于单个文档的上下文感知问答）和HotPotQA（需要跨多个文档进行多跳推理）。

他们使用了Llama-3.1-8B模型，该模型具有 128,000 个 token 上下文窗口。对于 RAG，他们将 LLM 与两个检索系统相结合，以获得与问题相关的段落：基本BM25 算法和OpenAI 嵌入。对于 CAG，他们将基准中的多个文档插入到提示中，并让模型本身确定使用哪些段落来回答问题。他们的实验表明，在大多数情况下，CAG 的表现都优于两个 RAG 系统。

研究人员写道：“通过预先加载测试集中的整个上下文，我们的系统消除了检索错误并确保对所有相关信息进行整体推理。”“这种优势在 RAG 系统可能检索不完整或不相关的段落导致答案生成不理想的场景中尤为明显。”

CAG 还显著减少了生成答案的时间，特别是当参考文本长度增加时。

尽管如此，CAG 并非灵丹妙药，应谨慎使用。它非常适合知识库不经常变化且足够小以适合模型上下文窗口的设置。企业还应注意其文档包含基于文档上下文的相互矛盾的事实的情况，这可能会在推理过程中混淆模型。

确定 CAG 是否适合您的用例的最佳方法是进行一些实验。幸运的是，CAG 的实施非常简单，在投资更需要开发密集型的 RAG 解决方案之前，应始终将其视为第一步。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chao-yue-rag-huan-cun-zeng-qiang-sheng-cheng-ru-he-jiang-di

Like (0)

王浩然作者

0 0

利用量子算法实现更高效的人工智能

Previous 2025年1月18日

Runway 的全新 AI 图像生成器 Frames 现已推出，其画面效果非常具有电影感

Next 2025年1月18日

AI前沿

OpenAI 的 DevDay 为 AI 应用开发者带来实时 API 和其他福利

对于 OpenAI 来说，这是动荡的一周，高管离职和重大融资进展频频，但这家初创公司又回到了正轨，试图说服开发人员在 2024 年 DevDay 上利用其 AI 模型构建工具。该公…

王浩然
2024年10月2日
000
AI前沿

介绍“叙事指挥”，这一有助于解释 2024 年大选的新商业论点

9 月底，天使投资人亚历克斯·罗伊（Alex Roy）——我曾在已倒闭的自动驾驶汽车初创公司 Argo AI 工作的同事——在他新成立的精品深度科技风险投资公司New Indust…

王浩然
2024年11月9日
000
AI前沿

Meta 让企业能够创建嵌入广告的聊天机器人

在周三于门洛帕克举行的Meta Connect 2024 开发者大会上，Meta 宣布将利用点击消息广告将其人工智能商业聊天机器人扩展到 WhatsApp 和 Messenger …

王浩然
2024年9月29日
000
AI前沿

人工智能编排：创造和谐还是创造依赖？

随着人工智能工具越来越多地融入我们的日常生活，我们面临一个关键问题：我们是在利用它们的力量来增强我们的能力，还是在慢慢地外包我们的思想——或者两者兼而有之？作为 DALL-E、C…

王浩然
2024年9月9日
000
AI前沿

针对人工智能模型的对抗性攻击日益增多：您现在应该怎么做？

随着越来越多的企业承认经历过与人工智能相关的安全事件，对机器学习 (ML) 模型的对抗性攻击的强度、频率和复杂程度正在不断提高。人工智能的广泛应用导致威胁面迅速扩大，所有企业都难…

王浩然
2024年9月22日
000
AI前沿

人类新视野：Anthropic科学家揭示AI的“思考”方式，发现其秘密规划并偶尔说谎‌

在人工智能领域，科学家们一直致力于探索和理解大型语言模型（LLMs）如何处理信息并做出决策。近日，Anthropic公司的一项新研究为我们揭示了这些AI系统内部工作的惊人细节，发现…

王浩然
2025年3月31日
000
AI前沿

好戏还没完：2024 年人工智能投资将大幅增加

2024 年第三季度，全球人工智能交易量达到 1,245 笔，达到 2022 年第一季度以来的最高水平，反映出投资者对投资人工智能的信心和韧性。全球人工智能交易同比增长 24%，…

王浩然
2024年11月3日
000
AI前沿

谷歌的 NotebookLM 现在可让你指导 AI 播客的主持人

Google 的 NotebookLM 现在允许您自定义其类似播客的音频概览。在使用笔记应用发起讨论之前，您可以向 AI 主持人发出指示，告诉他们您希望他们关注什么主题，甚至可以针…

王浩然
2024年10月20日
000
AI前沿

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI o1，包括无所不能的大…

点点
2024年9月13日
000
AI前沿

Nvidia 对 AI 芯片的霸主地位可能会因此而减弱

在过去几年的人工智能淘金热中，Nvidia 一直主导着“铲子”市场（即训练模型所需的芯片）。但许多领先的人工智能开发商的策略转变为竞争对手提供了机会。 Nvidia 老板黄仁勋呼吁…

王浩然
2025年1月6日
000
AI前沿

剪纸原理推动微型机器人设计的突破

近年来，微型机器人领域取得了长足进步，突破了微型机器人的极限。这些进步为从医疗应用到环境监测等领域的潜在突破铺平了道路。在这一创新领域，康奈尔大学的研究人员做出了值得注意的贡献，开…

点点
2024年9月23日
000
AI前沿

Encord CEO Eric Landau访谈：AI如何颠覆行业？

Eric Landau 是Encord的首席执行官兼联合创始人，Encord 是一个计算机视觉主动学习平台。Eric 曾是全球股票 delta-one 部门的首席量化研究员，将数千…

点点
2024年9月11日
000
AI前沿

克服人工智能基础设施部署障碍的 5 种方法

如今，企业面临着利用人工智能作为竞争优势的巨大压力，但我们仍处于早期阶段。只有约40% 的大型企业在其业务中积极部署人工智能，但障碍使另外 40% 的企业处于探索和实验阶段。尽管人…

王浩然
2024年11月1日
000
AI前沿

斯坦福人工智能指数：重塑企业技术战略的五大关键洞察

在当今快速发展的科技领域，人工智能（AI）已成为推动各行业变革的重要力量。斯坦福大学发布的人工智能指数报告，不仅为我们揭示了AI技术的最新进展，还深入剖析了这些进展如何重塑企业的技…

王浩然
14小时前
000
AI前沿

Google Imagen 3 与竞争对手：文本转图像模型的新基准

人工智能 (AI)正在改变我们创建视觉效果的方式。文本转图像模型让我们能够非常轻松地从简单的文本描述生成高质量的图像。广告、娱乐、艺术和设计等行业已经采用这些模型来探索新的创意可能…

点点
2024年10月16日
000
AI前沿

Vision Pro将在4月融入苹果智能技术

自2021年11月1日起，Yahoo服务在中国大陆地区已无法访问，但这并不妨碍我们关注全球科技领域的最新动态。近日，有消息称，苹果公司的Vision Pro将在4月迎来一次重大更新…

王浩然
2025年2月25日
000
AI前沿

据消息人士称，Grok 的图像生成器 Black Forest Labs 正在以 10 亿美元的估值融资 1 亿美元

尽管 OpenAI 正在寻求另一轮巨额融资，但它并没有抢走所有风口：构建有前景的基础模型的 AI 初创公司仍然可以打开大门和支票簿。多位消息人士告诉我们，Black Forest …

王浩然
2024年9月21日
000
AI前沿

OpenAI Stargate 是一笔 5000 亿美元的赌注：美国的人工智能曼哈顿计划还是代价高昂的死胡同？

本周，特朗普总统重返白宫开始第二任期，白宫发布了一系列行政命令，如果你错过了，昨天下午刚刚宣布了对人工智能基础设施的最大一笔投资。该项目被称为“星际之门项目”，由 OpenAI、软…

王浩然
2025年1月23日
000
AI前沿

Aarki 首席执行官 Aman Sareen – 访谈系列

Aman Sareen 是Aarki的首席执行官，Aarki 是一家 AI 公司，提供广告解决方案，推动移动应用开发者的收入增长。Aarki 通过使用数十亿个情境竞价信号以及专有的…

点点
2024年9月5日
000
AI前沿

开始使用 AI 代理（第 1 部分）：捕获流程、角色和连接

现代的 AI 代理至少包含一个能够调用某些工具的大型语言模型(LLM)。有了合适的编码工具集，它就可以开始生成代码，能够在容器中运行代码，观察结果，修改代码，从而更有可能生成有用的…

王浩然
2024年11月27日
000

发表回复

Please Login to Comment

超越 RAG：缓存增强生成如何降低较小工作负载的延迟和复杂性

RAG 的局限性

缓存增强检索

RAG 与 CAG

相关推荐

发表回复

Share To :