新技术使 RAG 系统能够更好地检索正确的文档

王浩然 • 2024年10月15日下午5:00 • AI前沿 • 85 views

检索增强生成 ( RAG ) 已成为将大型语言模型 (LLM) 置于外部知识中的一种流行方法。 RAG 系统通常使用嵌入模型对知识语料库中的文档进行编码，并选择与用户查询最相关的文档。

然而，标准检索方法通常无法解释上下文相关的细节，而这些细节可能会对特定于应用程序的数据集产生重大影响。在一篇新论文中，康奈尔大学的研究人员介绍了“上下文文档嵌入”，这是一种通过让嵌入模型了解文档被检索的上下文来提高嵌入模型性能的技术。

双编码器的局限性

RAG 中最常见的文档检索方法是使用“双编码器”，其中嵌入模型为每个文档创建固定表示并将其存储在向量数据库中。在推理过程中，将计算查询的嵌入并将其与存储的嵌入进行比较，以找到最相关的文档。

双编码器因其效率和可扩展性而成为 RAG 系统中文档检索的热门选择。然而，双编码器通常难以处理细微的、特定于应用程序的数据集，因为它们是在通用数据上进行训练的。事实上，当涉及到专业知识语料库时，它们在某些任务中可能不如BM25等经典统计方法。

康奈尔理工大学博士生、论文合著者约翰·（杰克）·莫里斯 (John (Jack) Morris) 告诉 VentureBeat：“我们的项目始于对 BM25 的研究，这是一种老式的文本检索算法。我们进行了一些分析，发现数据集越超出领域，BM25 的表现就越优于神经网络。”

BM25 通过计算其索引的语料库上下文中每个单词的权重来实现其灵活性。例如，如果一个单词出现在知识语料库的许多文档中，它的权重就会降低，即使它在其他上下文中是一个重要的关键词。这使得 BM25 能够适应不同数据集的具体特征。

“传统的基于神经网络的密集检索模型无法做到这一点，因为它们只是根据训练数据设置一次权重，”莫里斯说。“我们试图设计一种可以解决这个问题的方法。”

上下文文档嵌入

康奈尔大学的研究人员提出了两种互补的方法，通过在文档嵌入中添加上下文概念来提高双编码器的性能。

莫里斯说：“如果你将检索视为文档之间的‘竞争’，以查看哪个文档与给定的搜索查询最相关，我们会使用‘上下文’来告知编码器有关将参与竞争的其他文档的信息。”

第一种方法修改了嵌入模型的训练过程。研究人员使用一种在训练嵌入模型之前对相似文档进行分组的技术。然后，他们使用对比学习来训练编码器以区分每个集群内的文档。

对比学习是一种无监督技术，其中模型被训练来区分正例和反例。通过被迫区分相似的文档，模型对特定情况下很重要的细微差异变得更加敏感。

第二种方法修改了双编码器的架构。研究人员为编码器增加了一种机制，使其能够在嵌入过程中访问语料库。这使得编码器在生成嵌入时能够考虑文档的上下文。

增强架构分为两个阶段。首先，它计算文档所属集群的共享嵌入。然后，它将此共享嵌入与文档的独特特征相结合，以创建上下文化嵌入。

这种方法使模型能够捕获文档集群的一般上下文以及使其独一无二的具体细节。输出仍然是与常规双编码器相同大小的嵌入，因此不需要对检索过程进行任何更改。

上下文文档嵌入的影响

研究人员在各种基准上评估了他们的方法，发现它始终优于类似大小的标准双编码器，特别是在训练和测试数据集明显不同的域外设置中。

莫里斯说：“我们的模型应该适用于任何与训练数据有实质性差异的领域，并且可以被视为微调特定领域嵌入模型的廉价替代品。”

上下文嵌入可用于提高 RAG 系统在不同领域的性能。例如，如果您的所有文档都共享一个结构或上下文，则普通嵌入模型会通过存储这种冗余结构或信息来浪费嵌入中的空间。

“另一方面，上下文嵌入可以从周围的上下文中看出这些共享信息是无用的，并在决定在嵌入中存储什么之前将其丢弃，”莫里斯说。

研究人员发布了其上下文文档嵌入模型的小版本 ( cde-small-v1 )。它可以作为 HuggingFace 和 SentenceTransformers 等流行开源工具的替代品，为不同的应用程序创建自定义嵌入。

Morris 表示，上下文嵌入不仅限于基于文本的模型，还可以扩展到其他模式，例如文本到图像架构。还有空间可以通过更先进的聚类算法对其进行改进，并在更大规模上评估该技术的有效性。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/xin-ji-shu-shi-rag-xi-tong-neng-gou-geng-hao-di-jian-suo

Like (0)

王浩然作者

0 0

ApertureData 使用多模式数据为企业提供 10 倍速度提升

Previous 2024年10月15日

沃尔玛推出全新 Wallaby 法学硕士项目，押注多种人工智能模型

Next 2024年10月15日

AI前沿

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

在OpenAI的“12 Days of Shipmas”活动的第 10 天，该公司决定采取一些复古的方式，推出一个电话号码，供人们拨打并与 ChatGPT 交谈。美国用户可以在任…

王浩然
2024年12月20日
000
AI前沿

ChatGPT 现在可以读取 Mac 上的部分桌面应用程序

OpenAI 的 ChatGPT 开始与您计算机上的其他应用程序协同工作。周四，这家初创公司宣布，适用于 macOS 的 ChatGPT 桌面应用程序现在可以读取一些以开发人员为…

王浩然
2024年11月16日
000
AI前沿

Persado 联合创始人兼总裁 Assaf Baciu – 访谈系列

Assaf Baciu 拥有近二十年为市场领先的 SaaS 组织制定企业战略和产品方向的经验。作为Persado的联合创始人兼总裁，他推动了 Persado 不断增长的产品组合的发…

点点
2024年10月24日
000
AI前沿

CodeSignal 联合创始人兼首席执行官 Tigran Sloyan – 访谈系列

Tigran Sloyan 是 CodeSignal 的联合创始人兼首席执行官，负责推动公司的整体战略方向和成果。从麻省理工学院毕业后，他于 2015 年与他人共同创立了 Code…

点点
2024年9月4日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

黑眼豆豆将在拉斯维加斯驻地首次推出人工智能会员

Vida 将作为乐队的正式成员与其他成员一起演唱，包括二重唱

点点
2024年9月12日
000
AI前沿

Spotter 推出 AI 工具，帮助 YouTube 用户集思广益制作视频创意、缩略图等

为内容创作者提供财务解决方案的初创公司Spotter周二宣布推出其新的人工智能创意套件。该解决方案名为Spotter Studio，旨在为 YouTube 创作者提供整个创作过程的…

王浩然
2024年9月4日
000
AI前沿

冷静一下：DeepSeek-R1 很棒，但 ChatGPT 的产品优势还远未结束

就在一周前——2025 年 1 月 20 日——中国人工智能初创公司 DeepSeek 发布了一个名为 R1 的新开源人工智能模型，该模型最初可能会被误认为是自OpenAI两年多前…

王浩然
2025年1月28日
000
AI前沿

人工智能治理差距：95% 的公司尚未实施框架

强有力的治理对于减轻人工智能风险和维护负责任的系统至关重要，但大多数公司尚未实施框架。该报告由Prove AI委托Zogby Analytics进行，调查了来自美国、英国和德国大…

点点
2024年10月18日
000
AI前沿

Connectly 现已获得阿里巴巴的支持，利用人工智能向客户提供个性化短信

Stefanos Loukakos 曾担任 Meta 的商业 Messenger 部门主管，并曾短暂担任该科技巨头区块链组织的主管。几年前，他注意到在线零售商很难与潜在购物者建立…

王浩然
2024年9月13日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

为医生配备人工智能副驾驶

大多数医生从医是因为他们想帮助患者。但当今的医疗保健系统要求医生每天花费数小时处理其他工作——搜索电子健康记录 (EHR)、编写文档、编码和计费、事先授权和使用管理——通常超过他们…

王浩然
2024年10月20日
000
AI前沿

新的 NFL 投注应用程序利用人工智能来平衡比赛

随着劳动节的过去和职业橄榄球赛季的正式开始，体育分析公司 Field Vision Sports 推出了所谓的首款移动应用程序，提供基于人工智能和机器学习的 NFL 比赛预测，让投…

点点
2024年9月11日
000
AI前沿

Adobe 推出经过授权内容训练的 AI 视频生成器

Adobe发布了Firefly Video Model，这是一款全新的 AI 文本转视频生成工具，可以根据书面提示制作新颖的视频。它与OpenAI、Runway、Google和Me…

点点
2024年10月16日
000
AI前沿

移动网络运营商如何利用人工智能革新电信行业

三十多年来，移动网络运营商 (MNO) 一直将研发重点放在五个关键领域：消息传递、漫游、策略、信令和清算。鉴于这些系统处理的数据量巨大，MNO 越来越注重利用人工智能 (AI)来增…

点点
2024年10月5日
000
AI前沿

毫秒级突破：补丁自动化如何堵住攻击者的最快漏洞

在当今的数字世界中，拖延打补丁已成为导致网络崩溃和公司受损的主要原因，其危害甚至超过了零日漏洞利用或高级网络攻击。忽视补丁管理，就如同敞开了网络的大门，让攻击者轻易得逞。无论是数据…

王浩然
2025年2月23日
000
AI前沿

Meta下一代LLAMA模型或将升级语音功能‌

近日，科技巨头Meta在人工智能领域再传新动向。据悉，Meta正在研发的下一代LLAMA（Large Language Model Family of AI Algorithms）…

王浩然
2025年3月9日
000
AI前沿

Automattic 为员工提供了另一次辞职机会——这次的遣散费为 9 个月

Automattic 首席执行官马特·穆伦维格 (Matt Mullenweg) 向有意离职的员工提供为期六个月的遣散费，几天后， 159 人接受了这一提议。10 月 16 日晚，…

王浩然
2024年10月24日
000
AI前沿

亚马逊携手AI机器人，开启仓库自动化新纪元

亚马逊与机器人软件公司Covariant签署了一项新的商业协议，包括聘用该公司的员工，以加速其仓库的自动化进程。通过新协议，亚马逊将获得 Covariant 机器人基础模型的非…

点点
2024年9月7日
000
AI前沿

Meta 放弃事实核查内容：这对企业意味着什么

Facebook 创始人兼 Meta 首席执行官马克·“扎克”·扎克伯格今天再次震惊了世界，他宣布将彻底改变该公司在美国审核和处理用户生成帖子和内容的方式扎克伯格于今天早上（1 …

王浩然
2025年1月8日
000