新研究发现 RAG 系统存在 16 个主要问题，包括困惑度

点点 • 2024年11月5日下午1:00 • AI前沿 • 110 views

美国最近的一项研究发现，Perplexity 和 Bing Copilot 等流行的检索增强生成(RAG) 研究系统的实际表现远远达不到过去 12 个月中占据头条新闻的营销炒作和大众采用程度。

该项目广泛征询了 21 位专家的意见，发现所研究的 RAG 系统（You Chat、Bing Copilot 和 Perplexity）在至少 16 个领域引起了人们的担忧：

1：生成的答案缺乏客观细节，只有通用的概括和缺乏背景深度或细微差别。

2.强化感知的用户偏见，RAG 引擎经常无法呈现一系列观点，而是根据用户提出问题的方式来推断和强化用户偏见。

3.过于自信的语言，特别是在无法通过经验证实的主观回答中，这会导致用户对答案的信任度过高。

4：语言过于简单，缺乏批判性思维和创造力，回复只会用“简单化”和“令人接受”的信息来欺骗用户，而不是经过深思熟虑和分析。

5：错误归因和错误引用来源，答案引擎使用不支持其响应的引用来源，从而造成可信度的假象。

6：从推断的上下文中挑选信息，其中 RAG 代理似乎正在寻找支持其生成的争论和对用户想要听到的内容的估计的答案，而不是基于对可靠来源的客观分析来给出答案（可能表明系统的“烘焙”LLM 数据与其在响应查询时从互联网上动态获取的数据之间存在冲突）。

7：在缺乏回应的源材料的情况下，省略支持陈述的引文。

8：没有提供响应的逻辑模式，用户无法质疑为什么系统优先考虑某些来源而不是其他来源。

9：来源数量有限，大多数 RAG 系统通常为一个声明提供大约三个支持来源，即使在可以适用更多样化的来源的情况下。

10：孤立来源，其中系统的全部或部分支持引文的数据实际上并未包含在答案中。

11：使用不可靠的来源，系统似乎更喜欢流行的来源（即，在 SEO 术语中）而不是事实上正确的来源。

12：冗余来源，系统显示多个引文，但源论文的内容基本相同。

13：未过滤的来源，系统不向用户提供评估或过滤所提供引文的方法，迫使用户相信选择标准。

14：缺乏互动性或可探索性，其中一些用户研究参与者感到沮丧，因为 RAG 系统没有提出澄清问题，而是从第一个查询就假设用户意图。

15：需要外部验证，用户会觉得有必要对所提供的响应进行独立验证，这在很大程度上消除了 RAG 作为“搜索替代品”所带来的便利性。

16： 使用学术引用方法，例如[1]或[34]；这是学术圈的标准做法，但对许多用户来说可能不直观。

为了开展这项工作，研究人员召集了 21 位人工智能、医疗保健和医学、应用科学和教育及社会科学领域的专家，他们都是博士后研究员或博士生。参与者与经过测试的 RAG 系统进行交互，同时大声说出他们的思维过程，以（为研究人员）澄清他们自己的理性图式。

论文广泛引用了参与者对所研究的三个系统的性能的疑虑和担忧。

然后使用浏览器控制套件将用户研究的方法系统化为 RAG 系统的自动化研究：

“对 You.com、Perplexity.ai 和 BingChat 等系统进行的大规模自动评估表明，没有一个系统在大多数指标上都达到可接受的性能，包括与处理幻觉、不受支持的陈述和引用准确性相关的关键方面。”

作者在长达 27 页的论文中详细论述了新用户和有经验的用户在使用研究的 RAG 系统时应谨慎行事。他们还根据研究中发现的缺陷提出了一套新的指标体系，这可以为未来加强技术监督奠定基础。

然而， RAG 系统在公众中的日益广泛使用也促使作者们提倡针对代理辅助 AI 搜索界面制定适当的立法和更高水平的可执行政府政策。

这项研究由宾夕法尼亚州立大学和 Salesforce 的五名研究人员共同完成，题为《人工智能时代的搜索引擎：事实和可验证来源引用响应的虚假承诺》。该研究涵盖了截至 2024 年 8 月最先进的 RAG 系统

RAG 权衡

作者在其研究成果的开头重申了大型语言模型 (LLM) 在答案引擎中使用时存在的四个已知缺点。

首先，它们容易产生幻觉信息，缺乏检测事实不一致的能力。其次，它们很难在生成的答案的背景下评估引用的准确性。第三，它们倾向于青睐来自自己预先训练的权重的数据，并可能抵制来自外部检索文档的数据，即使这些数据可能更新或更准确。

最后，RAG 系统倾向于取悦他人、阿谀奉承的行为，而往往以牺牲响应信息的准确性为代价。

所有这些趋势都在这项研究的两个方面得到了证实，其中还提出了许多关于 RAG 缺陷的新观察。

该论文认为，OpenAI 的SearchGPT RAG 产品（在新论文提交后于上周向订阅者发布）可能会鼓励用户采用基于 RAG 的搜索系统，尽管调查结果暗示了其存在基础缺陷*：

“OpenAI 的‘SearchGPT’的发布被宣传为‘谷歌搜索杀手’，进一步加剧了 [担忧]。随着对这些工具的依赖性不断增长，了解其影响的紧迫性也随之增加。林德曼引入了密封知识的概念，该概念批评了这些系统如何通过将搜索查询压缩为单一的权威响应来限制对不同答案的访问，从而有效地使信息脱离语境并缩小用户视角。

“这种知识的‘封存’会导致选择偏见，并限制边缘化的观点。”

研究

作者首先对 24 名选定的参与者中的 3 名测试了他们的研究程序，所有参与者都是通过 LinkedIn 或电子邮件等方式邀请的。

第一阶段，对于剩下的 21 名参与者来说，涉及专业知识信息检索，参与者在 40 分钟的时间内平均进行约六次搜索查询。此部分专注于收集和验证基于事实的问题和答案，以及潜在的经验解决方案。

第二阶段涉及辩论信息检索，它处理的是主观问题，包括生态学、素食主义和政治。

Perplexity（左）和 You Chat（右）生成的研究答案。来源：https://arxiv.org/pdf/2410.22349

由于所有系统都允许与作为生成答案支持而提供的引文进行一定程度的交互，因此鼓励研究对象尽可能多地与界面进行交互。

在两种情况下，参与者都被要求通过 RAG 系统和传统搜索引擎（在本例中为 Google）来提出他们的询问。

之所以选择这三个答案引擎（You Chat、Bing Copilot 和 Perplexity），是因为它们是公开的。

大多数参与者已经是 RAG 系统的用户，使用频率各不相同。

由于篇幅限制，我们无法对研究中发现的详尽记录的十六个主要缺陷逐一进行分析，但这里选取了一些最有趣和最具启发性的例子。

缺乏客观细节

论文指出，用户发现系统的回答经常缺乏客观细节，无论是事实回答还是主观回答。有人评论道：

“它只是试图回答，但实际上并没有给我一个确切的答案或更深思熟虑的答案，而这些我可以通过多次谷歌搜索来获得。”

另一位观察者表示：

“它太短了，只是对所有内容进行了大量的总结。[该模型]需要为我的主张提供更多数据，但它已经非常概括了。”

缺乏整体观点

作者对这种缺乏细微差别和特殊性的情况表示担忧，并指出答案引擎经常无法对任何论点提出多种观点，而倾向于从用户自己对问题的措辞中推断出明显的偏见。

一位参与者说：

“我想更多地了解争论的另一面……这一切都是值得怀疑的，因为我们不了解另一面以及证据和事实。”

另一位评论道：

“它不会向你展示双方的观点；它不会与你争论。相反，[模型] 只会告诉你，‘你是对的……原因如下。’”

自信的语言

作者观察到，所有三个测试系统都表现出过度自信的语言使用，即使是涉及主观问题的回答也是如此。他们认为，这种语气往往会激发对回答的不合理自信。

一位与会者指出：

“它写得如此自信，我甚至不用看原文就信服了。但当你看原文时，它很糟糕，这让我再次质疑它。”

另一位评论道：

“如果有人不知道正确的答案，即使答案是错误的，他们也会相信它。”

错误引用

另一个常见问题是，错误引用 RAG 系统响应的权威来源，其中一位研究对象声称：

“[这个]说法似乎不在来源中。我的意思是这个说法是真实的；它是有效的……但我不知道它从哪里得到这些信息。”

新论文的作者评论^†：

“参与者认为系统正在使用引文来使他们的答案合法化，从而产生一种可信的假象。只有少数用户在仔细检查来源后才发现这一假象。”

挑选适合查询的信息

回到 RAG 回答中讨好他人、阿谀奉承行为的概念，研究发现，许多答案都强调了某个特定的观点，而不是全面总结主题，正如一位参与者所观察到的：

“我觉得[这个系统]很具操纵性。它只需要一些信息，我感觉被操纵了，只看到事物的一面。”

另一位网友则认为：

“该来源实际上有正反两方面的观点，而它只是选择从这个链接中挑选出所需的论据，而没有考虑全貌。”

如需进一步深入的示例（以及来自调查参与者的多个关键引述），我们请读者参阅源论文。

自动化 RAG

在这项更广泛研究的第二阶段，研究人员使用基于浏览器的脚本系统地从三个研究的 RAG 引擎中征求查询。然后，他们使用 LLM 系统 (GPT-4o) 分析系统的响应。

对这些陈述进行分析，以确定查询的相关性和正反两方面的陈述（即，就查询的隐性偏见而言，回答是赞成、反对还是中立）。

在此自动化阶段，还会根据李克特量表心理测试方法评估答案信心分数。在这里，法学硕士评委得到了两名人工注释员的协助。

第三个操作涉及使用网页抓取来获取所引用网页的全文内容，通过 Jina.ai Reader 工具。然而，正如本文其他地方所指出的，大多数网页抓取工具无法访问付费网站，就像大多数人一样（尽管作者观察到 Perplexity.ai 可以绕过这一障碍）。

其他考虑因素包括答案是否引用来源（计算为“引用矩阵”），以及“事实支持矩阵”——该指标由四位人工注释者帮助验证。

因此获得了8个总体指标：片面的答案；过度自信的答案；相关的陈述；未引用的来源；不受支持的陈述；来源的必要性；引用的准确性；引用的彻底性。

测试这些指标的材料包括用户研究阶段精选的 303 个问题，最终在三个测试系统中得到了 909 个答案。

基于八个指标，对三个经过测试的 RAG 系统进行定量评估。

关于研究结果，论文指出：

“通过查看与答案文本相关的三个指标，我们发现，被评估的答案引擎经常（50-80%）生成片面的答案，倾向于同意辩论问题的激烈表述，而不是在答案中呈现多种观点，而 Perplexity 的表现比其他两个引擎更差。

“这一发现与我们定性结果的发现一致。令人惊讶的是，尽管困惑最有可能产生片面的答案，但它也会产生最长的答案（平均每个答案 18.8 条语句），这表明答案缺乏多样性并不是由于答案简洁。

“换句话说，增加答案长度并不一定能提高答案的多样性。”

作者还指出，Perplexity 最有可能使用自信的语言（90％的答案），相比之下，其他两个系统在涉及主观内容时倾向于使用更谨慎和不太自信的语言。

You Chat 是唯一一个实现答案零未引用来源的 RAG 框架，Perplexity 为 8%，Bing Chat 为 36%。

所有模型都证明了“相当大比例”的未经证实的陈述，并且该论文声明^†：

“RAG 框架宣称可以通过强制 LLM 生成基于源文档的答案来解决 LLM 的幻觉行为，但结果表明，基于 RAG 的答案引擎生成的答案仍然包含大量不受其提供的来源支持的陈述。 ”

此外，所有经过测试的系统都难以用引文支持其陈述：

‘You.Com 和 [Bing Chat] 的表现略优于 Perplexity，大约三分之二的引文指向支持所引用陈述的来源，而 Perplexity 的表现较差，其超过一半的引文是不准确的。

“这个结果令人惊讶：引用不仅对于不受任何（来源）支持的陈述是错误的，而且我们发现，即使存在支持某个陈述的来源，所有引擎仍然经常引用不同的错误来源，错失了向用户提供正确信息来源的机会。

“换句话说，幻觉行为不仅表现在不受来源支持的陈述中，也表现在禁止用户验证信息有效性的不准确引用中。 ”

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/xin-yan-jiu-fa-xian-rag-xi-tong-cun-zai-16-ge-zhu-yao-wen

Like (0)

点点

0 0

抵御人工智能攻击——正确的防御策略

Previous 2024年11月5日

Agentic AI：大型语言模型如何塑造自主代理的未来

Next 2024年11月5日

法规是助力还是阻碍：Cloudflare 的看法

随着人工智能重塑数字格局，科技公司发现自己陷入了一场高风险的监管博弈，每一步都可能改变创新带来的可能性。对于像 Cloudflare 这样的全球基础设施提供商来说，这场博弈尤其复杂…

点点
AI前沿 2024年10月7日
000
AI前沿

在人工智能时代，学术科学的未来取决于现实世界的研究

当今的大学面临诸多挑战。随着当今市场的变化，大学必须适应。当今的关键问题包括经济下滑趋势对捐赠基金造成冲击、学费上涨带来的入学挑战、来自第三方在线教育的竞争以及人口结构变化导致新生…

点点
2024年10月17日
000
AI前沿

微软和 a16z 搁置分歧，联手反对人工智能监管

两个深度交织的科技生态系统中的两大力量——大型既有企业和初创公司——停止数钱，联合恳求政府停止甚至放弃考虑可能影响他们的经济利益（或者用他们喜欢的话说，创新）的监管。 “我们两家公…

王浩然
2024年11月2日
000
AI前沿

Hugging Face 将“Pi-Zero”引入 LeRobot，使人工智能机器人更易于构建和部署

Hugging Face和Physical Intelligence本周悄然推出了Pi0（Pi-Zero），这是第一个将自然语言命令直接转化为身体动作的机器人基础模型。 Hugg…

王浩然
2025年2月9日
000
AI前沿

Chipotle 投资人工智能来增强食品安全

Lumachain 的 AI 供应链平台可实时监控供应链中的每个项目

点点
2024年10月22日
000
AI前沿

Puppygraph 加快了 LLM 获取图形数据洞察的速度

随着企业继续在高级分析和大型语言模型(LLM)方面投入大量资金，图形技术已成为设置数据堆栈最受欢迎的方法之一。它允许用户了解数据集中的复杂关系，而这些关系在传统关系数据库中通常并不…

王浩然
2024年11月9日
000
AI前沿

谷歌扩展人工智能虚拟试穿工具，将礼服也纳入其中

谷歌周四宣布，已扩展其基于人工智能的虚拟试穿工具以支持礼服，让用户可以虚拟穿着来自数百个品牌的数千件礼服，包括 Boden、Maje、Sandro、Simkhai 和 Staud。…

王浩然
2024年9月8日
000
AI前沿

小而强大：H2O.ai 的新 AI 模型在文档分析领域挑战科技巨头

开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型，旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OV…

王浩然
2024年10月19日
000
AI前沿

Together AI 有望通过私有云企业 AI 平台实现更快的推理速度和更低的成本

在公共云中运行人工智能可能会给企业带来许多有关数据隐私和安全的担忧。这就是为什么一些企业会选择在私有云或本地环境中部署 AI。Together AI是寻求解决挑战的供应商之一，这…

王浩然
2024年9月24日
000
AI前沿

Cybord 获得 870 万美元 A 轮融资，通过可追溯性革新电子制造业

Cybord是一家在电子制造领域处于领先地位的视觉 AI 技术公司，该公司在 A 轮融资中筹集了 870 万美元。此次融资由 Capri Ventures 领投，Ocean Azu…

点点
2024年9月18日
000
AI前沿

乌克兰正在利用数百万小时的无人机镜头训练人工智能进行战争

正在进行的俄罗斯-乌克兰冲突可能是第一场真正的人工智能战争，双方都开始依赖小型无人机进行侦察、识别目标，甚至向敌方投掷致命炸弹。这种新型战争允许指挥官从安全距离勘察区域，并凸显了轻…

王浩然
2024年12月25日
000
AI前沿

AWS 合作伙伴利用 AI 设计材料实现数据中心脱碳

亚马逊网络服务(AWS) 已与 Orbital Materials 公司建立多年合作伙伴关系，后者是一家使用人工智能开发先进材料的公司，旨在使数据中心更加环保、更加高效。 Orbi…

王浩然
2024年12月7日
000
AI前沿

Devin 1.2：更新后的 AI 工程师通过更智能的上下文推理和语音集成增强了编码能力

去年，Cognition推出了一款名为Devin 的产品，即世界上第一个AI 工程师，掀起了 AI 代理浪潮。该产品保密了几个月，但现在已全面上市，并且正在迅速学习新功能。例如：由…

王浩然
2025年1月19日
000
AI前沿

对于人工智能来说，耐心是一种美德

自 ChatGPT 推出以来的近两年里，生成式人工智能经历了整个技术炒作周期，从改变社会的崇高期望到推动最近的股市调整。但具体到网络安全行业，人们对生成式人工智能(genAI) 的…

点点
2024年10月6日
000
AI前沿

领导者对负责任的人工智能所需的治理水平存在分歧

领导者对于如何打造负责任的人工智能存在分歧，有两种观点，一种是治理主导，一种是实验优先，而监管机构则在寻找正确的平衡方面面临更大困难。这些见解是在上周的人工智能领袖论坛上…

王浩然
2024年12月10日
000
AI前沿

为 AI 模型评分：Endor Labs 推出评估工具

Endor Labs已开始根据 AI 模型的安全性、受欢迎程度、质量和活跃度对其进行评分。这一独特功能被称为“AI 模型的 Endor 分数”，旨在通过提供直接的分数来简化识别 …

点点
2024年10月17日
000
AI前沿

不眠之眼：Hakimo获1050万美元A轮融资，加码自主安防‌

在安防领域，一场由人工智能引领的变革正在悄然进行。近日，一家专注于自主安防监测平台的AI创业公司Hakimo宣布成功获得1050万美元的A轮融资，本轮融资由Vertex Ventu…

王浩然
2025年3月29日
000
AI前沿

人工智能心理健康平台获 82.5 万美元融资

心理健康初创公司 Yung Sidekick 已获得 825,000 美元的种子前资金，用于开发针对心理健康专业人士的人工智能平台。此轮融资由 Altair Capital 和 …

点点
2024年10月8日
000
AI前沿

算法和人工智能让世界更美好

助理教授 Manish Raghavan 希望计算技术能够帮助解决社会问题。算法决策和人工智能带来诸多好处，包括彻底改变广泛领域的速度、效率和预测能力。Manish Raghav…

王浩然
2025年1月27日
000
AI前沿

Meta 的新款智能眼镜看起来是未来趋势

Meta 最令人印象深刻的新产品——代号为 Orion 的智能眼镜目前还无法购买。几年后，你也许可以买到类似产品，但大多数人甚至都无法戴上它们。不过，这并不一定会让它们变得不那么令…

王浩然
2024年9月30日
000