新研究发现 RAG 系统存在 16 个主要问题,包括困惑度

新研究发现 RAG 系统存在 16 个主要问题,包括困惑度

美国最近的一项研究发现,Perplexity 和 Bing Copilot 等流行的检索增强生成(RAG) 研究系统的实际表现远远达不到过去 12 个月中占据头条新闻的营销炒作和大众采用程度。

该项目广泛征询了 21 位专家的意见,发现所研究的 RAG 系统(You Chat、Bing Copilot 和 Perplexity)在至少 16 个领域引起了人们的担忧:

1:生成的答案缺乏客观细节,只有通用的概括和缺乏背景深度或细微差别。

2.强化感知的用户偏见,RAG 引擎经常无法呈现一系列观点,而是根据用户提出问题的方式来推断和强化用户偏见。

3.过于自信的语言,特别是在无法通过经验证实的主观回答中,这会导致用户对答案的信任度过高。

4:语言过于简单,缺乏批判性思维和创造力,回复只会用“简单化”和“令人接受”的信息来欺骗用户,而不是经过深思熟虑和分析。

5:错误归因和错误引用来源,答案引擎使用不支持其响应的引用来源,从而造成可信度的假象。

6:从推断的上下文中挑选信息,其中 RAG 代理似乎正在寻找支持其生成的争论和对用户想要听到的内容的估计的答案,而不是基于对可靠来源的客观分析来给出答案(可能表明系统的“烘焙”LLM 数据与其在响应查询时从互联网上动态获取的数据之间存在冲突)。

7:在缺乏回应的源材料的情况下,省略支持陈述的引文。

8:没有提供响应的逻辑模式,用户无法质疑为什么系统优先考虑某些来源而不是其他来源。

9:来源数量有限,大多数 RAG 系统通常为一个声明提供大约三个支持来源,即使在可以适用更多样化的来源的情况下。

10:孤立来源,其中系统的全部或部分支持引文的数据实际上并未包含在答案中。

11:使用不可靠的来源,系统似乎更喜欢流行的来源(即,在 SEO 术语中)而不是事实上正确的来源。

12:冗余来源,系统显示多个引文,但源论文的内容基本相同。

13:未过滤的来源,系统不向用户提供评估或过滤所提供引文的方法,迫使用户相信选择标准。

14:缺乏互动性或可探索性,其中一些用户研究参与者感到沮丧,因为 RAG 系统没有提出澄清问题,而是从第一个查询就假设用户意图。

15:需要外部验证,用户会觉得有必要对所提供的响应进行独立验证,这在很大程度上消除了 RAG 作为“搜索替代品”所带来的便利性。

16:  使用学术引用方法,例如[1][34];这是学术圈的标准做法,但对许多用户来说可能不直观。

为了开展这项工作,研究人员召集了 21 位人工智能、医疗保健和医学、应用科学和教育及社会科学领域的专家,他们都是博士后研究员或博士生。参与者与经过测试的 RAG 系统进行交互,同时大声说出他们的思维过程,以(为研究人员)澄清他们自己的理性图式。

论文广泛引用了参与者对所研究的三个系统的性能的疑虑和担忧。

然后使用浏览器控制套件将用户研究的方法系统化为 RAG 系统的自动化研究:

“对 You.com、Perplexity.ai 和 BingChat 等系统进行的大规模自动评估表明,没有一个系统在大多数指标上都达到可接受的性能,包括与处理幻觉、不受支持的陈述和引用准确性相关的关键方面。”

作者在长达 27 页的论文中详细论述了新用户和有经验的用户在使用研究的 RAG 系统时应谨慎行事。他们还根据研究中发现的缺陷提出了一套新的指标体系,这可以为未来加强技术监督奠定基础。

然而, RAG 系统在公众中的日益广泛使用也促使作者们提倡针对代理辅助 AI 搜索界面制定适当的立法和更高水平的可执行政府政策。

这项研究由宾夕法尼亚州立大学和 Salesforce 的五名研究人员共同完成,题为《人工智能时代的搜索引擎:事实和可验证来源引用响应的虚假承诺》。该研究涵盖了截至 2024 年 8 月最先进的 RAG 系统

RAG 权衡

作者在其研究成果的开头重申了大型语言模型 (LLM) 在答案引擎中使用时存在的四个已知缺点。

首先,它们容易产生幻觉信息,缺乏检测事实不一致的能力。其次,它们很难在生成的答案的背景下评估引用的准确性。第三,它们倾向于青睐来自自己预先训练的权重的数据,并可能抵制来自外部检索文档的数据,即使这些数据可能更新或更准确。

最后,RAG 系统倾向于取悦他人、阿谀奉承的行为,而往往以牺牲响应信息的准确性为代价。

所有这些趋势都在这项研究的两个方面得到了证实,其中还提出了许多关于 RAG 缺陷的新观察。

该论文认为,OpenAI 的SearchGPT RAG 产品(在新论文提交后于上周向订阅者发布)可能会鼓励用户采用基于 RAG 的搜索系统,尽管调查结果暗示了其存在基础缺陷*:

“OpenAI 的‘SearchGPT’的发布被宣传为‘谷歌搜索杀手’,进一步加剧了 [担忧]。随着对这些工具的依赖性不断增长,了解其影响的紧迫性也随之增加。林德曼  引入了密封知识的概念,该概念批评了这些系统如何通过将搜索查询压缩为单一的权威响应来限制对不同答案的访问,从而有效地使信息脱离语境并缩小用户 视角。

“这种知识的‘封存’会导致选择偏见,并限制边缘化的观点。”

研究

作者首先对 24 名选定的参与者中的 3 名测试了他们的研究程序,所有参与者都是通过 LinkedIn 或电子邮件等方式邀请的。

第一阶段,对于剩下的 21 名参与者来说,涉及专业知识信息检索,参与者在 40 分钟的时间内平均进行约六次搜索查询。此部分专注于收集和验证基于事实的问题和答案,以及潜在的经验解决方案。

第二阶段涉及辩论信息检索,它处理的是主观问题,包括生态学、素食主义和政治。

vegetarian-study

Perplexity(左)和 You Chat(右)生成的研究答案。来源:https://arxiv.org/pdf/2410.22349

由于所有系统都允许与作为生成答案支持而提供的引文进行一定程度的交互,因此鼓励研究对象尽可能多地与界面进行交互。

在两种情况下,参与者都被要求通过 RAG 系统和传统搜索引擎(在本例中为 Google)来提出他们的询问。

之所以选择这三个答案引擎(You Chat、Bing Copilot 和 Perplexity),是因为它们是公开的。

大多数参与者已经是 RAG 系统的用户,使用频率各不相同。

由于篇幅限制,我们无法对研究中发现的详尽记录的十六个主要缺陷逐一进行分析,但这里选取了一些最有趣和最具启发性的例子。

缺乏客观细节

论文指出,用户发现系统的回答经常缺乏客观细节,无论是事实回答还是主观回答。有人评论道:

“它只是试图回答,但实际上并没有给我一个确切的答案或更深思熟虑的答案,而这些我可以通过多次谷歌搜索来获得。”

另一位观察者表示:

“它太短了,只是对所有内容进行了大量的总结。[该模型]需要为我的主张提供更多数据,但它已经非常概括了。”

缺乏整体观点

作者对这种缺乏细微差别和特殊性的情况表示担忧,并指出答案引擎经常无法对任何论点提出多种观点,而倾向于从用户自己对问题的措辞中推断出明显的偏见。

一位参与者说:

“我想更多地了解争论的另一面……这一切都是值得怀疑的,因为我们不了解另一面以及证据和事实。”

另一位评论道:

“它不会向你展示双方的观点;它不会与你争论。相反,[模型] 只会告诉你,‘你是对的……原因如下。’”

自信的语言

作者观察到,所有三个测试系统都表现出过度自信的语言使用,即使是涉及主观问题的回答也是如此。他们认为,这种语气往往会激发对回答的不合理自信。

一位与会者指出:

“它写得如此自信,我甚至不用看原文就信服了。但当你看原文时,它很糟糕,这让我再次质疑它。”

另一位评论道:

“如果有人不知道正确的答案,即使答案是错误的,他们也会相信它。”

错误引用

另一个常见问题是,错误引用 RAG 系统响应的权威来源,其中一位研究对象声称:

“[这个]说法似乎不在来源中。我的意思是这个说法是真实的;它是有效的……但我不知道它从哪里得到这些信息。”

新论文的作者评论

“参与者认为系统正在使用引文来使他们的答案合法化,从而产生一种可信的假象。只有少数用户在仔细检查来源后才发现这一假象。”

挑选适合查询的信息

回到 RAG 回答中讨好他人、阿谀奉承行为的概念,研究发现,许多答案都强调了某个特定的观点,而不是全面总结主题,正如一位参与者所观察到的:

“我觉得[这个系统]很具操纵性。它只需要一些信息,我感觉被操纵了,只看到事物的一面。”

另一位网友则认为:

“该来源实际上有正反两方面的观点,而它只是选择从这个链接中挑选出所需的论据,而没有考虑全貌。”

如需进一步深入的示例(以及来自调查参与者的多个关键引述),我们请读者参阅源论文。

自动化 RAG

在这项更广泛研究的第二阶段,研究人员使用基于浏览器的脚本系统地从三个研究的 RAG 引擎中征求查询。然后,他们使用 LLM 系统 (GPT-4o) 分析系统的响应。

对这些陈述进行分析,以确定查询的相关性正反两方面的陈述(即,就查询的隐性偏见而言,回答是赞成、反对还是中立)。

在此自动化阶段,还会根据李克特量表心理测试方法评估答案信心分数。在这里,法学硕士评委得到了两名人工注释员的协助。

第三个操作涉及使用网页抓取来获取所引用网页的全文内容,通过 Jina.ai Reader 工具。然而,正如本文其他地方所指出的,大多数网页抓取工具无法访问付费网站,就像大多数人一样(尽管作者观察到 Perplexity.ai 可以绕过这一障碍)。

其他考虑因素包括答案是否引用来源(计算为“引用矩阵”),以及“事实支持矩阵”——该指标由四位人工注释者帮助验证。

因此获得了8个总体指标:片面的答案过度自信的答案相关的陈述未引用的来源不受支持的陈述来源的必要性引用的准确性引用的彻底性

测试这些指标的材料包括用户研究阶段精选的 303 个问题,最终在三个测试系统中得到了 909 个答案。

results

基于八个指标,对三个经过测试的 RAG 系统进行定量评估。

关于研究结果,论文指出:

“通过查看与答案文本相关的三个指标,我们发现,被评估的答案引擎经常(50-80%)生成片面的答案,倾向于同意辩论问题的激烈表述,而不是在答案中呈现多种观点,而 Perplexity 的表现比其他两个引擎更差。

“这一发现与我们定性结果的发现一致。令人惊讶的是,尽管困惑最有可能产生片面的答案,但它也会产生最长的答案(平均每个答案 18.8 条语句),这表明答案缺乏多样性并不是由于答案简洁。

“换句话说,增加答案长度并不一定能提高答案的多样性。”

作者还指出,Perplexity 最有可能使用自信的语言(90%的答案),相比之下,其他两个系统在涉及主观内容时倾向于使用更谨慎和不太自信的语言。

You Chat 是唯一一个实现答案零未引用来源的 RAG 框架,Perplexity 为 8%,Bing Chat 为 36%。

所有模型都证明了“相当大比例”的未经证实的陈述,并且该论文声明

“RAG 框架宣称可以通过强制 LLM 生成基于源文档的答案来解决 LLM 的幻觉行为,但结果表明,基于 RAG 的答案引擎生成的答案仍然包含大量不受其提供的来源支持的陈述。 ”

此外,所有经过测试的系统都难以用引文支持其陈述:

‘You.Com 和 [Bing Chat] 的表现略优于 Perplexity,大约三分之二的引文指向支持所引用陈述的来源,而 Perplexity 的表现较差,其超过一半的引文是不准确的。

“这个结果令人惊讶:引用不仅对于不受任何(来源)支持的陈述是错误的,而且我们发现,即使存在支持某个陈述的来源,所有引擎仍然经常引用不同的错误来源,错失了向用户提供正确信息来源的机会。

换句话说,幻觉行为不仅表现在不受来源支持的陈述中,也表现在禁止用户验证信息有效性的不准确引用中。 ”

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/xin-yan-jiu-fa-xian-rag-xi-tong-cun-zai-16-ge-zhu-yao-wen

Like (0)
点点的头像点点
Previous 2024年11月5日
Next 2024年11月5日

相关推荐

发表回复

Please Login to Comment