RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

王浩然 • 6天前 • AI前沿 • 59 views

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米（Jimmy Lin）教授及其研究团队，共同推出了Open RAG Eval开源框架。这一创新工具旨在将当前主观且模糊的“看起来更好”的评估方式，转变为一种严谨、可重复的评价方法，全面衡量RAG部署中的检索准确性、生成质量及幻觉率。

科学评估，精准优化

Open RAG Eval框架通过两大核心指标类别——检索指标和生成指标，对响应质量进行综合评估。企业可利用此框架对基于矢量科技平台或自定义解决方案的任何RAG流程进行评估。对于技术决策者而言，这意味着他们终于拥有了一套系统化的方法，能够精准识别并优化RAG实施中的各个环节。

林吉米教授在接受VentureBeat独家采访时表示：“如果你无法衡量它，你就无法改进它。在信息检索和密集向量领域，我们可以衡量很多东西，如nDCG（归一化折损累计增益）、精确度、召回率……但在正确答案方面，我们一直没有有效的衡量手段，这正是我们踏上这条道路的原因。”

应对复杂挑战，确保评估精准

近年来，RAG的应用日益复杂，从简单的问答系统扩展到多步骤代理系统，这对评估提出了更高要求。矢量科技CEO兼联合创始人阿姆·阿瓦达拉（Am Awadallah）指出：“在代理世界中，评估尤为重要，因为这些AI代理往往是多步骤的。如果第一步没有捕捉到幻觉，那么错误会在后续步骤中累积，最终导致错误的行动或答案。”

Open RAG Eval框架采用基于要点（nugget）的评估方法，将响应分解为关键事实，并衡量系统捕捉这些要点的有效性。该框架通过四个具体指标全面评估RAG系统，包括检索准确性、生成质量、幻觉率及整体性能。更重要的是，它能够端到端地评估整个RAG流程，揭示嵌入模型、检索系统、分块策略与大型语言模型（LLMs）如何相互作用以产生最终输出。

技术突破，自动化评估流程

Open RAG Eval的另一大技术亮点在于其利用LLMs自动化了以往繁琐且耗时的人工评估过程。通过Python与先进的提示工程，框架使LLMs能够执行识别要点、评估幻觉等评估任务，整个过程被封装在一个结构化的评估管道中。林吉米教授解释说：“在我们开始之前，最先进的方法还是左右对比，即‘你喜欢左边这个还是右边这个？’或‘它们都好’、‘它们都差’。而我们的方法则实现了质的飞跃。”

市场需求旺盛，前景广阔

随着企业AI应用的日益成熟，市场上对评估框架的需求不断增长。Open RAG Eval之所以与众不同，在于它专注于RAG流程而非仅关注LLM输出，且拥有坚实的学术基础，建立在成熟的信息检索科学之上而非临时方法。此外，矢量科技此前对开源AI社区的贡献，如被Hugging Face下载超过350万次的休斯幻觉评估模型（HHEM），为Open RAG Eval的成功奠定了坚实基础。

阿瓦达拉强调：“我们称之为Open RAG Eval框架，而不是矢量科技评估框架，因为我们希望其他公司和机构能够共同参与建设。市场需要这样的工具，以促进所有系统的健康发展。”

目前，已有多家企业对Open RAG Eval框架表示出浓厚兴趣，并计划采用。以房地产公司Anywhere.re为例，其产品与技术高级副总裁杰夫·哈梅尔（Jeff Hummel）表示，与矢量科技的合作将有助于简化公司的RAG评估流程，提高评估的准确性和效率。

对于技术决策者而言，Open RAG Eval框架意味着可以采用科学的方法评估RAG部署和配置，从而避免依赖主观评估或供应商声明。对于AI旅程起步较晚的企业而言，它提供了一个结构化的评估起点，有助于避免在构建RAG基础设施时走弯路、花冤枉钱。

结语：迈向更加智能的未来

随着Open RAG Eval框架的推出，企业在评估和优化RAG系统时将拥有更加精准和高效的工具。这不仅将推动AI技术的进一步发展，还将为企业带来实实在在的商业价值。在这个充满挑战与机遇的时代，Open RAG Eval无疑将成为企业AI战略中不可或缺的一部分。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/rag-xing-neng-ping-gu-de-xin-ji-yuan-kai-yuan-kuang-jia-zhu

Like (0)

王浩然作者

0 0

‌1.15亿美元融资助力这家初创企业，让工程设计速度提升1000倍，贝佐斯、阿尔特曼和英伟达纷纷下注‌

Previous 6天前

Amazon推出Nova Sonic，革新实时语音交互体验‌

Next 6天前

AI前沿

烟雾、反射和入口：Adobe 的 TransPixar 将 AI VFX 提升到新水平

Adobe Research和香港科技大学(HKUST)的一个团队开发了一种人工智能系统，可以改变电影、游戏和交互式媒体的视觉效果的制作方式。这项名为TransPixar的技术为…

王浩然
2025年1月9日
000
AI前沿

Emergence 推出的 AI 协调器可以完成大型技术产品无法完成的任务：与其他产品良好协作

Emergence AI是一家由 IBM 研究院资深人员创立的初创公司，今年早些时候获得了超过 9700 万美元的融资，今天推出了企业级自主多智能体 AI 编排器，据称这是市场上最…

王浩然
2024年12月4日
000
AI前沿

次二次系统：加速人工智能的效率和可持续性

人工智能 (AI)正在以惊人的速度改变着我们的世界，影响着医疗、金融和零售等行业。从在线推荐产品到诊断医疗状况，AI 无处不在。然而，效率问题日益严重，研究人员和开发人员正在努力解…

点点
2024年10月23日
000
AI前沿

OpenAI的ChatGPT用户激增至4亿，GPT-5即将面世‌

OpenAI的ChatGPT用户量已突破4亿周活跃用户大关，这一里程碑彰显了公司在消费者和企业市场的快速扩张。根据首席运营官Brad Lightcap周四在X平台上的帖子，Chat…

王浩然
2025年2月22日
000
AI前沿

Deus Robotics 创始人兼首席执行官 Pavlo Pikulin – 访谈系列

Pavlo Pikulin是Deus Robotics 的创始人兼首席执行官，该公司开发了一个 AI 平台，可连接和增强任何制造商的仓库机器人的智能。该公司还提供 AI 驱动的…

点点
2024年9月21日
000
AI前沿

AWS 失去了一位顶级人工智能高管

上周，AWS 失去了一位顶级 AI 高管。人工智能副总裁 Matt Wood宣布，他将在 AWS 任职 15 年后离职。Wood 长期参与亚马逊部门的人工智能计划；他于 2022…

点点
2024年10月19日
000
AI前沿

为什么多智能体 AI 能够解决 LLM 无法解决的复杂性

ChatGPT 的推出使得大型语言模型(LLM) 在科技和非科技行业中得到广泛应用。这种流行主要归因于两个因素：这是否意味着我们已经达到了人类水平的智能，我们称之为通用人工智能（…

王浩然
2024年11月3日
000
AI前沿

科技行业巨头敦促欧盟简化人工智能监管

Meta牵头发表了一封公开信，呼吁欧盟紧急改革人工智能监管规定。这封信得到了爱立信、SAP和 Spotify 等 50 多家知名公司的支持，并以广告形式刊登在《金融时报》上。这些…

点点
2024年9月20日
000
AI前沿

Treehouse 使用人工智能帮助电工更便宜地安装电动汽车充电器和热泵等技术

美国正面临电工短缺的问题，根据美国劳工统计局的数据，未来十年该领域的空缺职位预计将以每年 11% 的速度增长。但由于美国未来的电工通常需要工作8,000 小时才能获得执照，因此短缺…

王浩然
2024年10月17日
000
AI前沿

科学家构建推动通用人工智能发展的AI模型

一、引言在人工智能领域，通用人工智能（Artificial General Intelligence, AGI）一直是研究者们追求的终极目标。近日，来自澳大利亚悉尼科技大学的研究…

王浩然
2025年3月14日
000
AI前沿

人工智能真的能与人类数据科学家竞争吗？OpenAI的新基准对它进行了测试

OpenAI推出了一种测量机器学习工程中人工智能能力的新工具。这个被称为MLE-bench的基准，通过来自机器学习竞赛的流行平台Kaggle的75场真实世界数据科学比赛来挑战人工智…

点点
2024年10月14日
000
AI前沿

Cerebras 与 Nvidia：新的推理工具有望实现更高的性能2

人工智能硬件初创公司Cerebras创建了一种新的人工智能推理解决方案，可能与 Nvidia 为企业提供的 GPU 产品相媲美。 Cerebras Inference 工具基于该公…

36氪
2024年8月31日
000
AI前沿

Together AI 3.05亿美元赌注：DeepSeek-R1等推理模型正在增加而非减少GPU需求‌重写并翻译后的内容

DeepSeek-R1刚出现时，业界普遍担忧先进推理能力的实现可能会减少对基础设施的需求。然而，事实证明情况并非如此。至少，根据Together AI的说法，DeepSeek和开源…

王浩然
2025年2月22日
000
AI前沿

Arcee AI 推出 SuperNova：一种可定制、符合指令的企业模型

Arcee AI今天推出了SuperNova，这是一个专为企业部署而设计的 700 亿参数语言模型，具有先进的指令跟踪功能和完整的自定义选项。该模型旨在为 OpenAI 和 Ant…

王浩然
2024年9月17日
000
AI前沿

马斯克对 OpenAI 的修改后诉讼将微软列为被告

埃隆·马斯克对 OpenAI 提起的诉讼指控该公司放弃了非营利使命，该诉讼于 7 月撤回，但8 月又重新提起。现在，在一份修改后的诉状中，该诉讼将微软、LinkedIn 联合创始人…

王浩然
2024年11月16日
000
AI前沿

人工智能热潮中英伟达成为全球最大公司

得益于全球人工智能的推动，英伟达周二市值超过苹果，成为全球最大公司。据彭博社报道，自 2022 年底以来，这家芯片制造商的市值增长了 850%。截至收盘，Nvidia 市值为 3…

王浩然
2024年11月6日
000
AI前沿

Archetype AI 的牛顿模型无需人类帮助，就能从原始数据中学习物理

Archetype AI的研究人员开发了一种基础 AI 模型，能够直接从传感器数据中学习复杂的物理原理，而无需任何预编程知识。这一突破可能会极大地改变我们理解和与物理世界互动的方式…

王浩然
2024年10月19日
000
AI前沿

“Figures”人形机器人：语音指令助手，让家务变得更轻松

近日，一款名为“Figures”的人形机器人走进了大众视野，这款机器人能够通过接收语音指令来帮助用户完成各种家务任务。它的问世，预示着智能家居领域迎来了又一位得力助手，将为用户带来…

王浩然
2025年2月24日
000
AI前沿

Meta 推出 AI 工具，让机器人在现实世界中拥有人类的触感

Meta本周发布了几项有关机器人和具身 AI 系统的重大公告。其中包括发布基准和工件，以便更好地理解和与物理世界互动。Meta 发布的三项研究工件 Sparsh、Digit 36…

王浩然
2024年11月3日
000
AI前沿

DeepSeek：全面解析这款AI聊天机器人应用‌

DeepSeek是一款功能强大的AI聊天机器人应用，它集成了最新的自然语言处理技术和深度学习算法，旨在为用户提供前所未有的交互体验。无论是日常闲聊、信息查询还是专业咨询，DeepS…

王浩然
2025年2月27日
000