Google DeepMind 研究人员推出新基准以提高 LLM 真实性并减少幻觉

王浩然 • 2025年1月11日上午11:00 • AI前沿 • 82 views

幻觉，即事实不准确的回答，继续困扰大型语言模型 (LLM)。当模型被赋予更复杂的任务，并且当用户寻求具体且高度详细的回答时，模型尤其会失效。

这是数据科学家一直努力克服的一个挑战，现在，来自Google DeepMind的研究人员表示，他们距离实现基础模型的真正事实性又近了一步。他们推出了 FACTS Grounding，这是一个基准，用于评估 LLM 根据长篇文档生成事实准确响应的能力。模型的评判标准还包括响应是否足够详细，是否能够提供有用且相关的提示答案。

除了新的基准之外，研究人员还向 Kaggle 数据科学社区发布了FACTS 排行榜。

截至本周，Gemini 2.0 Flash 位居排行榜榜首，真实性得分为 83.6%。其他进入前 9 名的包括谷歌的 Gemini 1.0 Flash 和 Gemini 1.5 Pro；Anthropic 的 Clade 3.5 Sonnet 和 Claude 3.5 Haiku；以及 OpenAI 的 GPT-4o、4o-mini、o1-mini 和 o1-preview。这些在准确率方面均超过 61.7%。

研究人员表示，排行榜将得到积极维护并不断更新，以涵盖新模型及其不同迭代。

研究人员在本周发表的技术论文中写道：“我们认为，与那些专注于较窄用例（例如仅仅是总结）的基准相比，这一基准填补了评估与事实性有关的更广泛的模型行为的空白。”

剔除不准确的回答

由于建模（架构、训练和推理）和测量（评估方法、数据和指标）因素，确保LLM 答案的事实准确性非常困难。研究人员指出，预训练通常侧重于根据先前的标记预测下一个标记。

研究人员写道：“虽然这个目标可能会教会模型显著的世界知识，但它并没有直接针对各种事实场景优化模型，而是鼓励模型生成普遍合理的文本。”

为了解决这个问题，FACTS 数据集包含了 1,719 个示例（860 个公开示例和 859 个私人示例），每个示例都需要根据所提供文档中的上下文进行长格式回答。每个示例包括：

具有一般指令和仅根据提供的上下文回答的命令的系统提示（system_instruction）；
包含需要回答的特定问题的任务（user_request）；
一份包含必要信息的长文档（context_document）。

为了成功并被标记为“准确”，模型必须处理长格式文档并创建后续长格式响应，该响应既全面又完全归因于文档。如果模型的声明没有得到文档的直接支持并且相关性不高或没有太大用处，则响应会被标记为“不准确”。

例如，用户可能会要求模型总结公司第三季度收入下降的主要原因，并向其提供详细信息，包括公司年度财务报告，讨论季度收益、支出、计划投资和市场分析。

如果某个模型返回的结果是：“该公司在第三季度面临的挑战影响了其收入”，那么该结果将被视为不准确。

研究人员指出：“回应中没有具体说明任何原因，例如市场趋势、竞争加剧或运营受挫，而这些原因很可能会在文件中出现。”“它没有表现出试图参与或提取相关细节的尝试。”

相比之下，如果用户提示“省钱有什么窍门？”并提供了一份针对大学生的分类省钱窍门汇编，正确的回答应该是非常详细的：“利用校园里的免费活动，批量购买物品并在家做饭。此外，设定消费目标，避免使用信用卡并节约资源。”

DeepMind 使用 LLM 来评判 LLM

为了满足多样化的输入，研究人员纳入了不同长度的文档，最多 32,000 个标记（或相当于 20,000 个单词）。这些文档涵盖金融、技术、零售、医学和法律等领域。用户请求也很广泛，包括问答生成、摘要和重写请求。

每个示例的评判分为两个阶段。首先，评估回答是否符合资格：如果回答不能满足用户要求，则被取消资格。其次，回答必须不带任何幻想，并且完全基于所提供的文档。

这些事实性分数由三位不同的 LLM 评委（具体为 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet）计算得出，他们根据准确模型输出的百分比确定个人分数。随后，最终的事实性判定基于三位评委的评分平均值。

研究人员指出，模型往往会偏向其模型家族的其他成员——平均增幅约为 3.23%——因此，不同评判者的组合对于确保答案确实是事实至关重要。

最后，研究人员强调，事实性和基础性是法学硕士未来成功和实用的关键因素。他们写道：“我们相信，全面的基准测试方法加上持续的研究和开发将继续改进人工智能系统。”

然而，他们也承认：“我们意识到基准很快就会被进步所超越，因此这次推出 FACTS Grounding 基准和排行榜仅仅是一个开始。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/google-deepmind-yan-jiu-ren-yuan-tui-chu-xin-ji-zhun-yi-ti

Like (0)

王浩然作者

0 0

Narvar 如何利用人工智能和数据来增强客户购买后体验

Previous 2025年1月10日

研究人员利用《龙与地下城》提高人工智能代理在陌生任务上的表现

Next 2025年1月11日

AI前沿

GPU迈向生物领域：BBB发布Bionode，打造基于实验室培育活神经元的AI计算平台

在人工智能（AI）技术的飞速发展进程中，计算硬件的革新始终是推动其前进的关键力量。长久以来，图形处理单元（GPU）作为昂贵的计算机芯片，一直由Nvidia、AMD等行业巨头主导，是…

王浩然
2025年3月21日
000
AI前沿

Fable 获 2500 万美元融资，为辅助功能添加认知和听力障碍功能

Fable是一家知名的初创公司，致力于帮助公司打造更方便残障人士使用的数字产品。在筹集了 2500 万美元的新资金后，这家总部位于多伦多的初创公司正在扩大其支持的社区，并致力于让 …

王浩然
2024年10月17日
000
AI前沿

人工智能热潮中英伟达成为全球最大公司

得益于全球人工智能的推动，英伟达周二市值超过苹果，成为全球最大公司。据彭博社报道，自 2022 年底以来，这家芯片制造商的市值增长了 850%。截至收盘，Nvidia 市值为 3…

王浩然
2024年11月6日
000
AI前沿

算法和人工智能让世界更美好

助理教授 Manish Raghavan 希望计算技术能够帮助解决社会问题。算法决策和人工智能带来诸多好处，包括彻底改变广泛领域的速度、效率和预测能力。Manish Raghav…

王浩然
2025年1月27日
000
AI前沿

AI驱动的无线树状网络连接野火防御系统

一个专为森林设计的全新太阳能供电、AI驱动的物联网（IoT）网络已推出，旨在连接自主野火响应系统的各个元素。该网络名为Dryad Network的Silvanet系统，能够创建自己…

王浩然
2025年2月22日
000
AI前沿

Observe.AI推出VoiceAI客服代理，以逼真人声自动化客服呼叫中心

近日，Observe.AI在人工智能领域迈出了重要一步，正式推出了VoiceAI客服代理，旨在以逼真的人类声音自动化客服呼叫中心的日常交互。这一创新解决方案不仅旨在提升客户体验，还…

王浩然
2025年3月29日
000
AI前沿

Manus或许并非中国的第二个“DeepSeek时刻”‌

近期，有关Manus的热烈讨论在中国科技界掀起了波澜，许多人将其视为继DeepSeek之后的又一里程碑事件。然而，深入剖析后不难发现，Manus可能并未达到DeepSeek那样的高…

王浩然
2025年3月11日
000
AI前沿

国防中的人类学和元科学：军事人工智能应用的新前沿

想象一下这样的未来：无人机以惊人的精度运行，战场策略实时调整，军事决策由不断从每次任务中学习的人工智能系统提供支持。这样的未来不再遥不可及。相反，它正在发生。人工智能 (AI)已从…

王浩然
2024年12月23日
000
AI前沿

为你点击的人工智能：微软的研究指出了 GUI 自动化的未来

微软研究人员和学术合作伙伴进行的一项全面的新调查显示，由大型语言模型 (LLM) 驱动的人工智能代理越来越能够控制图形用户界面 (GUI)，从而有可能改变人类与软件的交互方式。这…

王浩然
2024年12月1日
000
AI前沿

生成式 3D 平台获资助，瞄准重工业

生成式 3D 数据平台 Bifrost AI 在由 Carbide Ventures 领投、Airbus Ventures 参投的 A 轮融资中获得了 800 万美元。 …

王浩然
2024年11月11日
000
AI前沿

Google Cloud推出AI安全代理与统一安全平台，整合运维、威胁情报与事件响应

在当前企业基础设施日益复杂、攻击面不断扩大的背景下，Google Cloud近日宣布推出了一系列创新的安全解决方案，旨在帮助企业更好地应对日益严峻的安全挑战。其中，最引人注目的莫过…

王浩然
2025年4月11日
000
AI前沿

OpenAI 启动 ChatGPT 项目，让你可以组织文件、分组聊天

OpenAI最新发布的 ChatGPT 项目解决了在 ChatGPT 上组织文件和对话的需求。该功能类似于谷歌流行的NotebookLM应用程序。在“OpenAI 12 天”直…

王浩然
2024年12月16日
000
AI前沿

Microsoft Outlook 现在允许您创建个性化的 AI 主题

微软周四宣布，Outlook 将推出一项新功能，允许您使用生成式 AI 根据个人喜好创建主题。拥有 Copilot Pro 消费者订阅和启用了 Copilot 的企业帐户的用户可…

王浩然
2024年11月8日
000
AI前沿

D-ID 推出可进行实时对话的全新高质量虚拟形象

AI 视频平台 D-ID 今天宣布推出两种用于内容创作的新类型化身——Express 和 Premium+。各家公司都在追逐创造更像人类的人工智能形象的金蛋，这些形象可能会减轻企…

王浩然
2024年11月2日
000
AI前沿

OpenAI 推出 ChatGPT 桌面集成，与 Copilot 竞争

当OpenAI发布 ChatGPT 的桌面应用版本时，其目标显然是让更多用户将 ChatGPT 纳入日常工作流程。现在，Mac OS 和 Windows PC 版本的新更新鼓励用户…

王浩然
2024年11月18日
000
AI前沿

据报道，台积电暂停向中国公司发货先进芯片

据路透社报道，在华为处理器中发现台湾半导体制造公司生产的芯片后，美国商务部已下令该公司停止向中国客户出货先进芯片。华为面临美国的严格贸易限制，因此暂停发货是为了让政府确定是否有其…

王浩然
2024年11月12日
000
AI前沿

OpenAI将ChatGPT变成搜索引擎，直指谷歌

OpenAI今天将其广受欢迎的ChatGPT服务改造成一款强大的搜索引擎，这是该公司与谷歌竞争以来最大胆的举措。此次升级让用户能够用简单的英语提问，并获取有关新闻、体育、股票和天气…

王浩然
2024年11月3日
000
AI前沿

DeepSeek 有助于加速威胁检测，但同时也引发了国家安全担忧

DeepSeek 及其 R1 模型不会浪费任何时间来实时重写网络安全 AI 规则，从初创公司到企业提供商等所有公司都在本月试行集成到他们的新模型中。 R1 是在中国开发的，基于纯强…

王浩然
2025年2月3日
000
AI前沿

超越Transformer：NVIDIA的MambaVision旨在为企业解锁更快、更便宜的计算机视觉

引言‌ 在人工智能（AI）的广阔领域中，计算机视觉一直是推动技术进步和应用创新的关键力量。然而，传统的基于Transformer的计算机视觉模型虽然性能卓越，但计算成本高昂，限制了…

王浩然
2025年3月26日
000
AI前沿

2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据Crunchbase 的数据，人工智能公司在第三季度筹集…

点点
2024年10月13日
000