幻觉,即事实不准确的回答,继续困扰大型语言模型 (LLM)。当模型被赋予更复杂的任务,并且当用户寻求具体且高度详细的回答时,模型尤其会失效。
这是数据科学家一直努力克服的一个挑战,现在,来自Google DeepMind的研究人员表示,他们距离实现基础模型的真正事实性又近了一步。他们推出了 FACTS Grounding,这是一个基准,用于评估 LLM 根据长篇文档生成事实准确响应的能力。模型的评判标准还包括响应是否足够详细,是否能够提供有用且相关的提示答案。
除了新的基准之外,研究人员还向 Kaggle 数据科学社区 发布了FACTS 排行榜。
截至本周,Gemini 2.0 Flash 位居排行榜榜首,真实性得分为 83.6%。其他进入前 9 名的包括谷歌的 Gemini 1.0 Flash 和 Gemini 1.5 Pro;Anthropic 的 Clade 3.5 Sonnet 和 Claude 3.5 Haiku;以及 OpenAI 的 GPT-4o、4o-mini、o1-mini 和 o1-preview。这些在准确率方面均超过 61.7%。
研究人员表示,排行榜将得到积极维护并不断更新,以涵盖新模型及其不同迭代。
研究人员在本周发表的技术论文中写道:“我们认为,与那些专注于较窄用例(例如仅仅是总结)的基准相比,这一基准填补了评估与事实性有关的更广泛的模型行为的空白。”
剔除不准确的回答
由于建模(架构、训练和推理)和测量(评估方法、数据和指标)因素,确保LLM 答案的事实准确性非常困难。研究人员指出,预训练通常侧重于根据先前的标记预测下一个标记。
研究人员写道:“虽然这个目标可能会教会模型显著的世界知识,但它并没有直接针对各种事实场景优化模型,而是鼓励模型生成普遍合理的文本。”
为了解决这个问题,FACTS 数据集包含了 1,719 个示例(860 个公开示例和 859 个私人示例),每个示例都需要根据所提供文档中的上下文进行长格式回答。每个示例包括:
- 具有一般指令和仅根据提供的上下文回答的命令的系统提示(system_instruction);
- 包含需要回答的特定问题的任务(user_request);
- 一份包含必要信息的长文档(context_document)。
为了成功并被标记为“准确”,模型必须处理长格式文档并创建后续长格式响应,该响应既全面又完全归因于文档。如果模型的声明没有得到文档的直接支持并且相关性不高或没有太大用处,则响应会被标记为“不准确”。
例如,用户可能会要求模型总结公司第三季度收入下降的主要原因,并向其提供详细信息,包括公司年度财务报告,讨论季度收益、支出、计划投资和市场分析。
如果某个模型返回的结果是:“该公司在第三季度面临的挑战影响了其收入”,那么该结果将被视为不准确。
研究人员指出:“回应中没有具体说明任何原因,例如市场趋势、竞争加剧或运营受挫,而这些原因很可能会在文件中出现。”“它没有表现出试图参与或提取相关细节的尝试。”
相比之下,如果用户提示“省钱有什么窍门?”并提供了一份针对大学生的分类省钱窍门汇编,正确的回答应该是非常详细的:“利用校园里的免费活动,批量购买物品并在家做饭。此外,设定消费目标,避免使用信用卡并节约资源。”
DeepMind 使用 LLM 来评判 LLM
为了满足多样化的输入,研究人员纳入了不同长度的文档,最多 32,000 个标记(或相当于 20,000 个单词)。这些文档涵盖金融、技术、零售、医学和法律等领域。用户请求也很广泛,包括问答生成、摘要和重写请求。
每个示例的评判分为两个阶段。首先,评估回答是否符合资格:如果回答不能满足用户要求,则被取消资格。其次,回答必须不带任何幻想,并且完全基于所提供的文档。
这些事实性分数由三位不同的 LLM 评委(具体为 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet)计算得出,他们根据准确模型输出的百分比确定个人分数。随后,最终的事实性判定基于三位评委的评分平均值。
研究人员指出,模型往往会偏向其模型家族的其他成员——平均增幅约为 3.23%——因此,不同评判者的组合对于确保答案确实是事实至关重要。
最后,研究人员强调,事实性和基础性是法学硕士未来成功和实用的关键因素。他们写道:“我们相信,全面的基准测试方法加上持续的研究和开发将继续改进人工智能系统。”
然而,他们也承认:“我们意识到基准很快就会被进步所超越,因此这次推出 FACTS Grounding 基准和排行榜仅仅是一个开始。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/google-deepmind-yan-jiu-ren-yuan-tui-chu-xin-ji-zhun-yi-ti