具有超长上下文窗口的大型语言模型 (LLM)最近成为头条新闻。将数十万甚至数百万个标记塞入单个提示的能力为开发人员带来了许多可能性。
但是这些长上下文法学硕士对于所接收的大量信息的理解和利用程度究竟有多高呢?
Google DeepMind的研究人员推出了Michelangelo,这是一项旨在评估 LLM 的长上下文推理能力的新基准。他们的研究结果发表在一篇新研究论文中,表明尽管当前的前沿模型在从大量上下文数据中检索信息方面取得了进展,但它们在需要对数据结构进行推理的任务上仍然举步维艰。
需要更好的长期背景基准
随着 LLM 上下文窗口极长(从 128,000 个到超过 100 万个标记)的出现,研究人员开始开发新的基准来评估其能力。然而,大部分的重点都放在检索任务上,例如流行的“大海捞针”评估,其中模型的任务是在大型上下文中查找特定信息。
“随着时间的推移,模型在长上下文中的表现越来越好,”谷歌 DeepMind 的研究科学家 Kiran Vodrahalli 告诉 VentureBeat。“例如,流行的大海捞针式检索评估现在已经饱和,可以处理极长的上下文长度。因此,确定模型在短上下文中能够解决的更难的任务是否也可以在长距离中解决变得很重要。”
检索任务并不一定能反映模型对整个上下文进行推理的能力。模型可能无需理解文本不同部分之间的关系就能找到特定事实。同时,现有的用于评估模型对长上下文进行推理的能力的基准也存在局限性。
Vodrahalli 说:“很容易开发出长推理评估,只需结合使用检索和存储在模型权重中的信息即可解决,从而‘短路’模型使用长上下文的能力的测试。”
米开朗基罗
为了解决当前基准的局限性,研究人员引入了 Michelangelo,一种“针对大型语言模型的最小、合成、未泄露的长上下文推理评估”。
米开朗基罗的基准测试基于雕塑家凿去不相关的大理石碎片以揭示底层结构的类比。该基准测试侧重于评估模型理解其上下文窗口内信息关系和结构的能力,而不是简单地检索孤立的事实。
该基准测试由三个核心任务组成:
潜在列表:模型必须处理对 Python 列表执行的一系列操作,过滤掉不相关或冗余的语句,并确定列表的最终状态。研究人员写道:“潜在列表衡量模型在代码指令流过程中跟踪潜在数据结构属性的能力。”
多轮共指解析 (MRCR):该模型必须生成用户与 LLM 之间长对话的部分内容。这要求模型理解对话的结构并解析对前几轮对话的引用,即使对话中包含令人困惑或分散注意力的元素。研究人员写道:“MRCR 衡量模型理解自然文本中顺序的能力,区分相似的写作草稿,以及在面对困难的查询时重现特定先前上下文的能力。”
“我不知道”(IDK):给模型一个长篇故事,并要求其回答有关该故事的多项选择题。对于某些问题,上下文不包含答案,模型必须能够认识到其知识的局限性,并用“我不知道”来回答。“IDK 衡量模型根据呈现的上下文理解它是否知道自己不知道什么的能力,”研究人员写道。
潜在结构查询
Michelangelo 中的任务基于一种名为潜在结构查询 (LSQ) 的新框架。LSQ 提供了一种设计长上下文推理评估的通用方法,可以将其扩展到任意长度。它还可以测试模型对隐含信息的理解,而不是检索简单事实。LSQ 依赖于合成测试数据,以避免测试数据泄漏到训练语料库中的陷阱。
研究人员写道:“通过要求模型从结构而不是从键中提取值(从大理石中提取雕塑而不是从大海捞针),我们可以更深入地测试语言模型对检索之外的上下文理解。”
LSQ 与其他评估长上下文 LLM 的方法有三个主要区别。首先,它经过明确设计,可避免超出检索任务的评估中的短路缺陷。其次,它指定了一种独立增加任务复杂性和上下文长度的方法。最后,它足够通用,可以涵盖大量推理任务。Michelangelo 中使用的三个测试涵盖了对松散文本的代码解释和推理。
Vodrahalli 说:“我们的目标是,通过遵循 LSQ 实施的长上下文超越推理评估将导致提出的评估简化为解决检索任务的情况减少。”
评估米开朗基罗的前沿模型
研究人员在 Michelangelo 上评估了十个前沿 LLM,包括 Gemini、GPT-4 和 4o以及 Claude 的不同变体。他们在多达 100 万个 token 的上下文中测试了这些模型。Gemini 模型在 MRCR 上表现最佳,GPT 模型在 Latent List 上表现出色,而Claude 3.5 Sonnet在 IDK 上取得了最高分。
然而,随着推理任务复杂性的增加,所有模型的性能都出现了显著下降,这表明即使上下文窗口非常长,当前的 LLM 在推理大量信息的能力方面仍有提升空间。
Vodrahalli 表示:“前沿模型在我们在 Michelangelo 中研究的所有检索外推理原语(潜在列表、MRCR、IDK)方面都有改进空间。”“不同的前沿模型有不同的优点和缺点——每个类别在不同的上下文范围和不同的任务上表现良好。所有模型似乎普遍存在的是,在长期推理任务上,性能最初会下降。”
Michelangelo 的评估抓住了长上下文推理所需的基本原语,其结果对企业应用具有重要意义。例如,在现实世界的应用中,模型不能依赖其预训练知识,必须在非常长的上下文中对许多不同的位置进行多跳推理,Vodrahalli 预计性能会随着上下文长度的增加而下降。
“如果文档中包含大量与当前任务无关的信息,情况尤其如此,这使得模型很难立即区分哪些信息相关,哪些不相关,”Vodrahalli 说。“如果回答问题的所有相关信息都位于文档中的一个一般位置,那么模型很可能会在这些任务上继续表现良好。”
研究人员将继续为 Michelangelo 添加更多评估,并希望直接提供这些评估,以便其他研究人员可以在其上测试他们的模型。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepmind-de-michelangelo-ji-zhun-ce-shi-jie-shi-le-zhang