DeepMind 的 Michelangelo 基准测试揭示了长上下文 LLM 的局限性

王浩然 • 2024年10月15日下午12:00 • AI前沿 • 125 views

具有超长上下文窗口的大型语言模型 (LLM)最近成为头条新闻。将数十万甚至数百万个标记塞入单个提示的能力为开发人员带来了许多可能性。

但是这些长上下文法学硕士对于所接收的大量信息的理解和利用程度究竟有多高呢？

Google DeepMind的研究人员推出了Michelangelo，这是一项旨在评估 LLM 的长上下文推理能力的新基准。他们的研究结果发表在一篇新研究论文中，表明尽管当前的前沿模型在从大量上下文数据中检索信息方面取得了进展，但它们在需要对数据结构进行推理的任务上仍然举步维艰。

需要更好的长期背景基准

随着 LLM 上下文窗口极长（从 128,000 个到超过 100 万个标记）的出现，研究人员开始开发新的基准来评估其能力。然而，大部分的重点都放在检索任务上，例如流行的“大海捞针”评估，其中模型的任务是在大型上下文中查找特定信息。

“随着时间的推移，模型在长上下文中的表现越来越好，”谷歌 DeepMind 的研究科学家 Kiran Vodrahalli 告诉 VentureBeat。“例如，流行的大海捞针式检索评估现在已经饱和，可以处理极长的上下文长度。因此，确定模型在短上下文中能够解决的更难的任务是否也可以在长距离中解决变得很重要。”

检索任务并不一定能反映模型对整个上下文进行推理的能力。模型可能无需理解文本不同部分之间的关系就能找到特定事实。同时，现有的用于评估模型对长上下文进行推理的能力的基准也存在局限性。

Vodrahalli 说：“很容易开发出长推理评估，只需结合使用检索和存储在模型权重中的信息即可解决，从而‘短路’模型使用长上下文的能力的测试。”

米开朗基罗

为了解决当前基准的局限性，研究人员引入了 Michelangelo，一种“针对大型语言模型的最小、合成、未泄露的长上下文推理评估”。

米开朗基罗的基准测试基于雕塑家凿去不相关的大理石碎片以揭示底层结构的类比。该基准测试侧重于评估模型理解其上下文窗口内信息关系和结构的能力，而不是简单地检索孤立的事实。

该基准测试由三个核心任务组成：

潜在列表：模型必须处理对 Python 列表执行的一系列操作，过滤掉不相关或冗余的语句，并确定列表的最终状态。研究人员写道：“潜在列表衡量模型在代码指令流过程中跟踪潜在数据结构属性的能力。”

多轮共指解析 (MRCR)：该模型必须生成用户与 LLM 之间长对话的部分内容。这要求模型理解对话的结构并解析对前几轮对话的引用，即使对话中包含令人困惑或分散注意力的元素。研究人员写道：“MRCR 衡量模型理解自然文本中顺序的能力，区分相似的写作草稿，以及在面对困难的查询时重现特定先前上下文的能力。”

“我不知道”（IDK）：给模型一个长篇故事，并要求其回答有关该故事的多项选择题。对于某些问题，上下文不包含答案，模型必须能够认识到其知识的局限性，并用“我不知道”来回答。“IDK 衡量模型根据呈现的上下文理解它是否知道自己不知道什么的能力，”研究人员写道。

潜在结构查询

Michelangelo 中的任务基于一种名为潜在结构查询 (LSQ) 的新框架。LSQ 提供了一种设计长上下文推理评估的通用方法，可以将其扩展到任意长度。它还可以测试模型对隐含信息的理解，而不是检索简单事实。LSQ 依赖于合成测试数据，以避免测试数据泄漏到训练语料库中的陷阱。

研究人员写道：“通过要求模型从结构而不是从键中提取值（从大理石中提取雕塑而不是从大海捞针），我们可以更深入地测试语言模型对检索之外的上下文理解。”

LSQ 与其他评估长上下文 LLM 的方法有三个主要区别。首先，它经过明确设计，可避免超出检索任务的评估中的短路缺陷。其次，它指定了一种独立增加任务复杂性和上下文长度的方法。最后，它足够通用，可以涵盖大量推理任务。Michelangelo 中使用的三个测试涵盖了对松散文本的代码解释和推理。

Vodrahalli 说：“我们的目标是，通过遵循 LSQ 实施的长上下文超越推理评估将导致提出的评估简化为解决检索任务的情况减少。”

评估米开朗基罗的前沿模型

研究人员在 Michelangelo 上评估了十个前沿 LLM，包括 Gemini、GPT-4 和 4o以及 Claude 的不同变体。他们在多达 100 万个 token 的上下文中测试了这些模型。Gemini 模型在 MRCR 上表现最佳，GPT 模型在 Latent List 上表现出色，而Claude 3.5 Sonnet在 IDK 上取得了最高分。

然而，随着推理任务复杂性的增加，所有模型的性能都出现了显著下降，这表明即使上下文窗口非常长，当前的 LLM 在推理大量信息的能力方面仍有提升空间。

Vodrahalli 表示：“前沿模型在我们在 Michelangelo 中研究的所有检索外推理原语（潜在列表、MRCR、IDK）方面都有改进空间。”“不同的前沿模型有不同的优点和缺点——每个类别在不同的上下文范围和不同的任务上表现良好。所有模型似乎普遍存在的是，在长期推理任务上，性能最初会下降。”

Michelangelo 的评估抓住了长上下文推理所需的基本原语，其结果对企业应用具有重要意义。例如，在现实世界的应用中，模型不能依赖其预训练知识，必须在非常长的上下文中对许多不同的位置进行多跳推理，Vodrahalli 预计性能会随着上下文长度的增加而下降。

“如果文档中包含大量与当前任务无关的信息，情况尤其如此，这使得模型很难立即区分哪些信息相关，哪些不相关，”Vodrahalli 说。“如果回答问题的所有相关信息都位于文档中的一个一般位置，那么模型很可能会在这些任务上继续表现良好。”

研究人员将继续为 Michelangelo 添加更多评估，并希望直接提供这些评估，以便其他研究人员可以在其上测试他们的模型。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepmind-de-michelangelo-ji-zhun-ce-shi-jie-shi-le-zhang

Like (0)

王浩然作者

0 0

呼吁人工智能平台适度引入拟人化

Previous 2024年10月15日

全新高质量 AI 视频生成器 Pyramid Flow 推出 — — 而且它是完全开源的！

Next 2024年10月15日

AI前沿

Apple Intelligence 功能还可以为你总结分手短信

当Nick Spreen安装 iOS 18.1 测试版以试用即将推出的 Apple Intelligence 功能时，他可能没想到会收到当时的女友发来的由 AI 生成的分手短信摘要…

王浩然
2024年10月12日
000
AI前沿

从 AI 代理到企业预算，20 家风险投资公司分享了他们对 2025 年企业技术的预测

尽管人工智能被一些人誉为工业革命以来最大的技术突破，但企业——可以说是该技术最大的潜在客户群——采用人工智能的速度却很慢。尽管一些投资者预测 2024 年将是企业开始采用更多 A…

王浩然
2024年12月31日
000
AI前沿

超越 RAG：缓存增强生成如何降低较小工作负载的延迟和复杂性

检索增强生成 (RAG) 已成为定制大型语言模型 (LLM) 以处理定制信息的实际方法。然而，RAG 需要前期技术成本，而且速度可能很慢。现在，得益于长上下文 LLM 的进步，企业…

王浩然
2025年1月18日
000
AI前沿

Google的Gemini 2.0 Flash：原生多模态AI图像生成引领快速编辑与风格转换潮流

Google近期推出的Gemini 2.0 Flash模型，以其原生多模态AI图像生成能力，在AI界掀起了新一轮的创新风暴。这款模型不仅将文本与图像生成功能融为一体，还实现了快速的…

王浩然
2025年3月17日
000
AI前沿

Agentic AI 可以帮助您在 2025 年找到一份新的软件工程工作

45% 的美国人担心自己的个人财务状况，最担心的是自己的财务未来，包括没有足够的钱退休（68%）、维持生活成本（56%）和控制债务水平（45%）。一份新的退休准备报告还发现，62…

王浩然
2025年1月8日
000
AI前沿

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

在OpenAI的“12 Days of Shipmas”活动的第 10 天，该公司决定采取一些复古的方式，推出一个电话号码，供人们拨打并与 ChatGPT 交谈。美国用户可以在任…

王浩然
2024年12月20日
000
AI前沿

全新主动式客户体验：生成式人工智能与客户服务的结合

生成式人工智能 (GenAI) 正在以前所未有的方式重塑客户互动。虽然它仍处于应用初期，但已经看到了可衡量的业务成果。根据麦肯锡的一项研究，到 2025 年，人工智能驱动的客户互动…

点点
2024年10月27日
000
AI前沿

微软严厉打击副驾驶人工智能的恶意使用

微软数字犯罪部门正在采取法律行动，打击那些创建恶意工具、逃避生成式人工智能服务的安全护栏和准则并创建有害内容的网络犯罪分子。根据弗吉尼亚州东区一份未密封的投诉，尽管该公司竭尽全力…

王浩然
2025年1月17日
000
AI前沿

谷歌推出全新 AI 视频生成器 Veo 2，观众评分高于 Sora

谷歌将推出其最新版本的视频生成模型 Veo 2，与OpenAI的 Sora展开正面交锋，据称，Veo 2可以制作出更加逼真的视频。该公司还更新了其图像生成模型 Imagen 3，…

王浩然
2024年12月19日
000
AI前沿

Pig API：为您的 AI 代理提供虚拟桌面以自动化 Windows 应用程序

在不断发展的人工智能领域，企业面临着将现代解决方案与传统系统集成的挑战，而这些系统往往缺乏无缝集成所需的应用程序编程接口 (API)。约 66%的组织继续依赖传统应用程序进行核心运…

王浩然
2025年2月4日
000
AI前沿

微软让开发人员更容易构建 AI 应用程序——这对 AWS 来说可能是个坏消息

微软周二公布了其人工智能工具的一项雄心勃勃的扩展，推出了适用于 Azure 的 GitHub Copilot和一套以开发人员为中心的功能，这些功能可能会从根本上改变人工智能时代的软…

王浩然
2024年11月1日
000
AI前沿

确保 OT 环境中 AI 的使用安全

随着拥有运营技术 (OT) 的组织开始采用 AI，安全性需要成为其战略的重中之重。AI 的集成大大拓宽了攻击面 — — 这一范围已经因 IT 和 OT 的融合而扩大。大多数 OT …

点点
2024年9月6日
000
AI前沿

苹果推出新 iOS 开发者测试版，可使用 AI 去除图片中的物体

苹果在其最新的 iOS 18.1、iPadOS 18.1 和 macOS 15.1 开发者测试版中添加了更多 AI 功能，这次我们可以从照片中删除物体。这项名为“清理”的功能可让…

王浩然
2024年8月31日
000
AI前沿

向分子世界的视频生成模型迈进

新系统从模拟中的单个帧开始，使用生成式人工智能模拟分子的动态，连接静态分子结构并将模糊的图片开发成视频。随着生成式人工智能模型能力的不断增强，您可能已经看到它们如何将简单的文本提…

王浩然
2025年1月27日
000
AI前沿

PTC、微软和大众汽车携手合作开发生成式人工智能

PTC 已确认正在与微软和大众汽车集团合作开发用于实体产品软件开发的生成式 AI产品。 Codebeamer Copilot 基于 PTC 的 Codebeamer 应…

王浩然
2024年12月25日
000
AI前沿

微软的 GRIN-MoE AI 模型采用编码和数学，在关键基准测试中击败竞争对手

微软推出了一种突破性的人工智能模型GRIN-MoE（梯度知情混合专家模型），旨在提高编码和数学等复杂任务的可扩展性和性能。该模型有望通过一次选择性地激活一小部分参数来重塑企业应用程…

王浩然
2024年9月22日
000
AI前沿

保卫陷入困境的 SOC：抵御对抗性 AI 攻击

77%的企业已成为对抗性 AI 攻击的受害者，而电子犯罪分子的突破时间仅用了2 分 7 秒，创下了历史记录。问题不在于您的安全运营中心 (SOC) 是否会成为攻击目标，而是何时成为…

王浩然
2024年12月10日
000
AI前沿

Adobe 如何保护艺术家免受 AI 滥用

近年来，生成式人工智能在创造逼真的视觉效果、模仿艺术风格和创造全新表达形式方面的能力日益增强，重新定义了艺术的创作和体验方式。虽然这种转变为创意行业的创新和生产力提供了巨大的机会，…

点点
2024年10月16日
000
AI前沿

Gemini 2.0 Flash 开启实时多模态 AI 新时代

谷歌本周发布了Gemini 2.0 Flash ，为用户提供了一种与周围环境视频进行实时互动的方式，这为企业和消费者使用技术方式的重大转变奠定了基础。此次发布以及 OpenAI、…

王浩然
2024年12月17日
000
AI前沿

Brookfield 承诺投资 200 亿美元，法国 AI 生态系统投资额达 850 亿美元

据法新社证实，加拿大投资公司 Brookfield 计划到 2030 年向法国人工智能项目投资 200 亿欧元（按当前汇率计算约为 207 亿美元）。这笔资金的大部分将用于建设以人…

王浩然
2025年2月10日
000