DeepMind的米开朗基罗基准：揭示长上下文LLMs的局限性

点点 • 2024年10月18日上午11:00 • AI前沿 • 146 views

随着人工智能 (AI) 的不断发展，处理和理解长序列信息的能力变得越来越重要。人工智能系统现在用于执行复杂的任务，例如分析长文档、跟上长时间的对话以及处理大量数据。然而，许多当前模型在长上下文推理方面存在困难。随着输入越来越长，它们通常会丢失重要细节，导致结果不太准确或连贯。

这一问题在医疗保健、法律服务和金融行业尤其严重，因为这些行业的 AI 工具必须处理详细的文档或冗长的讨论，同时提供准确的、上下文感知的响应。一个常见的挑战是上下文漂移，即模型在处理新输入时会忽略先前的信息，从而导致结果相关性降低。

为了解决这些限制，DeepMind 开发了米开朗基罗基准。该工具严格测试 AI 模型管理长上下文推理的能力。受艺术家米开朗基罗（以从大理石块中揭示复杂雕塑而闻名）的启发，该基准有助于发现 AI 模型从大型数据集中提取有意义模式的能力。通过识别当前模型的不足之处，米开朗基罗基准将为未来 AI 在长上下文推理能力方面的改进提供参考。

理解人工智能中的长上下文推理

长上下文推理是指 AI 模型在处理长文本、代码或对话序列时保持连贯性和准确性的能力。GPT-4 和 PaLM-2 等模型在处理短或中等长度的输入时表现良好。但是，它们需要处理较长的上下文。随着输入长度的增加，这些模型通常会丢失早期部分的重要细节。这会导致理解、总结或决策时出现错误。此问题称为上下文窗口限制。随着上下文变长，模型保留和处理信息的能力会下降。

这个问题在实际应用中非常重要。例如，在法律服务领域，AI 模型会分析长达数百页的合同、案例研究或法规。如果这些模型无法有效地保留和推理如此长的文件，它们可能会遗漏重要条款或误解法律术语。这可能会导致不准确的建议或分析。在医疗保健领域，AI 系统需要综合数年甚至数十年的患者记录、病史和治疗计划。如果模型无法准确地回忆起早期记录中的关键信息，它可能会推荐不适当的治疗方法或误诊患者。

尽管人们已经努力改进模型的标记限制（例如 GPT-4 最多可以处理32,000 个标记，约 50 页文本），但长上下文推理仍然是一个挑战。上下文窗口问题限制了模型可以处理的输入量，并影响了其在整个输入序列中保持准确理解的能力。这会导致上下文漂移，即随着新信息的引入，模型逐渐忘记早期的细节。这降低了其生成连贯且相关输出的能力。

米开朗基罗基准：概念和方法

米开朗基罗基准测试通过测试 LLM 在需要它们保留和处理扩展序列信息的任务上的表现来解决长上下文推理的挑战。与早期的基准测试不同，早期的基准测试侧重于短上下文任务，例如句子完成或基本问答，而米开朗基罗基准测试则侧重于挑战模型在长数据序列中进行推理的任务，这些任务通常包括干扰或不相关的信息。

米开朗基罗基准测试使用潜在结构查询 (LSQ) 框架来挑战 AI 模型。此方法要求模型在大型数据集中找到有意义的模式，同时过滤掉不相关的信息，类似于人类筛选复杂数据以专注于重要信息的方式。基准测试主要关注两个领域：自然语言和代码，引入了不仅仅是数据检索的测试任务。

一项重要任务是潜在列表任务。在此任务中，模型将获得一系列 Python 列表操作，例如附加、删除或排序元素，然后它需要生成正确的最终列表。为了增加难度，任务包括不相关的操作，例如反转列表或取消先前的步骤。这测试了模型专注于关键操作的能力，模拟了 AI 系统必须如何处理具有混合相关性的大型数据集。

另一项关键任务是多轮共指解析 (MRCR)。此任务衡量模型在主题重叠或不清楚的长对话中跟踪引用的能力。模型面临的挑战是将对话后期的引用与早期要点联系起来，即使这些引用隐藏在无关的细节之下。此任务反映了现实世界中的讨论，其中主题经常发生变化，AI 必须准确跟踪和解析引用以保持连贯的沟通。

此外，Michelangelo 还提供了 IDK 任务，该任务测试模型识别何时没有足够的信息来回答问题的能力。在此任务中，向模型呈现可能不包含相关信息来回答特定查询的文本。挑战在于模型要识别正确答案是“我不知道”的情况，而不是提供合理但不正确的答案。这项任务反映了 AI 可靠性的一个关键方面——识别不确定性。

通过此类任务，Michelangelo 超越了简单的检索，测试了模型推理、综合和管理长上下文输入的能力。它为长上下文推理引入了一个可扩展、综合且无泄漏的基准，从而更精确地衡量了 LLM 的当前状态和未来潜力。

对人工智能研究和开发的影响

米开朗基罗基准测试的结果对于我们如何开发人工智能具有重要意义。基准测试表明，当前的 LLM 需要更好的架构，尤其是在注意力机制和记忆系统方面。目前，大多数 LLM 都依赖于自我注意力机制。这些机制对于短期任务很有效，但当上下文变得更大时就会变得困难。这就是我们看到的上下文漂移问题，模型会忘记或混淆早期的细节。为了解决这个问题，研究人员正在探索记忆增强模型。这些模型可以存储对话或文档早期部分的重要信息，让人工智能在需要时回忆和使用这些信息。

另一种有前途的方法是分层处理。这种方法使人工智能能够将长输入分解为更小、更易于管理的部分，这有助于它在每个步骤中专注于最相关的细节。这样，模型就可以更好地处理复杂的任务，而不会被太多的信息淹没。

改进长上下文推理将产生重大影响。在医疗保健领域，这可能意味着更好地分析患者记录，其中人工智能可以跟踪患者的长期病史并提供更准确的治疗建议。在法律服务领域，这些进步可能导致人工智能系统能够更准确地分析长期合同或判例法，为律师和法律专业人士提供更可靠的见解。

然而，这些进步也带来了严重的道德问题。随着人工智能在长期记忆和推理方面的能力越来越强，敏感或私人信息也存在泄露的风险。这对医疗保健和客户服务等保密性至关重要的行业来说是一个真正的问题。

如果人工智能模型保留了太多来自之前互动的信息，它们可能会在未来的对话中无意中泄露个人信息。此外，随着人工智能越来越擅长生成令人信服的长篇内容，它有可能被用来制造更高级的虚假信息或造谣，这进一步加剧了人工智能监管面临的挑战。

底线

米开朗基罗基准揭示了人工智能模型如何管理复杂的长上下文任务，突出了它们的优势和局限性。随着人工智能的发展，这一基准推动了创新，鼓励更好的模型架构和改进的记忆系统。医疗保健和法律服务等行业的转型潜力令人兴奋，但也伴随着道德责任。

随着人工智能越来越擅长处理大量信息，隐私、错误信息和公平问题必须得到解决。人工智能的发展必须继续以深思熟虑和负责任的方式造福社会。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/deepmind-de-mi-kai-lang-ji-luo-ji-zhun-jie-shi-zhang-shang

AI AI 模型 GPT-4 LLM 人工智能米开朗基罗基准

Like (0)

点点

0 0

人工智能治理差距：95% 的公司尚未实施框架

Previous 2024年10月18日

Babak Hodjat，Cognizant 人工智能首席技术官 – 访谈系列

Next 2024年10月18日

AI前沿

Runway 拨款 500 万美元资助多达 100 部使用 AI 生成视频的电影

AI 视频生成器需要相信电影制作者会在制作过程中使用他们的模型。否则它为何存在？为了启动新的 AI 电影生态系统，Runway拨出 500 万美元现金和更多服务积分，用于资助多达…

王浩然
2024年9月27日
000
AI前沿

Experity 远程放射学首席医疗官 Ron Boucher 博士 – 访谈系列

Ron Boucher 博士担任Experity的远程放射学首席医疗官，Experity 是一家专注于美国紧急护理市场的软件和服务公司。 Experity 提供集成操作系统，包括电…

点点
2024年10月27日
000
AI前沿

Vision Pro将在4月融入苹果智能技术

自2021年11月1日起，Yahoo服务在中国大陆地区已无法访问，但这并不妨碍我们关注全球科技领域的最新动态。近日，有消息称，苹果公司的Vision Pro将在4月迎来一次重大更新…

王浩然
2025年2月25日
000
AI前沿

Google Gemini 意外超越 OpenAI 跃居第一，但基准测试并不能说明全部情况

谷歌凭借其最新实验模型在一项关键的人工智能基准测试中名列前茅，标志着人工智能竞赛发生重大转变——但业内专家警告称，传统的测试方法可能不再有效衡量真正的人工智能能力。该模型名为“ …

王浩然
2024年11月19日
000
AI前沿

谷歌宣布重组以加速人工智能计划

谷歌首席执行官桑达尔·皮查伊宣布了一系列结构性变革和领导层任命，旨在加速公司的人工智能计划。此次重组后，由 Sissie Hsiao 领导的 Gemini 应用团队将加入由 De…

点点
2024年10月21日
000
AI前沿

Patlytics获得1400万美元A轮融资，推动专利分析平台发展

Patlytics，一家领先的专利分析平台提供商，近日宣布成功完成1400万美元的A轮融资。这笔资金将主要用于加速平台的技术研发、市场拓展及团队扩张，从而进一步提升Patlytic…

王浩然
2025年2月27日
000
AI前沿

Lapsi 正在重新启动听诊器作为健康跟踪数据平台

医疗技术消费化正在继续：总部位于阿姆斯特丹的初创公司Lapsi Health刚刚获得 FDA 对其首款临床支持工具——数字听诊器的批准。美国医疗器械监管机构食品药品管理局已将其列为…

王浩然
2024年10月1日
000
AI前沿

利用人工智能威胁建模构建弹性：来自评级公司的经验教训

金融服务公司正在抵御日益复杂的基于身份的攻击，这些攻击旨在窃取数十亿美元并破坏交易，最终摧毁多年来建立起来的信任。网络犯罪分子不断磨练他们的手艺，瞄准该行业在身份安全方面的漏洞。…

王浩然
2025年1月16日
000
AI前沿

OpenAI发布迄今最大AI模型GPT 4.5 Orion‌

全球领先的AI研究机构OpenAI，近日正式揭晓了其最新的研究成果——GPT 4.5 Orion。这款AI模型代表了OpenAI在人工智能领域的又一重大突破，是迄今为止规模最大、能…

王浩然
2025年3月2日
000
AI前沿

DeepSeek宣称其理论利润率可高达545%‌

DeepSeek，一家专注于数据分析和人工智能技术的创新企业，近日公布了一项重大技术进展。该公司声称，其最新的解决方案能够实现高达545%的理论利润率，这一惊人数字在行业内引起了广…

王浩然
2025年3月3日
000
AI前沿

Bluesky 的开放 API 意味着任何人都可以抓取你的数据用于 AI 训练

Bluesky 可能不会像其他社交网络那样根据用户内容训练 AI 系统，但几乎没有什么可以阻止第三方这样做。据404 Media 报道，人工智能公司。Hugging Face 的…

王浩然
2024年11月28日
000
AI前沿

人工智能可以帮助 NetOps 完成的 5 项网络任务以及人工智能无法完成的 5 项网络任务

随着网络基础设施的复杂性和规模持续呈指数级增长，当今的数字环境正在迅速发展。这种激增使得有效管理网络变得比以往任何时候都更具挑战性。虽然有各种各样的工具可以帮助 NetOps 团队…

点点
2024年9月27日
000
AI前沿

谷歌将于今年晚些时候开始在搜索中标记人工智能生成的图像

谷歌表示，它计划对谷歌搜索进行改进，以更清楚地显示搜索结果中的哪些图像是由人工智能生成的，或者由人工智能工具编辑的。在接下来的几个月里，谷歌将开始在搜索、Google Lens和…

王浩然
2024年9月19日
000
AI前沿

数据中心技术正在蓬勃发展，但对于初创企业来说采用并不容易

数据中心行业正在迅速扩张，以跟上人工智能飞轮式增长的步伐。虽然这些数据中心是人工智能基础设施的必需品，但它们存储着人工智能公司的计算能力，建造成本高昂，运行成本似乎更高，而且耗能巨…

王浩然
2024年10月14日
000
AI前沿

扩展 AI：平台最佳实践

企业现在投入大量资金来构建和不断发展世界一流的企业平台，使 AI 用例能够随着时间的推移而构建、部署、扩展和发展。许多公司历来都采用联合方式构建平台，以构建功能和特性来支持其业务各…

王浩然
2024年12月12日
000
AI前沿

Stability AI 发布迄今为止最强大的图像生成模型

Stability AI宣布发布Stable Diffusion 3.5，标志着开源AI图像生成模型的一次飞跃。 Stability AI 的最新模型包括多种变体，旨在满足从业余爱…

点点
2024年10月24日
000
AI前沿

据报道，前 OpenAI 首席技术官 Mira Murati 正在为一家新的 AI 初创公司筹集资金

据路透社报道，上个月宣布离职的OpenAI 首席技术官米拉·穆拉蒂 (Mira Murati)正在为一家新的人工智能初创公司筹集风险投资资金。据报道，这家初创公司将专注于构建基于…

王浩然
2024年10月20日
000
AI前沿

超级碗 LIX 网络安全策略：NFL 的 CISO 如何应对 AI 威胁和数字攻击

保护超级碗 LIX 和所有备受瞩目的国家橄榄球联盟 (NFL) 赛事免受可能包括武器化 AI、端点攻击、深度伪造和精细的社会工程技能在内的对抗性攻击，需要经验丰富、久经考验的能力和…

王浩然
2025年1月30日
000
AI前沿

消费者报告揭示：热门语音克隆工具缺乏安全保障‌

近日，一份消费者报告揭示了当前市场上热门语音克隆工具存在的安全隐患。这些工具虽然为用户提供了便捷的语音复制功能，但在安全保障方面却存在显著不足。报告中指出，多款主流语音克隆工具在…

王浩然
2025年3月12日
000
AI前沿

沃尔玛和亚马逊利用人工智能推动零售转型

沃尔玛和亚马逊正在利用人工智能推动零售转型，带来全新的消费者体验并提高运营效率。据分析公司GlobalData称，沃尔玛正专注于增强现实和人工智能增强型商店管理。与此同时，亚马逊…

点点
2024年9月17日
000