【EAGLE揭秘】多模态大型语言模型，探索编码器设计新境界

AI评测师 • 2024年9月11日下午4:00 • 技术评测 • 225 views

准确解释复杂视觉信息的能力是多模态大型语言模型 (MLLM) 的关键重点。最近的研究表明，增强的视觉感知可显著减少幻觉并提高分辨率敏感任务（例如光学字符识别和文档分析）的性能。最近的几种 MLLM 通过利用视觉编码器的混合来实现这一点。尽管它们取得了成功，但缺乏系统的比较和详细的消融研究来解决关键方面，例如专家选择和多位视觉专家的整合。本文对使用视觉编码器和分辨率的混合的 MLLM 的设计空间进行了广泛的探索，Eagle 框架试图探索使用编码器混合的多模态大型语言模型的设计空间。研究结果揭示了各种现有策略共同的几个基本原则，从而导致了一种简化而有效的设计方法。Eagle 发现，简单地将一组互补视觉编码器中的视觉标记连接起来与更复杂的混合架构或策略一样有效。此外，Eagle 引入了预对齐来弥合以视觉为中心的编码器和语言标记之间的差距，从而增强了模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。

Eagle 的工作与多模态大型语言模型 (MLLM) 的总体架构设计有关。除了前面提到的代表性开源研究之外，其他值得注意的 MLLM 系列包括但不限于 MiniGPT-4、Lynx、Otter、QwenVL、CogVLM、VILA、GPT-4V、Gemini 和 Llama 3.1。根据视觉信号如何集成到语言模型中，MLLM 可以大致分为“跨模态注意”模型和“前缀调整”模型。前者使用跨模态注意将视觉信息注入 LLM 的不同层，而后者将视觉标记视为语言标记序列的一部分并直接将其附加到文本嵌入中。Eagle 的模型属于前缀调整系列，遵循 LLaVA 风格的多模态架构。考虑到 MLLM 是一个快速发展的领域，Eagle 建议参考更详细的研究和调查以获得进一步的见解。

Eagle 的工作与专注于改进 MLLM 的视觉编码器设计的研究密切相关。早期的工作通常采用在视觉语言对齐任务上预先训练的视觉编码器，例如 CLIP 和 EVA-CLIP。更强大的视觉编码器（例如 SigLIP 和 InternVL）已被提出，以通过更好的设计、更大的模型尺寸和更有效的训练配方来增强视觉语言任务。由于模型通常在低分辨率图像上进行预先训练，并且可能缺乏编码细粒度细节的能力，因此经常执行更高分辨率的自适应以提高 MLLM 输入分辨率。除了更高分辨率的自适应之外，LLaVA-NeXT、LLaVA-UHD、Monkey、InternLM-XComposer 和 InternVL 等模型使用平铺或自适应平铺来处理高分辨率输入，其中图像被分成较低分辨率的块并单独处理。虽然通过引入额外的视觉专家可以处理更高分辨率，但这种方法与平铺技术略有不同，尽管两者都兼容并且可以结合使用。

EAGLE：使用混合编码器探索多模态 LLM 的设计空间

大型语言模型 (LLM) 的成功引发了人们对实现其视觉感知能力的极大兴趣，使它们能够在现实世界中观察、理解和推理。这些多模态大型语言模型(MLLM) 的核心是一种典型的设计，其中图像由视觉编码器转换为一系列视觉标记并附加文本嵌入。CLIP 通常被选为视觉编码器，因为它的视觉表示通过对图像-文本对进行预训练与文本空间对齐。根据架构、训练配方和将视觉标记注入语言模型的方式，著名的 MLLM 系列包括 Flamingo、BLIP、PaLI、PaLM-E 和 LLaVA。由于预训练视觉编码器和 LLM 序列长度的限制，大多数这些模型都保持相对较低的输入分辨率。Eagle 的工作与使用多个视觉编码器来改善感知的模型密切相关。Mini-Gemini 和 LLaVA-HR 建议将高分辨率视觉特征融合到低分辨率视觉标记中。除了分辨率问题之外，这些预训练的视觉编码器可能缺乏特定功能，例如读取文本或定位物体。为了解决这个问题，各种模型集成了针对不同视觉任务进行预训练的视觉编码器，以增强视觉编码器的功能。

例如，Mousi 和 Brave 等模型通过沿通道或标记方向连接来融合来自不同视觉编码器的视觉标记。RADIO 引入了多教师蒸馏方法，将不同视觉编码器的能力统一到单个模型中。MoAI、IVE 和 Prismer 进一步使用视觉专家的输出（例如 OCR、检测或深度估计）来补充 MLLM 生成答案的附加信息。MoVA 设计了一个路由网络，根据给定的图像和指令分配最佳视觉模型。

最近的研究表明，更强大的视觉编码器设计对于减少MLLM 幻觉和提高光学字符识别 (OCR) 等分辨率敏感任务的性能非常重要。一些研究侧重于增强视觉编码器的能力，要么通过扩大预训练数据和参数，要么通过将图像划分为低分辨率块。然而，这些方法通常会带来大量的训练资源需求。一种高效而强大的策略是混合使用不同任务和输入分辨率进行预训练的视觉编码器，要么通过将更高分辨率的编码器与 CLIP 编码器融合，依次附加来自不同编码器的特征，要么采用更复杂的融合和路由策略来最大限度地发挥不同编码器的优势。这种“视觉专家混合”方法已被证明是有效的，尽管对其设计空间的详细研究和严格的消融仍然缺乏，这促使 Eagle 重新审视这一领域。关键问题仍然存在：选择哪种视觉编码器组合，如何融合不同的专家，以及如何使用更多视觉编码器调整训练策略。

为了解决这些问题，Eagle 系统地研究了混合视觉编码器设计空间，以改进 MLLM 感知。该设计空间的探索涉及以下步骤：1) 对各种视觉编码器进行基准测试并寻找更高分辨率的适应性；2) 对视觉编码器融合策略进行“同类”比较；3) 逐步确定多个视觉编码器的最佳组合；4) 改进视觉专家预对齐和数据混合。探索步骤如下图所示。

Eagle 的研究涵盖了针对不同任务和分辨率进行预训练的视觉编码器的性能，例如视觉语言对齐、自监督学习、检测、分割和 OCR。Eagle 采用循环方法，从基本的 CLIP 编码器开始，每次添加一位专家，选择在每一轮中提供最佳改进的专家。

虽然 Eagle 的研究并不是第一个在 MLLM 中利用多个视觉编码器的研究，但这项系统研究在此环境下得出了几个关键发现：

在 MLLM 训练期间解锁视觉编码器很重要。这与 LLaVA 等考虑多个视觉编码器或教师的模型形成对比，在这些模型中，冻结视觉编码器是一种常见的做法。
一些最近提出的融合策略并没有表现出明显的优势。相反，直接通道连接作为一种简单但有竞争力的融合策略脱颖而出，提供了最佳的效率和性能。
吸纳更多视觉专家可带来持续的收益。除了扩大单个编码器的规模外，这使其成为系统地增强 MLLM 感知的一条有希望的途径。当视觉编码器解锁时，改进尤其明显。
预对齐阶段是关键。Eagle引入了预对齐阶段，其中非文本对齐的视觉专家使用冻结的 LLM 进行单独微调，然后再一起进行训练。此阶段显著提高了混合视觉编码器设计下的 MLLM 性能。

Eagle：方法论和架构

与之前专注于视觉编码器之间的新融合策略或架构的方法不同，Eagle 的目标是确定一种极简设计来融合不同的视觉编码器，并通过详细的消融和移除任何不必要的组件来支持。如下图所示，Eagle 首先将基本 CLIP 编码器扩展为一组具有不同架构、预训练任务和分辨率的视觉专家。然后，Eagle 会利用这些专家比较不同的融合架构和方法，并探索如何使用多个编码器优化预训练策略。

最后，Eagle 将所有发现结合起来，并将该方法扩展到具有不同分辨率和领域知识的多个专家视觉编码器。使用与 LLaVA-1.5 相同的预训练数据（包含 595k 个图像-文本对），Eagle 进入监督微调阶段，通过从一系列任务中收集数据并将其转换为多模态对话，包括 LLaVA-1.5、Laion-GPT4V、ShareGPT-4V、DocVQA、synDog-EN、ChartQA、DVQA 和 AI2D，产生 934k 个样本。

该模型首先使用图像-文本对进行预训练，训练一个时期，批处理大小为 256，其中整个模型处于冻结状态，并且仅更新投影层。在第二阶段，该模型在监督微调数据上进行微调，训练一个时期，批处理大小为 128。对于本次探索，Eagle 采用 Vicuna-7B 作为底层语言模型。第一阶段的学习率设置为 1e-3，第二阶段的学习率设置为 2e-5。

更强大的 CLIP 编码器

Eagle 从 CLIP模型开始探索，因为它已成为许多MLLM的首选。虽然 CLIP 模型可以增强多模态任务，但它们的局限性也已得到充分证实。例如，许多现有的 MLLM 倾向于使用预先训练的 CLIP 分辨率（例如 224 × 224 或 336 × 336）作为输入分辨率。在这些情况下，编码器通常难以捕捉对分辨率敏感的任务（如 OCR 和文档理解）至关重要的细粒度细节。

为了处理更高的输入分辨率，一种常见的方法是平铺，即将输入图像分成多个图块并单独编码。另一种更简单的方法是直接扩大输入分辨率，并在必要时插入视觉变换器模型的位置嵌入。Eagle 将这两种方法与不同分辨率的冻结和非冻结视觉编码器进行了比较，结果包含在上表中。研究结果可以总结如下：

解冻 CLIP 编码器在插值到不同于 CLIP 预训练分辨率的更高 MLLM 输入分辨率时会带来显著的改善，而当分辨率保持不变时性能不会下降。
冻结 CLIP 编码器并直接使其适应更高的 MLLM 输入分辨率会严重损害性能。
在所比较的策略中，使用未冻结的 CLIP 编码器直接插值到 448 × 448 在性能和成本方面被证明是有效且高效的。
尽管最佳 CLIP 编码器的模型规模小得多（300M 对 6B），且预训练数据较少，但它的性能仍接近 InternVL。

值得注意的是，CLIP-448 允许 Eagle 将设置与 LLaVA-HR 和 InternVL 相匹配，其中 CLIP 编码器同样适用于采用 448 × 448 输入并输出 1024 个 patch token。为了进一步研究，Eagle 遵循了这一简单策略，即在训练期间扩大输入分辨率并解锁视觉编码器。

Eagle 观察到，现有的流行融合策略尽管设计各异，但大致可以分为以下几类：

序列附加：直接将来自不同主干的视觉标记附加为更长的序列。
通道连接：沿通道维度连接视觉标记而不增加序列长度。
LLaVA-HR ：使用混合分辨率适配器将高分辨率特征注入低分辨率视觉编码器。
Mini-Gemini ：使用 CLIP 标记作为低分辨率查询来交叉关注位于同地本地窗口中的另一个高分辨率视觉编码器。
可变形注意力：在 Mini-Gemini 之上引入的新基线，其中原始窗口注意力被可变形注意力所取代。

我们并没有像 LLaVA 最初的预训练策略那样训练投影仪来同时对齐多个视觉专家，而是首先使用下一个标记预测监督将每个专家的表示与较小的语言模型（实践中为 Vicuna-7B）对齐。如下图所示，通过预对齐，整个训练过程包括三个步骤：1）在 SFT 数据上使用他们自己的投影仪训练每个预训练的视觉专家，同时保持语言模型不变；2）将第一步中的所有视觉专家结合起来，并使用图像文本对数据仅训练投影仪；3）在 SFT 数据上训练整个模型。

鹰：实验与结果

Eagle 在精心制定策略后，为该模型制定了以下原则：（1）整合更多视觉专家，并采用优化的训练方案；（2）通过直接通道连接将多个视觉专家组合在一起；（3）通过预对齐分别对视觉专家进行预训练。在本节中，为了进一步展示 Eagle 模型的优势，我们将加入额外的训练数据，并将 Eagle 与当前最先进的 MLLM 在各种任务中进行比较。Eagle 使用 Vicuna-v1.5-7B、Llama3-8B 和 Vicuna-v1.5-13B 作为语言模型。对于视觉编码器，根据第 2.6 节中的结果，Eagle 模型表示为 Eagle-X4，其中包括四个视觉编码器：CLIP、ConvNeXt、Pix2Struct 和 EVA-02，以及 Eagle-X5，其中包括一个额外的 SAM 视觉编码器。

视觉问答任务

Eagle 在三个视觉问答 (VQA) 基准（包括 GQA、VQAv2 和 VizWiz）上比较了该模型系列。如下表所示，Eagle-X5 在 GQA 和 VQAv2 上实现了最佳性能，凸显了加入更多视觉专家的优势。

OCR 和图表理解任务

为了评估 Eagle 的 OCR、文档和图表理解能力，我们在 OCRBench、TextVQA 和 ChartQA 上对该模型进行了基准测试。如上表所示，得益于 Eagle 的高分辨率架构和不同视觉编码器的集成，Eagle 在 TextVQA 上的表现明显优于竞争对手。值得注意的是，Eagle 保持了简单的设计，最多支持 1024 个 token，而无需对图像进行复杂的图块分解。

下图为OCR与文档理解的案例，通过高分辨率适配，以及更多视觉专家的加入，Eagle可以识别图片中的细小文字，并根据用户的指令精准提取信息。

为了更好地理解引入在其他视觉任务上经过预训练的专家的好处，下图直观地展示了仅使用 ConvNeXt 和 CLIP 视觉编码器的模型的结果，并与 Eagle-X5 的结果进行了比较。借助全套视觉编码器，该模型成功纠正了错误，这表明即使配备了在视觉语言对齐上经过预训练的高分辨率视觉编码器，通过集成在其他视觉任务上经过预训练的视觉专家，Eagle 的功能也会得到进一步增强。

多模态基准评估

Eagle 在七个 MLLM 基准上进行评估，以从不同角度展示其功能，包括 MME、MMBench、SEED、MathVista、MMMU、ScienceQA 和 POPE。具体来说，MME、MMBench 和 SEED 评估涉及推理、识别、知识和 OCR 的各种实际任务的整体性能。MMMU 专注于需要大学水平知识的不同领域的挑战性问题。POPE 评估 MLLM 的视觉幻觉。此评估中使用的指标遵循这些基准的默认设置。Eagle 报告 MME 的感知分数、MMBench 的 en_dev 分割、SEED 的图像分割、MathVista 的测试迷你分割、MMMU 的 val 分割、POPE 的 F1 分数和 ScienceQA 的图像分数，确保与其他模型报告的分数保持一致。

最后的想法

在本文中，我们讨论了 Eagle，这是对将视觉编码器集成到多模态大型语言模型中的设计空间的深入分析。与之前专注于设计新颖的融合范式的作品不同，Eagle 发现系统性的设计选择很重要，并发现了一系列有用的技术。Eagle 一步步优化了单个视觉编码器的训练配方，确定了一种可扩展且高效的融合方法，并逐渐将视觉编码器与不同的领域知识结合起来。结果强调了基本设计空间考虑的重要性。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/eagle-jie-mi-duo-mo-tai-da-xing-yu-yan-mo-xing-tan-suo-bian

Like (0)

AI评测师作者

0 0

【2024 CX报告】AI成客户体验王牌，成本却让人意外！

Previous 2024年9月11日下午3:00

NaNoWriMo 拒绝谴责人工智能写作工具，引发争议

Next 2024年9月11日下午5:00

技术评测

PromeAI 评测：将简单的草图变成令人惊叹的图像

作为一名创意专业人士，您是否曾盯着一张草图，了解它的潜力，却又害怕花费数小时将其打磨成精美的设计？您并不孤单！许多设计师都在努力平衡产品设计中的系统方法和创造力，尤其是在初创环境中…

AI评测师
2024年9月14日
000
技术评测

10 款最佳 AI 表单生成器

高效的数据收集和用户参与对于企业和组织至关重要。人工智能 (AI) 颠覆了表单创建流程，提供了创新的解决方案，简化了创建过程，增强了用户体验，并提供了有价值的见解。

AI评测师
2024年8月27日
000
技术评测

10 款最佳 AI 健身工具（2024 年 9 月）

人工智能正在通过提供触手可及的个性化锻炼体验，彻底改变健身行业。人工智能驱动的锻炼应用和工具对于各个级别的健身爱好者来说都变得不可或缺，它们提供量身定制的训练计划、实时反馈和随着您…

AI评测师
2024年9月27日
000
技术评测

Vidyo AI 评论：将 1 小时的视频制作成 22 个热门短片

您是否曾发现自己被长达数小时的视频片段所淹没，希望能够弹指一挥就将其变成引人入胜的社交媒体剪辑？如果您曾经面临将长视频剪辑成简短、引人入胜的内容这一艰巨任务，那么您并不孤单。这个…

王浩然
2024年8月22日
000
技术评测

苹果可能会在 2 月 11 日发布新款 iPhone SE 和 PowerBeats Pro 2

据彭博社报道，苹果最早可能在 2 月 11 日推出新款iPhone SE和PowerBeats Pro耳机。鉴于该公司尚未发出线下或线上活动的邀请，此次发布会的规模可能较小。新款…

王浩然
2025年2月10日
000
技术评测

微软终于让 Copilot+ 笔记本电脑可用于人工智能

微软的 Copilot+ PC 计划大获成功，其中许多都跻身最佳笔记本电脑之列，但并非因为其内置的 AI 硬件。现在，微软终于将 Copilot+ PC 中的神经处理单元 (NPU…

王浩然
2024年10月4日
000
技术评测

Sonar 推出 AI 代码保证和 AI CodeFix：提高 AI 生成代码的安全性和生产力

在人工智能辅助软件开发领域，确保人工智能生成的代码的质量和安全性比以往任何时候都更加重要。Sonar是 Clean Code 解决方案的全球领导者，推出了两款新工具——AI Cod…

AI评测师
2024年10月4日
000
技术评测

Nvidia 刚刚发布了一款开源 LLM，与 GPT-4 竞争

Nvidia 是人工智能行业最抢手的 GPU制造商之一，该公司宣布已发布一个开源大型语言模型，据报道其性能可与OpenAI、Anthropic、Meta和谷歌等领先的专有模型相媲美…

点点
2024年10月4日
000
技术评测

Raspberry Pi 推出用于基于视觉的 AI 应用的相机模块

Raspberry Pi是一家销售微型廉价单板计算机的公司，它正在发布一款附加组件，该组件将开辟多种使用场景——没错，因为现在是 2024 年，所以它有 AI 角度。这款图像传感器…

王浩然
2024年10月2日
000
技术评测

Python 中的异步 LLM API 调用：综合指南

作为开发人员和数据科学家，我们经常需要通过 API 与这些强大的模型进行交互。然而，随着我们的应用程序的复杂性和规模不断增长，对高效且高性能的 API 交互的需求变得至关重要。这就…

AI评测师
2024年9月4日
000
技术评测

微软更安全的 Windows Recall 功能也可被用户卸载

为了回应安全问题，微软详细介绍了如何彻底改造其备受争议的人工智能 Recall 功能，该功能可以截取您在计算机上看到或执行的几乎所有操作的屏幕截图。Recall 最初应该在 6 月…

王浩然
2024年9月30日
000
技术评测

这款 AI 音乐生成器好得吓人

每位音乐家都曾面临过这些令人沮丧的时刻：在创作中浪费了无数的时间，并与创作障碍进行了无休止的斗争。作为一名创意人士，我知道创意瓶颈会让人多么沮丧。但如果有一种工具可以立即将您的想…

AI评测师
2024年9月10日
000
技术评测

Oura Ring 4 推出更纤薄的设计、更多尺寸和更强大的传感功能，起价 349 美元

Oura 周四发布了其广受欢迎的智能戒指的第四代产品。Oura Ring 4 的发布时间距离其前代产品发布不到三年。尽管存在差距，但这款新可穿戴设备在很大程度上改进了体验，而不是重…

王浩然
2024年10月5日
000
技术评测

Veed.io 评论：我用过的最简单的 AI 视频编辑器

作为一个花了无数时间在 Premiere Pro 上摸索的人，我知道视频编辑是多么令人难以忍受。所以，当我遇到Veed.io时，我一开始是持怀疑态度的。基于网络的编辑器真的能与之相…

AI评测师
2024年11月5日
000
技术评测

Omnitron Sensors 的 MEMS 可以让自动驾驶汽车摆脱陀螺（同时降低成本）

生产 MEMS 传感器芯片的Omnitron Sensors已筹集 1300 万美元，用于为自动驾驶汽车制造廉价传感器。如果成功，我们就可以告别自动驾驶汽车顶部的大型旋转圆顶了。 …

王浩然
2025年2月3日
000
技术评测

Midjourney 正在推出一款名为“Patchwork”的多人协作世界构建工具

Midjourney是一家流行的 AI 图像生成初创公司，仅在其 Discord 服务器上就有超过 2100 万用户，该公司正在从 AI图像创建和编辑领域拓展业务。拼凑物显露 M…

王浩然
2024年12月12日
000
技术评测

苹果终于出AI消除功能，相册可以利用起来了

昨天凌晨，苹果推送了 iOS18.1 第三个 beta 版本。目前 18.1 Beta 是苹果专门用来测试 Apple Intelligence 的，只有 iPhone 15 P…

AI评测师
2024年9月2日
000
技术评测

苹果升级 watchOS，添加翻译等 AI 功能

苹果公司在周一的 2024 年苹果活动上宣布，其 watchOS 将进行一些人工智能升级。大多数升级都是在 6 月份的全球开发者大会 (WWDC)上发布的，但苹果在今天上午的主题演…

王浩然
2024年9月10日
000
技术评测

如何在 Photoshop 中使用 AI：我喜欢的 3 款令人惊叹的 AI 工具

人工智能彻底改变了数字艺术的世界，而Adobe Photoshop正处于这场变革的前沿。Photoshop 中的这些 AI 功能大大缩短了编辑时间，这真是太神奇了，我很高兴向您…

AI评测师
2024年9月29日
000
技术评测

谷歌悄然在 Chrome 地址栏中推出了 Gemini AI 集成

谷歌周二对其Chrome 浏览器进行了重大更新，将其先进的Gemini AI聊天机器人直接集成到地址栏中。此举已广泛向用户开放，标志着人工智能技术民主化的关键时刻，并可能重塑数百万…

王浩然
2024年9月5日
000