一款集多模态理解与生成于一体的单一 Transformer

点点 • 2024年10月12日下午7:00 • AI前沿 • 134 views

大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作，例如 LLaVA、MiniGPT-4 和 InstructBLIP，展示了卓越的多模态理解能力。为了将 LLM 集成到多模态领域，这些研究探索了将预训练的模态特定编码器（例如 CLIP）的特征投射到 LLM 的输入空间中，从而在 Transformer 主干中实现多模态理解和推理。尽管 MLLM 有各种设计选择，例如视觉编码器、特征对齐适配器和数据集，但大多数这些模型的训练都遵循自回归生成范式，该范式已被证明对 LLM 中的文本生成有效。尽管这些模型具有强大的多模态理解能力，但它们主要关注视觉感知，缺乏生成文本以外的多模态输出的能力。

Transformer 模型在自然语言处理中的自回归建模中表现出色。受此进展的启发，先前的研究直接应用相同的自回归建模来学习图像像素对图像和视频生成的依赖性。例如，VideoPoet 采用仅解码器的 Transformer 架构从多模态输入合成高质量视频。最近，LlamaGen 表明，像 Llama 这样的大型语言模型架构可以自回归建模图像标记，在类条件图像生成中取得不错的性能。

在本文中，我们将讨论 Show-O，这是一种集成了多模态理解和生成的统一转换器。与完全自回归模型不同，Show-O 统一了自回归和离散扩散模型，以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中，Show-O 表现出与具有同等或更多参数的现有单个模型相当或更优的性能，凸显了其作为下一代基础模型的潜力。

在这个框架中，模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下，其他模型（如 D3PM、Mask-predict、ARDM 和 MaskGIT）使用离散损坏过程作为高斯扩散的替代。具体来说，使用图像标记器将图像表示为一系列离散标记，每个标记都与一个分类标签相关联。通过随机采样过程将标记分布转换为均匀分布。在训练期间，这些标记中的一部分被随机屏蔽，并且模型被训练以预测屏蔽标记的原始值。在这项工作中，Show-O 采用离散扩散建模进行视觉生成。

SHOW-O：统一多模式理解和生成

过去几年，多模态智能的两大支柱——理解和生成——取得了重大进展。对于多模态理解， LLaVA 等多模态大型语言模型 (MLLM ) 在视觉问答 (VQA) 等视觉语言任务中表现出色。对于视觉生成，去噪扩散概率模型 (DDPM) 彻底改变了传统的生成范式，在文本到图像/视频生成方面取得了前所未有的性能。

鉴于各个领域取得的成就，探索将它们连接起来的潜力是自然而然的。最近的研究试图将来自这两个不同领域的专家模型组合起来，形成一个可以同时处理多模态理解和生成的统一系统。然而，现有的尝试通常涉及用于理解和生成的单独模型。例如，NExT-GPT 使用基本语言模型进行多模态理解，但需要额外的预训练扩散模型进行图像生成。这就提出了一个问题：一个单一的 Transformer 可以同时处理多模态理解和生成吗？

最近，Chameleon 证明了这是可能的。具体来说，Chameleon 通过自回归建模实现了不同模态的融合，从而生成文本和图像标记。虽然对文本标记进行自回归建模是有意义的，但尚不清楚以相同方式对图像块或像素进行建模是否是最佳选择。自回归预测图像的一个关键瓶颈是需要大量的采样步骤，尤其是在处理高分辨率图像时。与自回归模型相比，连续扩散模型在视觉生成方面表现出色。

这促使我们探索单个 Transformer 是否可以集成自回归和扩散建模。Show-O 设想了一种新范式，其中文本表示为离散标记并进行自回归建模，而连续图像像素则使用去噪扩散进行建模。然而，由于离散文本标记和连续图像表示之间的差异，将这两种不同的技术集成到单个网络中并非易事。此外，扩散模型通常依赖于两个不同的模型：文本编码器和去噪网络。

为了解决这个问题，Show-O 引入了一种新颖的统一模型，该模型能够使用混合自回归和扩散建模来处理多模态理解和生成任务。Show-O 建立在预先训练的 LLM 之上，并利用其自回归建模功能进行基于文本的推理。受其他作品的启发，Show-O 采用离散去噪扩散来建模图像标记而不是连续表示。此外，Show-O 固有地对文本条件信息进行编码，从而无需额外的文本编码器。通过利用文本和图像标记器，Show-O 可以处理各种输入数据和任务，为视觉语言任务自回归地提供答案，并使用离散去噪扩散生成图像。

Show-O 在各种基准测试中表现出与具有同等或更多参数的单个模型相当的性能，在某些情况下甚至更好。与自回归图像生成不同，Show-O 框架所需的采样步骤减少了约 20 倍，因此本质上速度更快。此外，Show-O 框架支持下游应用程序，例如文本引导修复和推断，而无需进行微调，如下图所示。

Show-O 还具有混合模态生成的潜力，例如带有文本描述的交错视频关键帧生成，这为长视频生成带来了希望。此外，Show-O 框架研究了离散和连续图像表示对多模态理解的影响，为未来的统一模型设计提供了见解。

下图展示了 Show-O 框架与各个领域现有方法的模型特征比较。Show-O 是一个集成了多模态理解和生成的先进技术的统一模型。

总而言之，本文的主要贡献如下：

Show-O 是一个使用单一转换器集成多模式理解和生成的统一模型。
Show-O 在一个转换器中统一自回归和离散扩散建模，有效地处理文本和图像。
Show-O 框架在多模式理解和生成基准中的表现优于或匹敌具有同等或更大参数的单个基线模型。
Show-O 支持下游应用，例如基于文本的修复和外推，无需微调，并展示了混合模态生成的潜力。
Show-O 探索了不同类型的表示的影响，为提高统一模型中的多模式理解提供了有价值的见解。

近年来，越来越多的研究集中于能够理解和生成的统一多模态语言模型。一些研究使用与文本标记交错的连续表示进行自回归建模以生成图像。SEED-X 提出了一个统一且多功能的基础系统，能够处理多模态理解和生成任务。在这种方法中，来自 CLIP ViT 编码器的连续图像表示与文本标记相结合，并输入到大型语言模型 (LLM) 中以执行下一个单词预测和图像表示回归。Chameleon 引入了一系列基于标记的混合模态模型，既能理解又能生成图像。这种方法将所有模态表示为离散标记，利用统一的基于转换器的架构并以端到端的方式从头开始训练模型。相比之下，Show-O 也采用离散标记来表示所有模态，但使用离散扩散过程而不是自回归建模进行视觉生成。

SHOW-O：方法论和架构

Show-O 框架的主要目标是开发一个集成自回归和扩散建模的统一模型，以实现联合多模态理解和生成。开发这样一个统一的模型面临着巨大的挑战，核心问题围绕以下方面：i) 定义模型的输入/输出空间；ii) 统一来自不同模态的各种类型的输入数据；iii) 将自回归和扩散建模集成到一个转换器中；iv) 有效地训练这样一个统一的模型。

Show-O 通过以下解决方案解决这些挑战：

Show-O 通过将文本和图像数据标记为离散的标记来构建输入/输出空间。
Show-O 引入了其默认架构和统一的提示策略来构建输入数据和模态。
Show-O 演示了如何在单个变压器中结合自回归和扩散建模。
Show-O 提出了三阶段训练流程来有效地训练统一模型。

标记化

鉴于所提出的 Show-O 是基于预训练的 LLM构建的，因此在离散空间中进行统一学习是很自然的。通过维护包含离散文本和图像标记的统一词汇表，Show-O 承担着相同的学习目标：预测离散标记。

文本标记

Show-O 基于预先训练的 LLM，并且使用相同的标记器进行文本数据标记化，无需任何修改。

图像标记

继 MAGVIT-v2 之后，Show-O 使用大约 35M 图像数据训练了一个无查找量化器。量化器维护一个大小为 8,192 的码本，并将 256×256 分辨率的图像编码为 16×16 离散标记。选择 MAGVIT-v2 是因为它易于微调，适合用作具有时间压缩功能的视频标记器，这是 Show-O 计划在未来探索的一个方面。另一种方法是分别使用不同的标记器进行理解和生成。受现有研究的启发，Show-O 还从预先训练的 MAGVIT-v2 和 CLIP-ViT 编码器中提取连续图像表示，以探索多模态理解能力的改进。在以下章节中，默认的 Show-O 使用离散图像标记作为多模态理解和生成的输入。为简单起见，方法论部分将仅详细介绍默认的 Show-O。

建筑学

Show-O 继承了现有 LLM的架构，无需进行任何架构修改，只是在每个注意层前面添加了一个 QK-Norm 操作。Show-O 使用预训练 LLM 的权重进行初始化，并通过为离散图像标记合并 8,192 个新的可学习嵌入来扩展嵌入层的大小。与需要额外文本编码器的最先进的扩散模型不同，Show-O 固有地对文本条件信息进行编码以生成文本到图像。

统一提示

为了对多模态理解和生成进行统一学习，Show-O 采用统一的提示策略来格式化各种输入数据。给定一个图像-文本对 (x, y)，首先由图像和文本标记器分别将其标记为 M 个图像标记和 N 个文本标记。然后根据任务类型将标记形成输入序列，如下图所示。

通过采用这种提示设计，Show-O 可以有效地将各种输入数据编码为序列数据，用于多模态理解、文本到图像生成和混合模态生成。这种设置使统一学习能够在这些不同任务的序列之间无缝运行。经过训练后，Show-O 可以处理各种视觉语言任务，包括视觉问答和文本到图像生成。

全注意力机制

与现有仅对序列进行自回归建模的作品不同，Show-O 引入了全注意力机制，使其能够以不同的方式对各种类型的信号进行建模。这种全面的注意力机制会根据输入序列的格式自适应地在因果注意力和全注意力之间切换。下图说明了针对不同输入序列的全注意力示例。

具体来说，Show-O 通过因果注意处理序列中的文本标记，而使用全注意处理图像标记，从而使每个标记能够与所有其他标记进行全面交互。在多模态理解中，文本标记可以关注所有先前的图像标记，而在文本到图像生成中，图像标记可以与所有先前的文本标记进行交互。全注意保留了来自预训练 LLM 的文本推理知识，并通过减少采样步骤提高了图像生成的效率。此外，它还支持各种下游应用，例如修复和外推，而无需进行微调。当仅给出文本标记时，该机制默认为因果注意。

SHOW-O：实验和结果

下表展示了 Show-O 在公共基准测试（例如图像字幕和视觉问答任务）上的多模式理解能力。

Show-O 的当前版本基于 Phi-1.5 构建，因此 Show-O 的仅理解版本 LLaVA-v1.5-Phi-1.5 可作为直接基准。Show-O 在所有评估指标中的表现都与专用于多模态理解的基准 LLaVA-v1.5-Phi-1.5 相当。这证明了 Show-O 框架在单个转换器中统一多模态理解和生成的巨大潜力。与仅理解模型（如 InstructBLIP、Qwen-VL-Chat 和 mPLUG-Owl2）相比，Show-O 尽管模型尺寸小得多，但在 POPE、MME、Flickr30k 和 VQAv2 基准上实现了具有竞争力的性能，并且在 GQA 基准上表现更好。与具有更多参数的统一模型（例如 NExT-GPT-13B 和 Chameleon-34B）相比，Show-O 在 Flickr30k 基准上也表现出色，在 VQAv2 基准上的表现也更加出色。

鉴于这些令人鼓舞的结果，Show-O 有望成为统一理解和生成的潜在下一代基础模型。这些结果还展示了扩展 Show-O 以实现最先进性能的潜力。

定性比较

我们与基于扩散的模型（例如 SDv1.5、SDXL 和基于自回归的模型 LlamaGen）以及统一模型（例如 LWM 和 SEED-X）进行了定性比较，如下图所示。

Show-O 展示了生成逼真图像的能力，短文本提示和长文本提示中的内容一致。与 SDv1.5 和 LlamaGen 相比，Show-O 表现出更好的视觉质量和更强的图像文本对齐能力。例如，在第二列中，SDv1.5 和 LlamaGen 都无法完全理解文本提示，并且会忽略生成的图像中的“日落”和“蓝色穹顶”等属性。与 SDXL 相比，Show-O 提供了相当的视觉质量和对齐能力，如“拉力赛车”和“与绚丽日落形成鲜明对比”等示例所示。

文本引导修复和推断

Show-O 自然支持基于文本的修复和推断，无需任何微调。下图说明了几个示例。

在图的顶部，给定一张输入图像和一个修复蒙版，Show-O 可以根据用户提供的文本提示将一辆红色电车变成一辆具有光滑曲线和有色窗户的蓝色跑车。Show-O 还可以根据给定的文本提示水平或垂直推断原始图像。例如，在第二行中，Show-O 通过添加新对象（如“红色野花”）来推断图像。修复和推断区域中的像素与原始图像保持一致。这些示例清楚地证明了 Show-O 相对于自回归模型在下游应用中的固有优势。

最后的想法

在本文中，我们讨论了 Show-O，这是一种集成了多模态理解和生成的统一转换器。与完全自回归模型不同，Show-O 统一了自回归和离散扩散建模，以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中，Show-O 表现出与现有单个模型相当或更优的性能，这些模型具有相同或更多的参数，凸显了其作为下一代基础模型的潜力。在这个框架中，模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下，其他模型（如 D3PM、Mask-predict、ARDM 和 MaskGIT）使用离散损坏过程作为高斯扩散的替代。Show-O 是第一个统一自回归和离散扩散建模的模型，使其能够以不同的方式处理不同的模态。大量实验结果表明，Show-O 在广泛的视觉语言任务中可与单个专家模型相媲美，甚至优于单个专家模型。这凸显了其作为下一代基础模型的潜力。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/yi-kuan-ji-duo-mo-tai-li-jie-yu-sheng-cheng-yu-yi-ti-de-dan

Like (0)

点点

0 0

引导人工智能部署：避免陷阱并确保成功

Previous 2024年10月12日

针对 3D 高斯溅射的投毒攻击

Next 2024年10月12日

AI前沿

OpenAI 推出新热线：随时随地与 ChatGPT 聊天

在OpenAI的“12 Days of Shipmas”活动的第 10 天，该公司决定采取一些复古的方式，推出一个电话号码，供人们拨打并与 ChatGPT 交谈。美国用户可以在任…

王浩然
2024年12月20日
000
AI前沿

Anthropic 的计算机使用模式在新研究中显示出优势和局限性

自从Anthropic于 10 月为 Claude发布了“计算机使用”功能以来，人们对人工智能代理在被赋予模仿人类互动的能力后能做什么感到非常兴奋。新加坡国立大学Show Lab的…

王浩然
2024年11月24日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

OpenAI 不会消失：估值 1570 亿美元，融资 66 亿美元

尽管近几个月来高管离职潮不断，OpenAI 今天仍宣布了预期的新一轮融资。人们一直预计这笔投资会非常庞大，但据Axios报道，它筹集的资金——公司总估值 1570 亿美元，筹…

王浩然
2024年10月4日
000
AI前沿

Meta AI 的 GenAI“Imagine”功能扩展到 Facebook、Instagram 和 Messenger

Meta AI 周三在 Meta Connect 2024 大会上宣布，其 Imagine 功能正在 Facebook 和 Instagram 上推广，该功能使用生成式 AI 将文…

王浩然
2024年9月28日
000
AI前沿

IBM 和欧莱雅将生成式人工智能应用于化妆品

IBM 和欧莱雅宣布，将联手开发一种新的定制 AI 基础模型，帮助这家化妆品巨头改善其可持续原材料的使用，并减少能源和材料浪费。 IBM 表示，该模型将是美容行业首创的，它将使用 …

王浩然
2025年1月26日
000
AI前沿

Meta 不愿透露是否利用智能眼镜拍摄的照片来训练 AI

Meta 的 AI 驱动雷朋眼镜正面有一个隐蔽的摄像头，不仅会在你要求时拍照，还会在 AI 功能触发某些关键词（例如“看”）时拍照。这意味着这款智能眼镜会收集大量照片，包括有意拍摄…

点点
2024年10月2日
000
AI前沿

Meta 的最新研究如何证明可以使用生成式人工智能来理解用户意图

Meta ——Facebook、Instagram、WhatsApp、Threads 等的母公司——运行着世界上最大的推荐系统之一。在最近发布的两篇论文中，研究人员揭示了如何使用…

王浩然
2025年1月4日
000
AI前沿

亚马逊加倍押注 Anthropic，将自己定位为人工智能军备竞赛的关键参与者

周五，人工智能军备竞赛升温，亚马逊宣布向 Anthropic 额外投资 40 亿美元，将其持股比例增加一倍至 80 亿美元，此举表明这家云计算巨头雄心勃勃，希望在快速发展的人工智能…

王浩然
2024年11月26日
000
AI前沿

离开OpenAI后，Ilya拿了10亿美金对抗AI作恶

当地时间 9 月 4 日，OpenAI 前联合创始人 Ilya Sutskever 所创立的 AI 初创公司 SSI（Safe Superintelligence）在其社交媒体官方…

点点
2024年9月7日
000
AI前沿

波士顿动力公司与丰田研究院合作开发人形机器人

合作伙伴关系利用大型行为模型和波士顿动力 Atlas 机器人推进人形机器人研究

点点
2024年10月22日
000
AI前沿

加州否决人工智能法案可能会让规模较小的开发者和模型“蓬勃发展”

加州州长加文·纽瑟姆否决了 SB 1047法案，许多人认为该法案将改变加州乃至整个国家的人工智能发展格局。周日公布的否决结果可能会让人工智能公司有机会证明他们能够主动保护用户免受人…

大龄程序员
2024年10月3日
000
AI前沿

微软的新 Magentic-One 系统指挥多个 AI 代理完成用户任务

希望部署多个 AI 代理的企业通常需要实施一个框架来管理它们。为此，微软研究人员最近推出了一种名为Magentic-One 的新型多智能体基础设施，该基础设施允许单个 AI 模…

王浩然
2024年11月10日
000
AI前沿

EDR 中的人机合作：利用人工智能增强网络安全团队

随着网络攻击越来越频繁和复杂，公司难以跟上。技术精湛的安全团队日夜工作，以发现和阻止数字入侵者，但这往往让人觉得是一场必败之战。黑客似乎总是占上风。然而，隧道尽头还是有曙光的。新…

点点
2024年10月5日
000
AI前沿

让艺术世界更加触手可及

初创公司 NALA 最初是麻省理工学院的一个课堂项目，旨在将艺术品买家与艺术家直接匹配。在高价艺术品的世界里，画廊通常扮演着守门人的角色。他们精心挑选的策展过程是大城市的画廊经常…

王浩然
2025年1月27日
000
AI前沿

微软声称其新工具可以纠正人工智能幻觉，但专家建议谨慎行事

人工智能是出了名的骗子，但微软现在表示已经解决了这个问题。可以理解的是，这会引起一些人的关注——而且有理由持怀疑态度。微软今天发布了一项服务，名为 Correction，旨在自动…

王浩然
2024年9月25日
000
AI前沿

LLaMA-Omni：与 Siri 和 Alexa 一较高下的开源 AI

中国科学院的研究人员开发了一种人工智能模型，可以改变我们与数字助理的互动方式。这个名为LLaMA-Omni 的新系统能够与大型语言模型 (LLM) 进行实时语音交互，有望改变从客户…

王浩然
2024年9月15日
000
AI前沿

企业供应链需要特定领域的AI，而非通用模型：Articul8如何构建新模型，实现3倍性能提升

在企业运营中广泛实施AI的过程中，许多企业发现通用模型在处理需要深厚领域知识和顺序推理的专门工业任务时常常力不从心。虽然微调和检索增强生成（RAG）可以提供帮助，但对于像供应链这样…

王浩然
1天前
000
AI前沿

Zillow 升级人工智能搜索，将向你展示更多你买不起的房屋

Zillow 正在升级其 AI 搜索功能，能够根据房屋或出租房屋与办公室、学校或其他兴趣点的距离来查找房屋或出租房屋。现在，您无需通过选择特定位置或过滤器来缩小搜索范围，只需输入“…

王浩然
2024年9月4日
000
AI前沿

“不受限制”的人工智能集团 Nous Research 推出首个聊天机器人

Nous Research是一家致力于创建“个性化、不受限制”的人工智能模型的人工智能研究机构，旨在替代 OpenAI、Anthropic、Google、Meta 等较为保守的企业…

王浩然
2024年11月9日
000