人类视觉模型的基础

点点 • 2024年9月11日上午8:00 • AI前沿 • 94 views

大规模预训练以及随后针对特定任务的语言建模微调取得了巨大成功，这种方法已成为一种标准做法。同样，计算机视觉方法也逐渐采用大规模数据进行预训练。LAION5B、Instagram-3.5B、JFT-300M、LVD142M、Visual Genome 和 YFCC100M 等大型数据集的出现，使得人们能够探索远远超出传统基准范围的数据语料库。该领域的突出工作包括 DINOv2、MAWS 和 AIM。DINOv2 通过在 LDV-142M 数据集上扩展对比 iBot 方法，在生成自监督特征方面实现了最先进的性能。MAWS 研究了十亿张图像上的掩蔽自编码器 (MAE) 的扩展。AIM 探索了类似于 BERT 的视觉转换器自回归视觉预训练的可扩展性。与这些主要侧重于一般图像预训练或零样本图像分类的方法相比，Sapiens 采取了一种明显以人为本的方法：Sapiens 的模型利用大量人类图像进行预训练，随后针对一系列与人类相关的任务进行微调。追求大规模 3D 人体数字化仍然是计算机视觉领域的关键目标。

在受控或工作室环境中取得了重大进展，但将这些方法扩展到不受约束的环境仍然存在挑战。为了应对这些挑战，开发能够执行多项基本任务的多功能模型至关重要，例如关键点估计、身体部位分割、深度估计和从自然环境中的图像进行表面法线预测。在这项工作中，Sapiens 旨在为这些基本的人类视觉任务开发模型，这些模型可以推广到野外环境。目前，最大的公开语言模型包含超过 1000 亿个参数，而更常用的语言模型包含大约 70 亿个参数。相比之下，Vision Transformers (ViT) 尽管共享类似的架构，但尚未成功扩展到这种程度。虽然在这方面做出了许多努力，包括开发针对文本和图像进行训练的密集 ViT-4B，以及制定稳定训练 ViT-22B 的技术，但常用的视觉主干仍然介于 3 亿到 6 亿个参数之间，并且主要在约 224 像素的图像分辨率下进行预训练。同样，现有的基于 Transformer 的图像生成模型（例如 DiT）使用不到 7 亿个参数，并在高度压缩的潜在空间上运行。为了弥补这一差距，Sapiens 推出了一系列大型高分辨率 ViT 模型，这些模型在数百万张人体图像上以 1024 像素的图像分辨率进行本地预训练。

Sapiens 针对四项以人为中心的基本视觉任务提出了一系列模型：2D 姿势估计、身体部位分割、深度估计和表面法线预测。Sapiens 模型原生支持 1K 高分辨率推理，并且非常容易通过对在 3 亿多张野生人类图像上预训练的模型进行微调来适应单个任务。Sapiens 观察到，在给定相同计算预算的情况下，在精选的人类图像数据集上进行自我监督预训练可显著提高以人为中心的各种任务的性能。即使在标记数据稀缺或完全合成的情况下，生成的模型也表现出对野生数据的出色泛化能力。简单的模型设计还带来了可扩展性——随着参数数量从 0.3 扩展到 20 亿，跨任务的模型性能得到提高。 Sapiens 在各种以人为本的基准中始终超越现有基线，与之前的最先进结果相比取得了显著的进步：Humans-5K（姿势）上 7.6 mAP，Humans-2K（部分分段）上 17.1 mIoU，Hi4D（深度）上 22.4% 相对 RMSE，以及 THuman2（正常）上 53.5% 相对角度误差。

人类视觉模型的突破

近年来，我们在 2D 和 3D 中生成照片级逼真的人类方面取得了显著进展。这些方法的成功很大程度上归功于对各种资产（例如 2D 关键点、细粒度身体部位分割、深度和表面法线）的稳健估计。然而，对这些资产进行稳健而准确的估计仍然是一个活跃的研究领域，而用于提高单个任务性能的复杂系统通常会阻碍更广泛的采用。此外，在野外获得准确的地面实况注释是出了名的难以扩展。Sapiens 的目标是提供一个统一的框架和模型来推断野外的这些资产，为每个人解锁广泛的以人为本的应用程序。

Sapiens 认为，这种以人为中心的模型应该满足三个标准：泛化、广泛适用性和高保真度。泛化确保了对未知条件的鲁棒性，使模型能够在不同的环境中始终如一地执行。广泛适用性表示模型的多功能性，使其适用于各种任务，只需进行最少的修改。高保真度表示模型能够产生精确、高分辨率的输出，这对于忠实的人类生成任务至关重要。本文详细介绍了体现这些属性的模型的开发，统称为 Sapiens。

根据洞察，Sapiens 利用大型数据集和可扩展的模型架构，这是泛化的关键。为了扩大适用范围，Sapiens 采用了先预训练再微调的方法，使预训练后能够以最少的调整适应特定任务。这种方法提出了一个关键问题：哪种类型的数据对预训练最有效？考虑到计算限制，应该重点收集尽可能多的人体图像，还是最好在较少的整理集合上进行预训练以更好地反映现实世界的变化？现有方法通常会忽略下游任务背景下的预训练数据分布。为了研究预训练数据分布对人类特定任务的影响，Sapiens 收集了 Humans-300M 数据集，其中包含 3 亿张不同的人体图像。这些未标记的图像用于从头开始预训练一系列视觉转换器，参数数量从 3 亿到 20 亿不等。

在用于从大型数据集中学习通用视觉特征的各种自监督方法中，Sapiens 选择了掩蔽自动编码器(MAE) 方法，因为它在预训练中简单高效。与对比或多推理策略相比，MAE 具有单次推理模型，允许使用相同的计算资源处理大量图像。为了获得更高的保真度，与之前的方法相比，Sapiens 将其预训练的原始输入分辨率提高到 1024 像素，与现有最大的视觉主干相比，FLOP 增加了约 4 倍。每个模型都在 1.2 万亿个标记上进行预训练。对于以人为中心的任务的微调，Sapiens 使用一致的编码器-解码器架构。编码器使用预训练中的权重进行初始化，而解码器（轻量级且特定于任务的头部）则随机初始化。然后对两个组件进行端到端微调。 Sapiens 专注于四个关键任务：2D 姿势估计、身体部位分割、深度和法线估计，如下图所示。

与之前的研究一致，Sapiens 肯定了标签质量对模型实际性能的关键影响。公共基准通常包含嘈杂的标签，在模型微调期间提供不一致的监督信号。同时，利用细粒度和精确的注释与 Sapiens 的 3D 人体数字化主要目标紧密结合非常重要。为此，Sapiens 提出了一组密度大大提高的 2D 全身关键点用于姿势估计，以及一组详细的类别词汇用于身体部位分割，超越了以前数据集的范围。具体来说，Sapiens 引入了 308 个关键点的综合集合，涵盖身体、手、脚、表面和面部。此外，Sapiens 将分割类别词汇扩展到 28 个类别，涵盖头发、舌头、牙齿、上/下唇和躯干等身体部位。为了保证注释的质量和一致性以及高度自动化，Sapiens 使用多视图捕获设置来收集姿势和分割注释。Sapiens 还利用以人为中心的合成数据进行深度和法线估计，利用来自 RenderPeople 的 600 个详细扫描来生成高分辨率深度图和表面法线。Sapiens 表明，特定领域的大规模预训练与有限但高质量的注释相结合可实现强大的野外泛化。总体而言，Sapiens 的方法展示了一种有效的策略，可以开发能够在现实世界场景中执行的高精度判别模型，而无需收集昂贵且多样化的注释集。

人类智慧:方法与建筑

Sapiens 遵循掩蔽自动编码器 (MAE) 方法进行预训练。该模型经过训练，可以根据部分观察结果重建原始人体图像。与所有自动编码器一样，Sapiens 的模型有一个将可见图像映射到潜在表示的编码器和一个从该潜在表示重建原始图像的解码器。预训练数据集包含单人和多人图像，每张图像都调整为具有正方形长宽比的固定大小。与ViT类似，图像被分成具有固定块大小的规则不重叠块。这些块的子集被随机选择并掩蔽，其余部分可见。掩蔽块与可见块的比例（称为掩蔽比）在整个训练过程中保持不变。

Sapiens 的模型在各种图像特征上都表现出了泛化能力，包括尺度、裁剪、受试者的年龄和种族以及受试者的数量。模型中的每个补丁标记占图像面积的 0.02%，而标准 ViT 中为 0.4%，减少了 16 倍，为模型提供了细粒度的标记间推理。即使掩码率增加到 95%，Sapiens 的模型也能在保留的样本上实现人体解剖结构的合理重建。下图展示了 Sapien 的预训练模型在未见过的人体图像上的重建。

此外，Sapiens 利用大型专有数据集进行预训练，该数据集由大约 10 亿张自然图像组成，专注于人类图像。预处理包括丢弃带有水印、文本、艺术描绘或非自然元素的图像。然后，Sapiens 使用现成的人体边界框检测器来过滤图像，保留检测分数高于 0.9 且边界框尺寸超过 300 像素的图像。数据集中有超过 2.48 亿张图像包含多个主体。

2D 姿态估计

Sapien 框架在多个骨架上对 P 中的编码器和解码器进行微调，其中包括 K = 17 [67]、K = 133 [55] 和一个新的高度详细骨架，其中 K = 308，如下图所示。

与最多 68 个面部关键点的现有格式相比，Sapien 的注释包含 243 个面部关键点，包括眼睛、嘴唇、鼻子和耳朵周围的代表点。这种设计旨在细致地捕捉现实世界中面部表情的细微细节。利用这些关键点，Sapien 框架手动注释了来自室内捕捉设置的 100 万张 4K 分辨率图像。与之前的任务类似，我们将法线估计器 N 的解码器输出通道设置为 3，对应于每个像素的法线向量的 xyz 分量。生成的合成数据也用作表面法线估计的监督。

Sapien：实验与结果

Sapiens-2B 使用 1024 个 A100 GPU 通过 PyTorch 进行了 18 天的预训练。Sapiens 在所有实验中均使用 AdamW 优化器。学习计划包括简短的线性预热，然后进行余弦退火进行预训练，再进行线性衰减进行微调。所有模型均从头开始进行预训练，分辨率为 1024 × 1024，块大小为 16。为了进行微调，输入图像的大小被调整为 4:3 的比例，即 1024 × 768。Sapiens 应用了标准增强功能，例如裁剪、缩放、翻转和光度失真。添加了来自非人类 COCO 图像的随机背景以用于分割、深度和正常预测任务。重要的是，Sapiens 使用差异学习率来保持泛化，初始层的学习率较低，后续层的学习率逐渐升高。逐层学习率衰减设置为 0.85，编码器的权重衰减设置为 0.1。

下表详细列出了 Sapiens 的设计规格。Sapiens 遵循特定方法，优先按宽度而非深度扩展模型。值得注意的是，Sapiens-0.3B 模型虽然在架构上与传统的 ViT-Large 相似，但由于分辨率更高，其 FLOP 数量是后者的 20 倍。

Sapiens 使用高保真注释对面部、身体、脚和手 (K = 308) 姿势估计进行了微调。对于训练，Sapiens 使用包含 1M 幅图像的训练集，对于评估，它使用包含 5K 幅图像的测试集 Humans5K。评估采用自上而下的方法，其中 Sapiens 使用现成的边界框检测器并进行单个人体姿势推理。表 3 显示了 Sapiens 模型与现有全身姿势估计方法的比较。所有方法均在 Sapiens 的 308 个关键点词汇表和 COCO-WholeBody 的 133 个关键点词汇表之间的 114 个共同关键点上进行评估。Sapiens-0.6B 比目前最先进的 DWPose-l 高出 +2.8 AP。与 DWPose 不同，Sapiens 采用通用的编码器-解码器架构，并进行大量以人为本的预训练，而 DWPose 采用复杂的学生-老师框架，并针对任务量身定制特征提炼。

有趣的是，即使参数数量相同，Sapiens 模型也表现出比同类模型更出色的性能。例如，Sapiens-0.3B 比 VitPose+-L 高出 +5.6 AP，而 Sapiens-0.6B 比 VitPose+-H 高出 +7.9 AP。在 Sapiens 系列中，结果表明模型大小与性能之间存在直接相关性。Sapiens-2B 以 61.1 AP 创下了新的最先进水平，比现有技术显著提高了 +7.6 AP。尽管使用室内捕捉工作室的注释进行了微调，但 Sapiens 仍表现出对现实世界场景的强大泛化能力，如下图所示。

Sapiens 使用 28 个类别的分割词汇进行微调和评估。训练集包含 100K 张图像，而测试集 Humans-2K 包含 2K 张图像。将 Sapiens 与在同一训练集上微调的现有身体部位分割方法进行比较，使用每种方法建议的预训练检查点作为初始化。与姿势估计类似，Sapiens 在分割方面表现出了泛化能力，如下表所示。

有趣的是，最小的模型 Sapiens-0.3B 凭借更高的分辨率和大量以人为中心的预训练，比现有的最先进的分割方法（如 Mask2Former 和 DeepLabV3+）高出 12.6 mIoU。此外，增加模型大小可进一步提高分割性能。Sapiens-2B 的性能最佳，在测试集上达到 81.2 mIoU 和 89.4 mAcc，下图显示了 Sapiens 模型的定性结果。

结论

Sapiens 代表着将以人为本的视觉模型推进到基础模型领域的重要一步。Sapiens 模型在各种以人为本的任务中展示了强大的泛化能力。最先进的性能归功于：(i) 在专门为理解人类而定制的精选数据集上进行大规模预训练，(ii) 可扩展的高分辨率和高容量视觉转换器主干，以及 (iii) 在增强工作室和合成数据上进行高质量注释。Sapiens 模型有可能成为众多下游任务的关键构建块，并为社区中更广泛的群体提供高质量视觉主干的访问权限。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/ren-lei-shi-jue-mo-xing-de-ji-chu

AI 人体数字化人工智能模型训练视觉模型

Like (0)

点点

0 0

解锁医疗保健的未来：探索 AI 环境临床语音和 AI 医疗文书员

Previous 2024年9月10日下午10:00

科技巨头的语音大战，亚马逊Claude让Alexa飞起，Cerebras速度惊人

Next 2024年9月11日上午9:00

AI前沿

AMD 裁员 4%

AMD 已确认将裁员 4%，以专注于“巨大的增长机会”。目前尚不清楚此次裁员影响了多少员工，以及哪些部门受到影响。根据AMD 的年度 10-K 文件，截至去年，AMD 拥有约 2…

王浩然
2024年11月14日
000
AI前沿

AI2 的新模型旨在实现开放、强大且具有成本效益

艾伦人工智能研究所（AI2）与Contextual AI合作发布了一个新的开源模型，希望能够满足对性能强大且具有成本效益的大型语言模型（LLM）的需求。新模型称为 OLMoE，…

王浩然
2024年9月17日
000
AI前沿

人工智能悖论：未来的尖端工具如何成为危险的网络威胁（以及需要做好哪些准备）

人工智能正在改变企业的运营方式。虽然这种转变在很大程度上是积极的，但它也带来了一些独特的网络安全问题。像agentic AI这样的下一代人工智能应用对组织的安全态势构成了特别值得注…

王浩然
2025年2月4日
000
AI前沿

Cradle 利用 7300 万美元新资金打造其蛋白质设计 AI 平台

利用人工智能加速生物技术发展正迅速成为标准做法，提供快速部署该技术服务的公司正在看到大量应用和新投资。Cradle就是其中之一，专注于蛋白质设计——它刚刚筹集了 7300 万美元来…

王浩然
2024年11月29日
000
AI前沿

科尔莫戈罗夫-阿诺德网络：高效且可解释的神经网络新前沿

神经网络一直处于人工智能发展的前沿，推动了从自然语言处理和计算机视觉到战略游戏、医疗保健、编程、艺术，甚至自动驾驶汽车等各个领域的发展。然而，随着这些模型在规模和复杂性方面的扩展，…

王浩然
2024年8月22日
000
AI前沿

Agentic AI 如何改变企业——来自 Forum Ventures 报告的见解

Forum Ventures是一家早期的 B2B SaaS 基金、加速器和 AI 创业工作室，今天宣布发布其最新的综合报告“ 2024：企业中代理 AI 的崛起”。该报告详细分析了…

点点
2024年10月11日
000
AI前沿

生成式AI重塑电信行业：2025年世界移动通信大会展望

一、引言电信行业正经历着前所未有的变革，这主要得益于数据消费量的激增、5G及下一代网络的广泛部署以及客户期望的不断提升。在这场变革中，生成式AI（Generative AI）正成…

王浩然
2025年3月14日
000
AI前沿

SolarWinds：IT 专业人士希望加强对 AI 的监管

SolarWinds的一项新调查显示，人们强烈呼吁政府加强对人工智能的监督，88% 的 IT 专业人士主张加强监管。这项研究调查了近 700 名 IT 专家，结果显示安全是首要关…

点点
2024年9月19日
000
AI前沿

解密诺贝尔物理学奖为啥颁给AI？Hinton和Ilya 12年前对话，竟引发物理诺奖AI风暴

昨天的诺贝尔物理学奖一公布，瞬间炸翻了物理圈和AI圈。 Hinton的第一反应更是有趣：这不会是个诈骗电话吧？如此出乎意料的结果，让各路针对诺奖物理学奖的严肃预测，都仿佛成了笑话…

点点
2024年10月9日
000
AI前沿

法国 AI 初创公司 Mistral 推出适用于 iPhone、Android 的 Le Chat 移动应用程序——它能否让企业不再关注 DeepSeek？

虽然最近几天人工智能市场似乎围绕DeepSeek 和 OpenAI而崩溃，但当然还有许多其他由优秀工程师组成的团队开发大型语言模型 (LLM)，这些模型值得关注，因为用户和企业都在…

王浩然
2025年2月7日
000
AI前沿

微软的 Muse AI 可以在观察玩家游戏后设计视频游戏世界

微软研究人员已经实现了人工智能领域许多专家认为遥不可及的目标：教会人工智能像人类一样理解三维空间并与之互动。这一突破以Muse的形式出现，这是一种人工智能模型，可以理解和生成复杂的…

王浩然
2025年2月20日
000
AI前沿

谷歌的 NotebookLM 现在可让你指导 AI 播客的主持人

Google 的 NotebookLM 现在允许您自定义其类似播客的音频概览。在使用笔记应用发起讨论之前，您可以向 AI 主持人发出指示，告诉他们您希望他们关注什么主题，甚至可以针…

王浩然
2024年10月20日
000
AI前沿

行业领袖支持开源人工智能定义

开放源代码促进会（OSI）公布了一个定义框架，以评估人工智能系统是否可以归类为开源。第一个开源人工智能定义 (OSAID) 在All Things Open 大会上发布，标志着全…

点点
2024年11月4日
000
AI前沿

Stable Diffusion 3.5 登陆 Amazon Bedrock：这对企业 AI 工作流程意味着什么

创建精美的生成式 AI 图像可能很有趣也很有用，但这并不是企业所需要的全部。企业文本转图像生成不仅仅是创建图像。它还涉及与现有工作流程和其他企业 AI 工具的集成。这是Stabl…

王浩然
2024年12月20日
000
AI前沿

Anthropics的Claude代码工具现重大漏洞，致部分系统崩溃‌

近期，人工智能领域知名初创公司Anthropics遭遇了一次技术挑战。其明星产品Claude代码工具被发现存在一个重大漏洞，该漏洞导致部分用户系统出现了严重故障，甚至无法正常使用。…

王浩然
2025年3月9日
000
AI前沿

萨姆·奥特曼的世界币成为世界币，并展示新的虹膜扫描球来证明你的人类身份

世界币 (Worldcoin) 是 Sam Altman 共同创办的“人格证明”加密项目，该项目通过扫描人的眼球，周四宣布将“币”从其名称中删除，现在改名为“世界币”。世界币项目背…

点点
2024年10月18日
000
AI前沿

ChatGPT新用户激增：新版本发布助力周活跃用户量翻倍‌

在人工智能聊天机器人领域，ChatGPT凭借其卓越的表现力和交互性，迅速赢得了广大用户的青睐。据最新数据显示，ChatGPT在新版本发布后的短短六个月内，其周活跃用户量实现了翻倍增…

王浩然
2025年3月9日
000
AI前沿

谁需要 GPT-4o 高级语音模式？Hume 的 EVI 2 现已推出，带有情感化的语音 AI 和 API

由前谷歌 DeepMinder/计算科学家 Alan Cowen 共同创立并领导的人工智能初创公司Hume时，正是 2024 年春天，该公司刚刚在 B 轮私募股权融资中筹集了 50…

王浩然
2024年9月22日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

总部位于伦敦的 AI 超大规模提供商Nscale宣布，计划在未来三年内向英国数据中心行业投资 25 亿美元（20 亿英镑）。这一重大承诺将支持英国政府的 AI 机遇行动计划以及该国…

王浩然
2025年1月14日
000

发表回复

Please Login to Comment