一种新的时间一致稳定扩散视频特征系统

一种新的时间一致稳定扩散视频特征系统

阿里巴巴集团的一项新举措提供了我所见过的最佳方法之一,即通过基于稳定扩散的基础模型生成全身人体化身。

该系统名为MIMOMIM icking with O bject Interactions),采用了一系列流行的技术和模块,包括基于 CGI 的人体模型和AnimateDiff,以实现视频中时间一致的角色替换,或者以用户定义的骨骼姿势驱动角色。

在这里,我们看到从单个图像源插入的字符,并由预定义的运动驱动:

从单一源图像中,使用 MIMO 系统,三个不同的角色由 3D 姿势序列(最左边)驱动。 有关更多示例和更高分辨率,请参阅项目网站和随附的 YouTube 视频(嵌入在本文末尾)。来源:https://menyifang.github.io/projects/MIMO/index.html

生成的角色也可以从视频帧中或其他多种方式获取,并可以集成到现实世界的镜头中。

MIMO 提供了一种新颖的系统,该系统可生成三个离散编码,分别用于角色、场景和遮挡(即遮挡,当某个物体或人从所描绘的角色前面经过时)。这些编码在推理时集成。

MIMO 可以将原始角色替换为跟随目标视频中动作的逼真或风格化角色。请参阅项目网站和随附的 YouTube 视频(嵌入在本文末尾),了解更多示例和更高分辨率。

该系统在稳定扩散 V1.5 模型上进行训练,使用由研究人员整理的自定义数据集,并由真实世界和模拟视频组成。

基于扩散的视频的最大问题是时间稳定性,其中视频内容要么闪烁,要么以不利于一致角色表现的方式“演变”。

相反,MIMO 有效地使用单个图像作为一致引导的地图,可以通过间质SMPL CGI 模型进行协调和约束。

由于源参考是一致的,并且系统训练的基础模型已经通过足够的代表性运动示例得到增强,因此系统的时间一致性输出能力远远高于基于扩散的化身的一般标准。

姿势驱动 MIMO 角色的更多示例。请参阅项目网站和随附的 YouTube 视频(嵌入在本文末尾),获取更多示例和更高分辨率。

单幅图像被用作有效神经表征的来源正变得越来越普遍,无论是单独使用还是以多模态方式与文本提示相结合。例如,流行的LivePortrait面部传输系统也可以从单幅面部图像生成高度可信的深度伪造面部。

研究人员认为,MIMO 系统所使用的原理可以扩展到其他新型的生成系统和框架中。

这篇新论文的标题是《MIMO:基于空间分解模型的可控角色视频合成》,由阿里巴巴集团智能计算研究院的四位研究人员完成。该论文有一个包含大量视频的项目页面和一个配套的YouTube 视频,也嵌入在本文底部。

方法

MIMO以端到端架构实现了上述三个空间成分的自动、无监督分离(即所有子过程都集成到系统中,用户只需提供输入材料)。

一种新的时间一致稳定扩散视频特征系统

MIMO 的概念图。来源:https://arxiv.org/pdf/2409.16160

源视频中的对象从 2D 转换为 3D,最初使用单目深度估计器Depth Anything 。使用改编自Tune-A-Video项目的方法提取任何帧中的人体元素。

然后,这些特征通过 Facebook Research 的Segment Anything 2架构转换为基于视频的体积方面。

场景层本身是通过移除在其他两个层中检测到的对象获得的,从而有效地自动提供转描机风格的蒙版。

对于运动,一组提取的人体元素潜在代码被锚定到基于默认人体 CGI 的 SMPL 模型,其动作为呈现的人体内容提供了背景。

人类内容的2D特征图由 NVIDIA 2020 年计划衍生的可微分光栅化器获得。将 SMPL 获得的 3D 数据与 NVIDIA 方法获得的 2D 数据相结合,代表“神经人”的潜在代码与其最终上下文具有紧密的对应关系。

此时,有必要建立一个在使用 SMPL 的架构中通常需要的参考——规范姿势。这与达芬奇的“维特鲁威人”大致相似,因为它代表了一个零姿势模板,可以接受内容然后变形,并带上(有效)纹理映射的内容。

这些变形或“偏离常态”代表了人类的运动,而 SMPL 模型保留了构成已提取的人类身份的潜在代码,从而在姿势和纹理方面正确地表示了最终的化身。

一种新的时间一致稳定扩散视频特征系统

SMPL 图中典型姿势的示例。来源:https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

关于纠缠问题(当训练数据超出其训练范围和关联时,其变得不灵活的程度),作者指出*:

“为了完全从摆姿视频帧中分离出外观,理想的解决方案是从单目视频中学习动态人体表征,并将其从摆姿空间转换到规范空间。

“考虑到效率,我们采用了一种简化的方法,使用预先训练的人体姿势模型将摆好姿势的人体图像直接转换为标准 A 姿势的规范结果。合成的规范外观图像被输入到 ID 编码器以获得身份。

“这种简单的设计可以完全分离身份和运动属性。继 [ Animate Everyone ] 之后,ID 编码器包括CLIP图像编码器和参考网络架构,分别用于嵌入全局和局部特征。”

对于场景和遮挡方面,使用共享和固定的变分自动编码器(VAE – 在本例中源自2013 年的出版物) 将场景和遮挡元素嵌入潜在空间。不协调之处由2023 年ProPainter项目中的修复方法处理。

一旦以这种方式组装和修饰,视频中的背景和任何遮挡物体都会为移动的人类头像提供遮罩。

然后将这些分解后的属性输入到基于稳定扩散 V1.5 架构的U-Net主干中。完整的场景代码与主机系统的原生潜在噪声连接在一起。人类组件分别通过自注意力层和交叉注意力层进行集成。

然后,通过 VAE 解码器输出去噪结果。

数据和测试

为了进行训练,研究人员创建了名为 HUD-7K 的人体视频数据集,其中包含 5,000 个真实人物视频和 2,000 个由En3D系统创建的合成动画。由于 MIMO 架构中的人物提取程序具有非语义性质,因此真实视频不需要注释。合成数据已完全注释。

该模型在八块 NVIDIA A100 GPU 上进行训练(尽管论文没有具体说明这些是 40GB 还是 80GB VRAM 型号),进行了 50 次迭代,使用 24 个视频帧和4 的批量大小,直到收敛。

系统的运动模块是在 AnimateDiff 的权重上进行训练的。在训练过程中,VAE 编码器/解码器和 CLIP 图像编码器的权重被冻结(与完全微调相反,这将对基础模型产生更广泛的影响)。

尽管 MIMO 尚未针对类似系统进行测试,但研究人员在来自AMASS和Mixamo 的复杂非分布运动序列上对其进行了测试。这些动作包括攀爬、玩耍和跳舞。

他们还在野外人类视频上测试了该系统。在这两种情况下,论文都报告了从不同角度对这些看不见的 3D 运动的“高稳健性”。

虽然该论文提供了多个静态图像结果来证明系统的有效性,但最好通过项目页面上提供的大量视频结果以及下面嵌入的 YouTube 视频(本文开头的视频即源于此)来评估 MIMO 的真实性能。

作者总结道:

实验结果证明,我们的方法不仅能够灵活地控制角色、动作和场景,而且还具有对任意角色的高级可扩展性、对新颖的 3D 运动的通用性以及对交互式场景的适用性。

“我们还 [相信],我们的解决方案考虑到固有的 3D 特性并自动将 2D 视频编码为分层空间组件,可以启发未来对 3D 感知视频合成的研究。

“此外,我们的框架不仅适合生成角色视频,还可以潜在地适应其他可控的视频合成任务。”

结论

看到基于稳定扩散的化身系统具有如此的时间稳定性是令人耳目一新的,尤其是因为高斯化身似乎在这个特定的研究领域占据了上风。

结果中所呈现的风格化化身是有效的,尽管 MIMO 所能产生的照片级真实感水平目前不如高斯分层技术所能达到的水平,但在基于语义的潜在扩散网络 (LDM) 中创建时间一致的人类的多种优势是相当可观的。

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/yi-zhong-xin-de-shi-jian-yi-zhi-wen-ding-kuo-san-shi-pin-te

Like (0)
点点的头像点点
Previous 2024年9月26日 下午10:00
Next 2024年9月27日 上午9:00

相关推荐

发表回复

Please Login to Comment