一种新的时间一致稳定扩散视频特征系统

点点 • 2024年9月27日上午8:00 • AI前沿 • 95 views

阿里巴巴集团的一项新举措提供了我所见过的最佳方法之一，即通过基于稳定扩散的基础模型生成全身人体化身。

该系统名为MIMO（MIM icking with O bject Interactions），采用了一系列流行的技术和模块，包括基于 CGI 的人体模型和AnimateDiff，以实现视频中时间一致的角色替换，或者以用户定义的骨骼姿势驱动角色。

在这里，我们看到从单个图像源插入的字符，并由预定义的运动驱动：

从单一源图像中，使用 MIMO 系统，三个不同的角色由 3D 姿势序列（最左边）驱动。 有关更多示例和更高分辨率，请参阅项目网站和随附的 YouTube 视频（嵌入在本文末尾）。来源：https://menyifang.github.io/projects/MIMO/index.html

生成的角色也可以从视频帧中或其他多种方式获取，并可以集成到现实世界的镜头中。

MIMO 提供了一种新颖的系统，该系统可生成三个离散编码，分别用于角色、场景和遮挡（即遮挡，当某个物体或人从所描绘的角色前面经过时）。这些编码在推理时集成。

MIMO 可以将原始角色替换为跟随目标视频中动作的逼真或风格化角色。请参阅项目网站和随附的 YouTube 视频（嵌入在本文末尾），了解更多示例和更高分辨率。

该系统在稳定扩散 V1.5 模型上进行训练，使用由研究人员整理的自定义数据集，并由真实世界和模拟视频组成。

基于扩散的视频的最大问题是时间稳定性，其中视频内容要么闪烁，要么以不利于一致角色表现的方式“演变”。

相反，MIMO 有效地使用单个图像作为一致引导的地图，可以通过间质SMPL CGI 模型进行协调和约束。

由于源参考是一致的，并且系统训练的基础模型已经通过足够的代表性运动示例得到增强，因此系统的时间一致性输出能力远远高于基于扩散的化身的一般标准。

姿势驱动 MIMO 角色的更多示例。请参阅项目网站和随附的 YouTube 视频（嵌入在本文末尾），获取更多示例和更高分辨率。

单幅图像被用作有效神经表征的来源正变得越来越普遍，无论是单独使用还是以多模态方式与文本提示相结合。例如，流行的LivePortrait面部传输系统也可以从单幅面部图像生成高度可信的深度伪造面部。

研究人员认为，MIMO 系统所使用的原理可以扩展到其他新型的生成系统和框架中。

这篇新论文的标题是《MIMO：基于空间分解模型的可控角色视频合成》，由阿里巴巴集团智能计算研究院的四位研究人员完成。该论文有一个包含大量视频的项目页面和一个配套的YouTube 视频，也嵌入在本文底部。

方法

MIMO以端到端架构实现了上述三个空间成分的自动、无监督分离（即所有子过程都集成到系统中，用户只需提供输入材料）。

MIMO 的概念图。来源：https://arxiv.org/pdf/2409.16160

源视频中的对象从 2D 转换为 3D，最初使用单目深度估计器Depth Anything 。使用改编自Tune-A-Video项目的方法提取任何帧中的人体元素。

然后，这些特征通过 Facebook Research 的Segment Anything 2架构转换为基于视频的体积方面。

场景层本身是通过移除在其他两个层中检测到的对象获得的，从而有效地自动提供转描机风格的蒙版。

对于运动，一组提取的人体元素潜在代码被锚定到基于默认人体 CGI 的 SMPL 模型，其动作为呈现的人体内容提供了背景。

人类内容的2D特征图由 NVIDIA 2020 年计划衍生的可微分光栅化器获得。将 SMPL 获得的 3D 数据与 NVIDIA 方法获得的 2D 数据相结合，代表“神经人”的潜在代码与其最终上下文具有紧密的对应关系。

此时，有必要建立一个在使用 SMPL 的架构中通常需要的参考——规范姿势。这与达芬奇的“维特鲁威人”大致相似，因为它代表了一个零姿势模板，可以接受内容然后变形，并带上（有效）纹理映射的内容。

这些变形或“偏离常态”代表了人类的运动，而 SMPL 模型保留了构成已提取的人类身份的潜在代码，从而在姿势和纹理方面正确地表示了最终的化身。

SMPL 图中典型姿势的示例。来源：https://www.researchgate.net/figure/Layout-of-23-joints-in-the-SMPL-models_fig2_351179264

关于纠缠问题（当训练数据超出其训练范围和关联时，其变得不灵活的程度），作者指出*：

“为了完全从摆姿视频帧中分离出外观，理想的解决方案是从单目视频中学习动态人体表征，并将其从摆姿空间转换到规范空间。

“考虑到效率，我们采用了一种简化的方法，使用预先训练的人体姿势模型将摆好姿势的人体图像直接转换为标准 A 姿势的规范结果。合成的规范外观图像被输入到 ID 编码器以获得身份。

“这种简单的设计可以完全分离身份和运动属性。继 [ Animate Everyone ] 之后，ID 编码器包括CLIP图像编码器和参考网络架构，分别用于嵌入全局和局部特征。”

对于场景和遮挡方面，使用共享和固定的变分自动编码器(VAE – 在本例中源自2013 年的出版物) 将场景和遮挡元素嵌入潜在空间。不协调之处由2023 年ProPainter项目中的修复方法处理。

一旦以这种方式组装和修饰，视频中的背景和任何遮挡物体都会为移动的人类头像提供遮罩。

然后将这些分解后的属性输入到基于稳定扩散 V1.5 架构的U-Net主干中。完整的场景代码与主机系统的原生潜在噪声连接在一起。人类组件分别通过自注意力层和交叉注意力层进行集成。

然后，通过 VAE 解码器输出去噪结果。

数据和测试

为了进行训练，研究人员创建了名为 HUD-7K 的人体视频数据集，其中包含 5,000 个真实人物视频和 2,000 个由En3D系统创建的合成动画。由于 MIMO 架构中的人物提取程序具有非语义性质，因此真实视频不需要注释。合成数据已完全注释。

该模型在八块 NVIDIA A100 GPU 上进行训练（尽管论文没有具体说明这些是 40GB 还是 80GB VRAM 型号），进行了 50 次迭代，使用 24 个视频帧和4 的批量大小，直到收敛。

系统的运动模块是在 AnimateDiff 的权重上进行训练的。在训练过程中，VAE 编码器/解码器和 CLIP 图像编码器的权重被冻结（与完全微调相反，这将对基础模型产生更广泛的影响）。

尽管 MIMO 尚未针对类似系统进行测试，但研究人员在来自AMASS和Mixamo 的复杂非分布运动序列上对其进行了测试。这些动作包括攀爬、玩耍和跳舞。

他们还在野外人类视频上测试了该系统。在这两种情况下，论文都报告了从不同角度对这些看不见的 3D 运动的“高稳健性”。

虽然该论文提供了多个静态图像结果来证明系统的有效性，但最好通过项目页面上提供的大量视频结果以及下面嵌入的 YouTube 视频（本文开头的视频即源于此）来评估 MIMO 的真实性能。

作者总结道：

实验结果证明，我们的方法不仅能够灵活地控制角色、动作和场景，而且还具有对任意角色的高级可扩展性、对新颖的 3D 运动的通用性以及对交互式场景的适用性。

“我们还 [相信]，我们的解决方案考虑到固有的 3D 特性并自动将 2D 视频编码为分层空间组件，可以启发未来对 3D 感知视频合成的研究。

“此外，我们的框架不仅适合生成角色视频，还可以潜在地适应其他可控的视频合成任务。”

结论

看到基于稳定扩散的化身系统具有如此的时间稳定性是令人耳目一新的，尤其是因为高斯化身似乎在这个特定的研究领域占据了上风。

结果中所呈现的风格化化身是有效的，尽管 MIMO 所能产生的照片级真实感水平目前不如高斯分层技术所能达到的水平，但在基于语义的潜在扩散网络 (LDM) 中创建时间一致的人类的多种优势是相当可观的。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/yi-zhong-xin-de-shi-jian-yi-zhi-wen-ding-kuo-san-shi-pin-te

Like (0)

点点

0 0

OpenAI 首席研究官随首席技术官 Mira Murati 离职而离职

Previous 2024年9月26日下午10:00

Bluebricks 融资 450 万美元，利用 Atomic Infrastructure™ 技术革新云基础设施管理

Next 2024年9月27日上午9:00

AI前沿

亚马逊聘请人工智能机器人初创公司 Covariant 的创始人

亚马逊周五晚间宣布，已聘用 Covariant 的创始人Pieter Abbeel、Peter Chen 和 Rocky Duan，以及该初创公司“约四分之一”的员工。该公司还签署…

王浩然
2024年9月1日
000
AI前沿

Nvidia 的“Eagle”人工智能以超高清视角看世界，它将取代你的工作

Nvidia 的研究人员推出了“ Eagle ”，这是一组新的人工智能模型，可以显著提高机器理解和与视觉信息交互的能力。该项研究发表在 arXiv 上，展示了从视觉问答到文档理解…

王浩然
2024年9月3日
000
AI前沿

用于训练 Stable Diffusion 的数据集背后的组织声称已经删除了 CSAM

德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据，该机构发布了一个新数据集，声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (C…

王浩然
2024年8月31日
000
AI前沿

2024 年融资金额达 1 亿美元或以上的 39 家美国 AI 初创公司的完整名单

对于某些人来说，人工智能疲劳是真实存在的，但显然风险投资者还没有厌倦这一类别。第三季度，人工智能交易继续主导风险投资。根据Crunchbase 的数据，人工智能公司在第三季度筹集…

点点
2024年10月13日
000
AI前沿

迈向通用人工智能：推理与深度研究如何推动AI从统计预测迈向结构化问题解决

引言人工智能（AI）领域正经历着从统计预测向结构化问题解决的深刻转型。这一转型的核心驱动力在于推理与深度研究能力的显著增强。本文旨在探讨这一转型的背景、现状以及推理与深度研究在其…

王浩然
2025年3月18日
000
AI前沿

为什么人工智能无法拼写“草莓”

在“strawberry”这个词中，字母“r”出现了多少次？根据GPT-4o和Claude等强大的 AI 产品的说法，答案是两次。大型语言模型 (LLM) 可以在几秒钟内写出论文…

王浩然
2024年8月28日
000
AI前沿

超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…

王浩然
2025年3月22日
000
AI前沿

GitHub 向 VS Code 开发人员免费提供其 AI 编程 Copilot，但有限制

微软代码存储库子公司 GitHub 宣布推出GitHub Copilot Free，这是其流行的 AI 编码助手的可访问版本，现已直接集成到Visual Studio Code（V…

王浩然
2024年12月21日
000
AI前沿

谷歌地图将在印度显示人工智能点评摘要

谷歌正在印度地图上添加新的人工智能功能，包括人工智能摘要、搜索体验的能力和天气警报。该公司表示，地图应用将分析评论并显示地点摘要。该公司于周四在其年度 Google for In…

王浩然
2024年10月5日
000
AI前沿

Mach9 为基础设施运营商提供更好的信息

清洁的水、安全的道路、可访问的宽带和电力：这些东西都不是理所当然的。它们依赖于庞大的基础设施网络，这些网络需要不断维护和改进才能正常运转。美国在这方面表现糟糕。美国土木工程师学会 …

王浩然
2024年11月16日
000
AI前沿

Halliday获2000万美元A轮融资，致力于开发可在区块链上安全运行的AI代理

融资概况‌ Halliday公司近日宣布成功获得2000万美元的A轮融资，本轮融资由Andreessen Horowitz的加密部门（a16z crypto）领投，使得公司的总融资…

王浩然
2025年3月20日
000
AI前沿

及时的 Stytch：Connected Apps 解开了 AI 代理的授权绑定

人工智能代理将改变ID授权：当它们在后台集成时，它们需要代表我们在不同的应用程序之间无缝移动，而不会被登录屏幕不断阻止，以免变得繁琐。授权平台Stytch首席执行官 …

王浩然
2025年2月20日
000
AI前沿

需要研究假设吗？问问人工智能。

麻省理工学院的工程师开发了人工智能框架来识别可以推动生物启发材料发展的证据驱动假设。提出独特且有前景的研究假设是任何科学家的基本技能。这也可能很耗时：新博士生可能会在项目的第一年…

王浩然
2025年1月3日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

UltiHash 的可持续数据基础设施应对 AI 存储挑战

UltiHash是一家高性能环保数据存储解决方案提供商，该公司已推出其对象存储平台，以解决 AI 数据存储中的关键问题。这一发展旨在解决 AI 行业与基础设施成本和环境可持续性相关…

点点
2024年10月17日
000
AI前沿

Google 的 NotebookLM 是秘密的 CRM 杀手吗？

我从未从事过销售工作，至少不是虚拟销售。我最接近的一次——这是我的年龄——是在十几岁时在商场从事零售工作，然后在我童年住所附近的 VHS/DVD 租赁店工作，所以我非常尊重那些比我…

王浩然
2024年11月1日
000
AI前沿

调查显示 CEO 预计生成式人工智能将带来重大影响

NTT Data 的一份新报告发现，一项新的行业调查显示，几乎所有商业领袖都表示他们已经对生成式人工智能进行了投资，另有 83% 的商业领袖已经建立了专门从事该技术的专家或强大的团…

王浩然
2024年12月2日
000
AI前沿

微软在 Hugging Face 上将强大的 Phi-4 模型完全开源

尽管其大投资伙伴 OpenAI 不断发布更强大的推理模型（例如最新的o3 系列），但微软并没有袖手旁观。相反，它正在开发以自有品牌发布的更强大的小型模型。正如多位现任和前任微软研…

王浩然
2025年1月9日
000
AI前沿

新研究显示，ChatGPT 搜索可能会被欺骗并误导用户

英国《卫报》发现，本月上线的人工智能搜索引擎 ChatGPT Search可能会被欺骗而生成完全误导性的摘要。 ChatGPT 的搜索功能旨在通过总结网页的产品评论等方式加快浏览速…

王浩然
2024年12月27日
000
AI前沿

NIST 提议禁止一些最荒谬的密码规则

美国国家标准与技术研究所 (NIST) 是一家为政府机构、标准组织和私营公司制定技术标准的联邦机构，该机构已提议禁止一些最令人烦恼和荒谬的密码要求。其中最主要的是：强制重置、要求或…

点点
2024年10月1日
000

发表回复

Please Login to Comment

一种新的时间一致稳定扩散视频特征系统

方法

数据和测试

结论

相关推荐

发表回复

Share To :