波兰和英国研究人员之间的新合作提出了使用高斯溅射技术编辑图像的前景,通过暂时将图像的选定部分解释为 3D 空间,允许用户修改和操作图像的 3D 表示,然后应用变换。
由于高斯 Splat 元素暂时由三角形网格表示,并瞬间进入“CGI 状态”,因此集成到该过程中的物理引擎可以解释自然运动,要么改变对象的静态状态,要么制作动画。
该过程不涉及生成式 AI,这意味着不涉及潜在扩散模型(LDM),这与在 Adobe Stock(以前称为 Fotolia)上进行训练的Adobe Firefly 系统不同。
该系统名为MiraGe,它将选择内容解释为 3D 空间,并通过创建选择的镜像来推断几何形状,并近似于可在 Splat 中体现的 3D 坐标,然后将图像解释为网格。
点击播放。更多元素示例,这些元素要么由 MiraGe 系统用户手动更改,要么受到基于物理的变形的影响。
作者将 MiraGe 系统与以前的方法进行了比较,发现它在目标任务中取得了最先进的性能。
zBrush 建模系统的用户会熟悉这个过程,因为 zBrush 允许用户从本质上“展平”3D 模型并添加 2D 细节,同时保留底层网格,并将新细节解释到其中 – “冻结”与 MiraGe 方法相反,其操作更像 Firefly 或其他 Photoshop 风格的模态操作,例如扭曲或粗略的 3D 解释。
论文指出:
“[我们] 引入了一个通过模拟人类解读来编码二维图像的模型。具体来说,我们的模型将二维图像视为人类看待照片或纸张的方式,将其视为三维空间内的平面物体。
“这种方法可以实现直观、灵活的图像编辑,捕捉人类感知的细微差别,同时实现复杂的转换。”
这篇新论文的标题是《MiraGe:使用高斯分层技术编辑 2D 图像》,由克拉科夫雅盖隆大学和剑桥大学的四位作者共同撰写。该系统的完整代码已在 GitHub 上发布。
让我们来看看研究人员如何应对这一挑战。
方法
MiraGe 方法采用了高斯网格分层(GaMeS) 参数化技术,该技术由包括两位新论文作者在内的团队开发。GaMeS 允许将高斯网格分层解释为传统的 CGI 网格,并使其符合 CGI 社区在过去几十年中开发的标准扭曲和修改技术。
MiraGe 在二维空间中解释“平面”高斯,并使用 GaMeS 将内容暂时“拉”入支持 GSplat 的三维空间。
我们可以在上图的左下角看到,MiraGe 创建了需要解释的图像部分的“镜像”。
“[我们]采用了一种新颖的方法,利用两个沿 Y 轴放置的相对摄像头,对称排列在原点周围并相互指向。第一个摄像头的任务是重建原始图像,而第二个摄像头则模拟镜面反射。
“因此,照片被概念化为一张半透明的描图纸,嵌入在 3D 空间环境中。通过水平翻转 [图像] 可以有效地表示反射。这种镜面相机设置增强了生成的反射的保真度,为准确捕捉视觉元素提供了强大的解决方案。”
论文指出,一旦实现了这种提取,通常很难进行的透视调整就可以通过直接在 3D 中进行编辑来实现。在下面的示例中,我们看到了一张仅包含手臂的女性图像。在这个例子中,用户以合理的方式将手向下倾斜,而这仅通过推动像素来实现是一项具有挑战性的任务。
使用 Photoshop 中的 Firefly 生成工具尝试此操作通常意味着手会被合成的、扩散想象的手所取代,从而破坏编辑的真实性。即使是功能更强大的系统,例如用于稳定扩散的ControlNet辅助系统和其他潜在扩散模型(例如 Flux),也难以在图像到图像管道中实现这种编辑。
这一研究主要由使用隐式神经表征 (INR) 的方法主导,例如SIREN和WIRE。隐式和显式表示方法之间的区别在于,模型的坐标不能在使用连续函数的INR 中直接寻址。
相比之下,高斯溅射提供了明确且可寻址的 X/Y/Z笛卡尔坐标,即使它使用高斯椭圆而不是体素或其他在 3D 空间中描绘内容的方法。
作者指出,在 2D 空间中使用 GSplat 的想法最突出地体现在 2024 年中国学术合作项目GaussianImage中,该项目提供了 Gaussian Splatting 的 2D 版本,可实现 1000fps 的推理帧率。然而,该模型没有与图像编辑相关的实现。
GaMeS 参数化将选定区域提取为高斯/网格表示后,使用2018 年 CSAIL 论文中首次概述的物质点法 (MPM) 技术重建图像。
在 MiraGe 中,在改变的过程中,高斯 Splat 作为等效网格版本的指导代理存在,就像3DMM CGI 模型经常用作隐式神经渲染技术(如神经辐射场 (NeRF))的编排方法一样。
在此过程中,二维对象在三维空间中建模,而未受影响的图像部分对于最终用户是不可见的,因此操作的上下文效果直到过程结束才会显现出来。
MiraGe 可以集成到流行的开源 3D 程序Blender中,该程序现在经常用于包含 AI 的工作流程,主要用于图像到图像的目的。
作者提供了两种基于高斯溅射的变形方法版本——非晶态和石墨。
Amorphous 方法直接利用 GaMeS 方法,并允许提取的 2D 选择在 3D 空间中自由移动,而 Graphite 方法在初始化和训练期间将高斯限制在 2D 空间中。
研究人员发现,尽管非晶态方法可能比石墨方法更好地处理复杂形状,但当变形的边缘与图像中未受影响的部分对齐时,“撕裂”或裂痕伪影更加明显*。
因此,他们开发了前面提到的‘镜像’系统:
“[我们]采用了一种新颖的方法,利用两个沿 Y 轴放置的相对的摄像机,围绕原点对称排列并彼此相对。
“第一台相机负责重建原始图像,而第二台相机负责模拟镜面反射。因此,照片被概念化为一张半透明的描图纸,嵌入在 3D 空间环境中。通过水平翻转 [图像] 可以有效地表示反射。
“这种镜面相机设置增强了产生的反射的保真度,为准确捕捉视觉元素提供了强大的解决方案。”
论文指出,MiraGe 可以使用外部物理引擎,例如Blender或Taichi_Elements中提供的引擎。
数据和测试
在对 MiraGe 进行测试的图像质量评估中,使用了信噪比(SNR) 和MS-SIM指标。
使用的数据集是Kodak Lossless True Color Image Suite和DIV2K验证集。这些数据集的分辨率适合与最接近的先前工作 Gaussian Image 进行比较。试用的其他竞争框架是 SIREN、WIRE、NVIDIA 的即时神经图形基元(I-NGP) 和NeuRBF。
实验在 NVIDIA GEFORCE RTX 4070 笔记本电脑和 NVIDIA RTX 2080 上进行。
对于这些结果,作者指出:
“我们发现我们的提议在两个数据集上都优于以前的解决方案。与所有以前的方法相比,这两个指标衡量的质量都有显著改善。”
结论
MiraGe 对 2D Gaussian Splatting 的改编显然是一次新兴的、尝试性的尝试,它可能被证明是一种非常有趣的替代方案,可以替代使用扩散模型来对图像进行修改的奇思妙想(即通过 Firefly 和其他基于 API 的扩散方法,以及通过开源架构,如 Stable Diffusion 和 Flux)。
尽管有许多扩散模型可以对图像产生微小的变化,但 LDM 受到其语义的限制,并且通常对基于文本的用户修改请求采用“过度想象”的方法。
因此,将图像的一部分暂时拉入 3D 空间,对其进行操作并将其替换回图像中,同时仅使用源图像作为参考,这似乎是高斯溅射在未来可能非常适合的任务。
原创文章,作者:AI评测师,如若转载,请注明出处:https://www.dian8dian.com/shi-yong-gao-si-jian-she-jin-xing-tu-xiang-bian-ji