使用高斯溅射进行图像编辑

AI评测师 • 2024年10月5日上午10:00 • AI前沿 • 110 views

波兰和英国研究人员之间的新合作提出了使用高斯溅射技术编辑图像的前景，通过暂时将图像的选定部分解释为 3D 空间，允许用户修改和操作图像的 3D 表示，然后应用变换。

要改变猫头的方向，相关部分会通过高斯溅射移动到 3D 空间，然后由用户进行操作。然后应用修改。该过程类似于 Adobe 软件中的各种模态技术，这些技术会锁定界面，直到当前复杂的过程完成。

由于高斯 Splat 元素暂时由三角形网格表示，并瞬间进入“CGI 状态”，因此集成到该过程中的物理引擎可以解释自然运动，要么改变对象的静态状态，要么制作动画。

新 MiraGe 系统中内置的物理引擎可以对物理运动进行自然的诠释，无论是动画还是图像的静态改变。

该过程不涉及生成式 AI，这意味着不涉及潜在扩散模型(LDM)，这与在 Adobe Stock（以前称为 Fotolia）上进行训练的Adobe Firefly 系统不同。

该系统名为MiraGe，它将选择内容解释为 3D 空间，并通过创建选择的镜像来推断几何形状，并近似于可在 Splat 中体现的 3D 坐标，然后将图像解释为网格。

点击播放。更多元素示例，这些元素要么由 MiraGe 系统用户手动更改，要么受到基于物理的变形的影响。

作者将 MiraGe 系统与以前的方法进行了比较，发现它在目标任务中取得了最先进的性能。

zBrush 建模系统的用户会熟悉这个过程，因为 zBrush 允许用户从本质上“展平”3D 模型并添加 2D 细节，同时保留底层网格，并将新细节解释到其中 – “冻结”与 MiraGe 方法相反，其操作更像 Firefly 或其他 Photoshop 风格的模态操作，例如扭曲或粗略的 3D 解释。

参数化高斯 Splats 允许 MiraGe 对 2D 图像的选定区域进行高质量重建，并将软体物理应用于临时 3D 选择。

论文指出：

“[我们] 引入了一个通过模拟人类解读来编码二维图像的模型。具体来说，我们的模型将二维图像视为人类看待照片或纸张的方式，将其视为三维空间内的平面物体。

“这种方法可以实现直观、灵活的图像编辑，捕捉人类感知的细微差别，同时实现复杂的转换。”

这篇新论文的标题是《MiraGe：使用高斯分层技术编辑 2D 图像》，由克拉科夫雅盖隆大学和剑桥大学的四位作者共同撰写。该系统的完整代码已在 GitHub 上发布。

让我们来看看研究人员如何应对这一挑战。

方法

MiraGe 方法采用了高斯网格分层(GaMeS) 参数化技术，该技术由包括两位新论文作者在内的团队开发。GaMeS 允许将高斯网格分层解释为传统的 CGI 网格，并使其符合 CGI 社区在过去几十年中开发的标准扭曲和修改技术。

MiraGe 在二维空间中解释“平面”高斯，并使用 GaMeS 将内容暂时“拉”入支持 GSplat 的三维空间。

每个平面高斯分布都表示为三角形云中的三个点，称为“三角汤”，这使得推断的图像易于处理。

我们可以在上图的左下角看到，MiraGe 创建了需要解释的图像部分的“镜像”。

“[我们]采用了一种新颖的方法，利用两个沿 Y 轴放置的相对摄像头，对称排列在原点周围并相互指向。第一个摄像头的任务是重建原始图像，而第二个摄像头则模拟镜面反射。

“因此，照片被概念化为一张半透明的描图纸，嵌入在 3D 空间环境中。通过水平翻转 [图像] 可以有效地表示反射。这种镜面相机设置增强了生成的反射的保真度，为准确捕捉视觉元素提供了强大的解决方案。”

论文指出，一旦实现了这种提取，通常很难进行的透视调整就可以通过直接在 3D 中进行编辑来实现。在下面的示例中，我们看到了一张仅包含手臂的女性图像。在这个例子中，用户以合理的方式将手向下倾斜，而这仅通过推动像素来实现是一项具有挑战性的任务。

MiraGe 编辑技术的一个示例。

使用 Photoshop 中的 Firefly 生成工具尝试此操作通常意味着手会被合成的、扩散想象的手所取代，从而破坏编辑的真实性。即使是功能更强大的系统，例如用于稳定扩散的ControlNet辅助系统和其他潜在扩散模型（例如 Flux），也难以在图像到图像管道中实现这种编辑。

这一研究主要由使用隐式神经表征 (INR) 的方法主导，例如SIREN和WIRE。隐式和显式表示方法之间的区别在于，模型的坐标不能在使用连续函数的INR 中直接寻址。

相比之下，高斯溅射提供了明确且可寻址的 X/Y/Z笛卡尔坐标，即使它使用高斯椭圆而不是体素或其他在 3D 空间中描绘内容的方法。

作者指出，在 2D 空间中使用 GSplat 的想法最突出地体现在 2024 年中国学术合作项目GaussianImage中，该项目提供了 Gaussian Splatting 的 2D 版本，可实现 1000fps 的推理帧率。然而，该模型没有与图像编辑相关的实现。

GaMeS 参数化将选定区域提取为高斯/网格表示后，使用2018 年 CSAIL 论文中首次概述的物质点法 (MPM) 技术重建图像。

在 MiraGe 中，在改变的过程中，高斯 Splat 作为等效网格版本的指导代理存在，就像3DMM CGI 模型经常用作隐式神经渲染技术（如神经辐射场 (NeRF)）的编排方法一样。

在此过程中，二维对象在三维空间中建模，而未受影响的图像部分对于最终用户是不可见的，因此操作的上下文效果直到过程结束才会显现出来。

MiraGe 可以集成到流行的开源 3D 程序Blender中，该程序现在经常用于包含 AI 的工作流程，主要用于图像到图像的目的。

Blender 中 MiraGe 的工作流程，涉及 2D 图像中描绘的人物手臂的移动。

作者提供了两种基于高斯溅射的变形方法版本——非晶态和石墨。

Amorphous 方法直接利用 GaMeS 方法，并允许提取的 2D 选择在 3D 空间中自由移动，而 Graphite 方法在初始化和训练期间将高斯限制在 2D 空间中。

研究人员发现，尽管非晶态方法可能比石墨方法更好地处理复杂形状，但当变形的边缘与图像中未受影响的部分对齐时，“撕裂”或裂痕伪影更加明显*。

因此，他们开发了前面提到的‘镜像’系统：

“[我们]采用了一种新颖的方法，利用两个沿 Y 轴放置的相对的摄像机，围绕原点对称排列并彼此相对。

“第一台相机负责重建原始图像，而第二台相机负责模拟镜面反射。因此，照片被概念化为一张半透明的描图纸，嵌入在 3D 空间环境中。通过水平翻转 [图像] 可以有效地表示反射。

“这种镜面相机设置增强了产生的反射的保真度，为准确捕捉视觉元素提供了强大的解决方案。”

论文指出，MiraGe 可以使用外部物理引擎，例如Blender或Taichi_Elements中提供的引擎。

数据和测试

在对 MiraGe 进行测试的图像质量评估中，使用了信噪比(SNR) 和MS-SIM指标。

使用的数据集是Kodak Lossless True Color Image Suite和DIV2K验证集。这些数据集的分辨率适合与最接近的先前工作 Gaussian Image 进行比较。试用的其他竞争框架是 SIREN、WIRE、NVIDIA 的即时神经图形基元(I-NGP) 和NeuRBF。

实验在 NVIDIA GEFORCE RTX 4070 笔记本电脑和 NVIDIA RTX 2080 上进行。

根据新论文中的结果，MiraGe 针对所选的先前框架提供了最先进的结果。

对于这些结果，作者指出：

“我们发现我们的提议在两个数据集上都优于以前的解决方案。与所有以前的方法相比，这两个指标衡量的质量都有显著改善。”

结论

MiraGe 对 2D Gaussian Splatting 的改编显然是一次新兴的、尝试性的尝试，它可能被证明是一种非常有趣的替代方案，可以替代使用扩散模型来对图像进行修改的奇思妙想（即通过 Firefly 和其他基于 API 的扩散方法，以及通过开源架构，如 Stable Diffusion 和 Flux）。

尽管有许多扩散模型可以对图像产生微小的变化，但 LDM 受到其语义的限制，并且通常对基于文本的用户修改请求采用“过度想象”的方法。

因此，将图像的一部分暂时拉入 3D 空间，对其进行操作并将其替换回图像中，同时仅使用源图像作为参考，这似乎是高斯溅射在未来可能非常适合的任务。

原创文章，作者：AI评测师，如若转载，请注明出处：https://www.dian8dian.com/shi-yong-gao-si-jian-she-jin-xing-tu-xiang-bian-ji

AI 的工作流 Blender ControlNet GaMeS GitHub MiraGe 神经图形

Like (0)

AI评测师作者

0 0

人工智能会成为你的老板吗？

Previous 2024年10月5日

微软的 TorchGeo 如何为机器学习专家简化地理空间数据

Next 2024年10月5日

AI前沿

据报道，TikTok 的研究承认其对青少年产生了负面影响

据美国国家公共广播电台和肯塔基公共广播电台报道，法庭文件表明，TikTok 高管意识到该应用对青少年的潜在危害。本周早些时候， 14 名美国总检察长起诉 TikTok ，声称该应…

点点
2024年10月13日
000
AI前沿

Patlytics获得1400万美元A轮融资，推动专利分析平台发展

Patlytics，一家领先的专利分析平台提供商，近日宣布成功完成1400万美元的A轮融资。这笔资金将主要用于加速平台的技术研发、市场拓展及团队扩张，从而进一步提升Patlytic…

王浩然
2025年2月27日
000
AI前沿

Nscale 将向英国数据中心投资 25 亿美元，助力生成式人工智能和政府雄心

总部位于伦敦的 AI 超大规模提供商Nscale宣布，计划在未来三年内向英国数据中心行业投资 25 亿美元（20 亿英镑）。这一重大承诺将支持英国政府的 AI 机遇行动计划以及该国…

王浩然
2025年1月14日
000
AI前沿

挪威1X公司正在研发家用仿人机器人

挪威的创新科技公司1X近日宣布，他们正在致力于开发一款专为家庭环境设计的仿人机器人。这一项目旨在通过先进的人工智能和机器人技术，为日常生活带来便利和新的互动体验。据1X公司介绍，…

王浩然
2025年2月26日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

Grok 3疑似短暂屏蔽对特朗普和马斯克的负面提及

近日，有报道称，人工智能系统Grok 3似乎曾短暂地对涉及特朗普和马斯克的负面言论进行了屏蔽。这一发现引发了公众的广泛关注与讨论，人们开始质疑Grok 3是否具备足够的公正性和客观…

王浩然
2025年2月26日
000
AI前沿

Archetype AI 的牛顿模型无需人类帮助，就能从原始数据中学习物理

Archetype AI的研究人员开发了一种基础 AI 模型，能够直接从传感器数据中学习复杂的物理原理，而无需任何预编程知识。这一突破可能会极大地改变我们理解和与物理世界互动的方式…

王浩然
2024年10月19日
000
AI前沿

微软将在25财年斥资800亿美元建设人工智能数据中心

据公司博客文章称，微软已在 2025 财年拨款 800 亿美元用于建设用于处理人工智能工作负载的数据中心。具体来说，这家科技巨头计划建立支持人工智能的数据中心，“以训练人工智能模…

王浩然
2025年1月4日
000
AI前沿

可信任的AI Agent是通向智能应用的必经之路

生成式人工智能浪潮下，软件应用正逐渐从以往促进流程、工作流和任务的工具，转变为能够代表终端用户开展工作的智能系统，特别是在企业级市场，软件应用将从仅仅支持业务流程的执行，逐步演变为…

点点
2024年10月17日
000
AI前沿

苹果研究揭露法学硕士“推理”能力严重缺陷

不相关的干扰性论点会导致逻辑推理“灾难性”失败。

点点
2024年10月16日
000
AI前沿

人工智能领域的女性：Sophia Velastegui 认为人工智能发展速度太快

记者采访了索菲亚·维拉斯特吉 (Sophia Velastegui)，该系列旨在让专注于人工智能的女性学者和其他人士获得应得的（也是迟来的）关注。维拉斯特吉是美国国家科学基金会…

王浩然
2024年11月4日
000
AI前沿

ZipRecruiter 的新工具将快速匹配潜在候选人并安排介绍电话

招聘平台ZipRecruiter正在推出一款名为 ZipIntro 的新工具，让雇主可以在规定时间安排与潜在候选人的介绍电话。该工具还将帮助招聘人员使用人工智能推荐潜在候选人。雇…

王浩然
2024年9月8日
000
AI前沿

超越RAG：SEARCH-R1将搜索引擎直接融入推理模型

在人工智能（AI）领域，大型语言模型（LLM）的推理能力取得了显著进步。然而，这些模型在结合推理能力正确引用和使用外部数据——即它们未接受训练的信息——方面仍存在较大不足。这一问题…

王浩然
2025年3月22日
000
AI前沿

雷军 AI 配音骂人在抖音疯传，本人怒了，警惕 Deepfake 泛滥的新时代

请问，长假 7 天，被 AI 用雷军的声音骂了 6 天，是什么体验？雷军本人无辜躺枪，博主们在违法边缘试探或者已经违法，网友短暂地看了热闹然后回归工位，小米法务部两眼一黑，收不回…

点点
2024年10月9日
000
AI前沿

微软正致力于打造适用于Copilot的3D游戏体验‌

近期，有迹象表明微软正着手开发一款专为Copilot设计的3D游戏体验。这一举措不仅彰显了微软在游戏领域的持续探索与创新，也预示着AI与游戏技术的深度融合将迎来新的发展阶段。据悉…

王浩然
2025年3月12日
000
AI前沿

aiOla 推出开源AI 音频转录模型，可实时隐藏敏感信息

希望使用人工智能模型来转录高管、员工和客户的音频（特别是人类语音）的企业可能会对人工智能程序监听和记录敏感信息的想法持谨慎态度。然而，以色列音频 AI 初创公司aiOla有一个新…

王浩然
2024年11月23日
000
AI前沿

南加州大学计算机科学副教授 Sean Ren – 访谈系列

Sean Ren是南加州大学(USC)计算机科学副教授，也是 Andrew and Erna Viterbi 早期职业主席。他领导智能与知识发现 (INK) 研究实验室，并在USC…

点点
2024年10月22日
000
AI前沿

Agentic AI：重塑企业会议的新篇章

一、引言：超越转录的智能会议助手在数字化转型的浪潮中，企业会议作为沟通协作的核心环节，正经历着前所未有的变革。Agentic AI，作为一种新兴的人工智能技术，正逐步超越传统的语…

王浩然
2025年3月28日
000
AI前沿

谷歌 GenAI 面临欧洲隐私风险评估审查

谷歌在欧盟的主要隐私监管机构已展开调查，以查明该公司在使用个人信息训练生成式人工智能方面是否遵守了欧盟的数据保护法。具体来说，它正在调查这家科技巨头是否需要进行数据保护影响评估（…

王浩然
2024年9月14日
000
AI前沿

麻省理工学院的 Clio 如何增强机器人的场景理解

机器人感知长期以来一直受到现实环境复杂性的挑战，通常需要固定设置和预定义对象。麻省理工学院的工程师开发了 Clio，这是一个突破性的系统，可让机器人直观地理解并优先考虑周围环境中的…

点点
2024年10月7日
000

发表回复

Please Login to Comment

使用高斯溅射进行图像编辑

方法

数据和测试

结论

相关推荐

发表回复

Share To :