利用人类注意力可以改善人工智能生成的图像

利用人类注意力可以改善人工智能生成的图像

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型(LDM)生成的图像质量的方法。

该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。

利用人类注意力可以改善人工智能生成的图像

新研究发现,显著性图(左起第四列)可用作过滤器或“掩码”,用于将去噪过程中的注意力集中到人类最有可能关注的图像区域。来源:https://arxiv.org/pdf/2410.10257

传统方法会统一优化整个图像,而新方法则利用显著性检测器来识别和优先考虑更“重要”的区域,就像人类一样。

在定量和定性测试中,研究人员的方法在图像质量和文本提示的保真度方面都能够胜过以前基于扩散的模型。

新方法在有 100 名参与者的人类感知试验中也取得了最佳成绩。

自然选择

显著性是对现实世界和图像中的信息进行优先排序的能力,是人类视觉的重要组成部分。

一个简单的例子是古典艺术更加注重绘画中重要区域的细节,比如肖像画中的脸部,或者海上主题中的船桅杆;在这样的例子中,艺术家的注意力集中在中心主题上,这意味着诸如肖像背景或远处风暴波涛之类的广泛细节比详细细节更粗略,更具广泛代表性。

在人类研究的启发下,过去十年来出现了机器学习方法,可以在任何图片中复制或至少近似人类感兴趣的轨迹。

利用人类注意力可以改善人工智能生成的图像

对象分割(语义分割)有助于区分图像的各个方面,并开发相应的显著性图。来源:https://arxiv.org/pdf/1312.6034

在研究文献中,过去五年中最流行的显著性图检测器是 2016 年梯度加权类激活映射(Grad-CAM) 计划,后来演变为改进的Grad-CAM++系统,以及其他变体和改进。

Grad-CAM 使用语义标记(例如“狗”或“猫”)的梯度激活来生成概念或注释可能在图像中表示的位置的视觉图。

利用人类注意力可以改善人工智能生成的图像

来自原始 Grad-CAM 论文的示例。在第二列中,引导反向传播将所有贡献特征单独化。在第三列中,为“狗”和“猫”这两个概念绘制了语义图。第四列表示前两个推理的串联。第五列是与推理相对应的遮挡(掩蔽)图;最后,在第六列中,Grad-CAM 可视化了 ResNet-18 层。来源:https://arxiv.org/pdf/1610.02391

人类对这些方法获得的结果的调查揭示了图像中关键兴趣点的数学个体化与人类注意力(扫描图像时)之间的对应关系。

韩国大学

新论文探讨了显著性能为文本到图像(以及潜在的文本到视频)系统(如稳定扩散和通量)带来什么。

在解释用户的文本提示时,潜在扩散模型会探索其训练过的潜在空间,以找到与所用单词或短语相对应的学习视觉概念。然后,它们通过去噪过程解析这些找到的数据点,在此过程中,随机噪声逐渐演变为对用户文本提示的创造性解释。

然而,此时,模型对图像的每个部分都给予了同等的关注。自 2022 年扩散模型普及以来,随着 OpenAI 推出可用的Dall-E图像生成器,以及随后 Stability.ai 的稳定扩散框架的开源,用户发现图像的“重要”部分往往得不到充分的服务。

考虑到在典型的人类描绘中,人的脸部(对观看者来说最重要的部分)可能只占整个图像的 10-35% 以上,这种分散注意力的民主方法既违背了人类感知的本质,也违背了艺术和摄影的历史。

当一个人牛仔裤上的纽扣与他们的眼睛承受同样的计算重量时,可以说资源分配是非最优的。

因此,作者提出的新方法,即显著性引导的扩散潜势优化SGOOL),使用显著性映射器来增加对图片中被忽视区域的注意力,而对可能停留在观看者注意力边缘的部分投入更少的资源。

方法

SGOOL 管道包括图像生成、显著性映射和优化,对整体图像和显著性细化图像进行联合处理。

利用人类注意力可以改善人工智能生成的图像

SGOOL 的概念模式。

扩散模型的潜在嵌入直接通过微调进行优化,无需训练特定模型。斯坦福大学的去噪扩散隐式模型(DDIM) 采样方法为稳定扩散的用户所熟悉,它经过调整以纳入显着图提供的次要信息。

论文指出:

“我们首先使用显着性检测器来模拟人类视觉注意力系统并标记出显着区域。为了避免重新训练额外的模型,我们的方法直接优化了扩散潜伏期。

“此外,SGOOL 采用可逆扩散过程,并赋予其恒定内存实现的优点。因此,我们的方法成为一种参数高效且即插即用的微调方法。我们已经使用多种指标和人工评估进行了广泛的实验。”

由于该方法需要多次迭代去噪过程,作者采用了直接优化扩散潜伏层(DOODL) 框架,该框架提供了一个可逆的扩散过程——尽管它仍然关注整个图像。

为了确定人类感兴趣的领域,研究人员采用了邓迪大学的 2022 TransalNet 框架。

利用人类注意力可以改善人工智能生成的图像

然后裁剪 TransalNet 处理的显著区域,以生成最有可能引起实际人们兴趣的决定性显著部分。

在定义可以确定流程是否有效的损失函数时,必须考虑用户文本和图像之间的差异。为此,使用了 OpenAI 的对比语言-图像预训练(CLIP) 的一个版本——目前已成为图像合成研究领域的支柱——同时考虑了文本提示和全局(非显著性)图像输出之间的估计语义距离。

作者断言:

“最终的损失函数同时考虑了显著部分和整体图像之间的关系,这有助于在生成过程中平衡局部细节和整体一致性。

“利用这种显著性感知损失来优化图像潜在性。梯度是在噪声[潜在性]上计算的,并利用它来增强输入提示对原始生成图像的显著性和整体方面的调节效果。”

数据和测试

为了测试 SGOOL,作者使用了稳定扩散 V1.4 的“原始”分布(在测试结果中表示为“SD”)和带有 CLIP 指导的稳定扩散(在结果中表示为“基线”)。

该系统根据三个公共数据集进行了评估:CommonSyntacticProcesses (CSP)、DrawBench和 DailyDallE*。

后者包含来自 OpenAI 博客文章中介绍的一位艺术家的 99 个精心设计的提示,而 DrawBench 提供了 11 个类别的 200 个提示。CSP 由基于八种不同语法案例的 52 个提示组成。

对于 SD、baseline 和 SGOOL,在测试中,使用 CLIP 模型在ViT/B-32上生成图像和文本嵌入。使用相同的提示和随机种子。输出大小为 256×256,并使用 TransalNet 的默认权重和设置。

除了 CLIP 分数指标之外,还使用了估计的人类偏好分数(HPS),以及一项有 100 名参与者的真实世界研究。

利用人类注意力可以改善人工智能生成的图像

将 SGOOL 与之前的配置进行比较的定量结果。

对于上表所示的定量结果,论文指出:

“[我们的]模型在所有数据集上的表现都明显优于 SD 和 Baseline,无论是在 CLIP 分数还是 HPS 指标上。我们的模型在 CLIP 分数和 HPS 上的平均结果分别比第二名高出 3.05 和 0.0029。”

作者进一步根据以前的方法估计了 HPS 和 CLIP 分数的箱线图:

利用人类注意力可以改善人工智能生成的图像

测试中获得的 HPS 和 CLIP 分数的箱线图。

他们评论道:

‘可以看出,我们的模型优于其他模型,这表明我们的模型更能够生成与提示一致的图像。

‘然而,在箱线图中,由于此评估指标的大小为 [0, 1],因此不容易从箱线图中直观地看到比较。因此,我们继续绘制相应的条形图。

“可以看出,SGOOL 在 CLIP 分数和 HPS 指标下的所有数据集上都优于 SD 和 Baseline。定量结果表明,我们的模型可以生成语义上更加一致且更受人类青睐的图像。”

研究人员指出,虽然基线模型能够提高图像输出的质量,但它没有考虑图像的显著区域。他们认为,SGOOL 在全局和显著图像评估之间达成妥协,从而获得了更好的图像。

在定性(自动)比较中,SGOOL 和 DOODL 的优化次数设置为 50。

利用人类注意力可以改善人工智能生成的图像
利用人类注意力可以改善人工智能生成的图像

测试的定性结果。请参阅源论文以获得更好的定义。

作者在此指出:

‘在[第一行]中,提示的主题是“一只唱歌的猫”和“一个理发店四重奏”。 SD 生成的图像中有四只猫,图像内容与提示的匹配度很差。

“Baseline 生成的图像中猫被忽略了,脸部的刻画和图像中的细节都缺乏。DOODL 试图生成与提示一致的图像。

“然而,由于 DOODL 直接优化了全局图像,因此图像中的人是针对猫进行优化的。”

他们进一步指出,相比之下,SGOOL 生成的图像与原始提示更加一致。

在人类感知测试中,100 名志愿者评估测试图像的质量和语义一致性(即它们与源文本提示的一致性)。参与者有无限的时间来做出选择。

利用人类注意力可以改善人工智能生成的图像

人类感知测试的结果。

正如论文所指出的,作者的方法明显比之前的方法更受欢迎。

结论

本文提到的缺点在稳定扩散的本地安装中显现出来后不久,出现了各种定制方法(例如After Detailer),迫使系统对人类更感兴趣的领域给予额外的关注。

然而,这种方法要求扩散系统首先经历其正常过程,即对图像的每个部分给予同等的关注,而增加的工作则作为额外的阶段完成。

SGOOL 的证据表明,将基本的人类心理学应用于图像部分的优先排序可以大大增强初步推断,而无需后期处理步骤。

原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/li-yong-ren-lei-zhu-yi-li-ke-yi-gai-shan-ren-gong-zhi-neng

Like (0)
点点的头像点点
Previous 2024年10月17日
Next 2024年10月17日

相关推荐

发表回复

Please Login to Comment