利用人类注意力可以改善人工智能生成的图像

点点 • 2024年10月17日上午9:00 • AI前沿, 技术评测 • 131 views

来自中国的一项新研究提出了一种提高稳定扩散等潜在扩散模型（LDM）生成的图像质量的方法。

该方法专注于优化图像的显著区域——最有可能吸引人类注意力的区域。

新研究发现，显著性图（左起第四列）可用作过滤器或“掩码”，用于将去噪过程中的注意力集中到人类最有可能关注的图像区域。来源：https://arxiv.org/pdf/2410.10257

传统方法会统一优化整个图像，而新方法则利用显著性检测器来识别和优先考虑更“重要”的区域，就像人类一样。

在定量和定性测试中，研究人员的方法在图像质量和文本提示的保真度方面都能够胜过以前基于扩散的模型。

新方法在有 100 名参与者的人类感知试验中也取得了最佳成绩。

自然选择

显著性是对现实世界和图像中的信息进行优先排序的能力，是人类视觉的重要组成部分。

一个简单的例子是古典艺术更加注重绘画中重要区域的细节，比如肖像画中的脸部，或者海上主题中的船桅杆；在这样的例子中，艺术家的注意力集中在中心主题上，这意味着诸如肖像背景或远处风暴波涛之类的广泛细节比详细细节更粗略，更具广泛代表性。

在人类研究的启发下，过去十年来出现了机器学习方法，可以在任何图片中复制或至少近似人类感兴趣的轨迹。

对象分割（语义分割）有助于区分图像的各个方面，并开发相应的显著性图。来源：https://arxiv.org/pdf/1312.6034

在研究文献中，过去五年中最流行的显著性图检测器是 2016 年梯度加权类激活映射(Grad-CAM) 计划，后来演变为改进的Grad-CAM++系统，以及其他变体和改进。

Grad-CAM 使用语义标记（例如“狗”或“猫”）的梯度激活来生成概念或注释可能在图像中表示的位置的视觉图。

来自原始 Grad-CAM 论文的示例。在第二列中，引导反向传播将所有贡献特征单独化。在第三列中，为“狗”和“猫”这两个概念绘制了语义图。第四列表示前两个推理的串联。第五列是与推理相对应的遮挡（掩蔽）图；最后，在第六列中，Grad-CAM 可视化了 ResNet-18 层。来源：https://arxiv.org/pdf/1610.02391

人类对这些方法获得的结果的调查揭示了图像中关键兴趣点的数学个体化与人类注意力（扫描图像时）之间的对应关系。

韩国大学

新论文探讨了显著性能为文本到图像（以及潜在的文本到视频）系统（如稳定扩散和通量）带来什么。

在解释用户的文本提示时，潜在扩散模型会探索其训练过的潜在空间，以找到与所用单词或短语相对应的学习视觉概念。然后，它们通过去噪过程解析这些找到的数据点，在此过程中，随机噪声逐渐演变为对用户文本提示的创造性解释。

然而，此时，模型对图像的每个部分都给予了同等的关注。自 2022 年扩散模型普及以来，随着 OpenAI 推出可用的Dall-E图像生成器，以及随后 Stability.ai 的稳定扩散框架的开源，用户发现图像的“重要”部分往往得不到充分的服务。

考虑到在典型的人类描绘中，人的脸部（对观看者来说最重要的部分）可能只占整个图像的 10-35％以上，这种分散注意力的民主方法既违背了人类感知的本质，也违背了艺术和摄影的历史。

当一个人牛仔裤上的纽扣与他们的眼睛承受同样的计算重量时，可以说资源分配是非最优的。

因此，作者提出的新方法，即显著性引导的扩散潜势优化（SGOOL），使用显著性映射器来增加对图片中被忽视区域的注意力，而对可能停留在观看者注意力边缘的部分投入更少的资源。

方法

SGOOL 管道包括图像生成、显著性映射和优化，对整体图像和显著性细化图像进行联合处理。

SGOOL 的概念模式。

扩散模型的潜在嵌入直接通过微调进行优化，无需训练特定模型。斯坦福大学的去噪扩散隐式模型(DDIM) 采样方法为稳定扩散的用户所熟悉，它经过调整以纳入显着图提供的次要信息。

论文指出：

“我们首先使用显着性检测器来模拟人类视觉注意力系统并标记出显着区域。为了避免重新训练额外的模型，我们的方法直接优化了扩散潜伏期。

“此外，SGOOL 采用可逆扩散过程，并赋予其恒定内存实现的优点。因此，我们的方法成为一种参数高效且即插即用的微调方法。我们已经使用多种指标和人工评估进行了广泛的实验。”

由于该方法需要多次迭代去噪过程，作者采用了直接优化扩散潜伏层(DOODL) 框架，该框架提供了一个可逆的扩散过程——尽管它仍然关注整个图像。

为了确定人类感兴趣的领域，研究人员采用了邓迪大学的 2022 TransalNet 框架。

然后裁剪 TransalNet 处理的显著区域，以生成最有可能引起实际人们兴趣的决定性显著部分。

在定义可以确定流程是否有效的损失函数时，必须考虑用户文本和图像之间的差异。为此，使用了 OpenAI 的对比语言-图像预训练(CLIP) 的一个版本——目前已成为图像合成研究领域的支柱——同时考虑了文本提示和全局（非显著性）图像输出之间的估计语义距离。

作者断言：

“最终的损失函数同时考虑了显著部分和整体图像之间的关系，这有助于在生成过程中平衡局部细节和整体一致性。

“利用这种显著性感知损失来优化图像潜在性。梯度是在噪声[潜在性]上计算的，并利用它来增强输入提示对原始生成图像的显著性和整体方面的调节效果。”

数据和测试

为了测试 SGOOL，作者使用了稳定扩散 V1.4 的“原始”分布（在测试结果中表示为“SD”）和带有 CLIP 指导的稳定扩散（在结果中表示为“基线”）。

该系统根据三个公共数据集进行了评估：CommonSyntacticProcesses (CSP)、DrawBench和 DailyDallE*。

后者包含来自 OpenAI 博客文章中介绍的一位艺术家的 99 个精心设计的提示，而 DrawBench 提供了 11 个类别的 200 个提示。CSP 由基于八种不同语法案例的 52 个提示组成。

对于 SD、baseline 和 SGOOL，在测试中，使用 CLIP 模型在ViT/B-32上生成图像和文本嵌入。使用相同的提示和随机种子。输出大小为 256×256，并使用 TransalNet 的默认权重和设置。

除了 CLIP 分数指标之外，还使用了估计的人类偏好分数(HPS)，以及一项有 100 名参与者的真实世界研究。

将 SGOOL 与之前的配置进行比较的定量结果。

对于上表所示的定量结果，论文指出：

“[我们的]模型在所有数据集上的表现都明显优于 SD 和 Baseline，无论是在 CLIP 分数还是 HPS 指标上。我们的模型在 CLIP 分数和 HPS 上的平均结果分别比第二名高出 3.05 和 0.0029。”

作者进一步根据以前的方法估计了 HPS 和 CLIP 分数的箱线图：

测试中获得的 HPS 和 CLIP 分数的箱线图。

他们评论道：

‘可以看出，我们的模型优于其他模型，这表明我们的模型更能够生成与提示一致的图像。

‘然而，在箱线图中，由于此评估指标的大小为 [0, 1]，因此不容易从箱线图中直观地看到比较。因此，我们继续绘制相应的条形图。

“可以看出，SGOOL 在 CLIP 分数和 HPS 指标下的所有数据集上都优于 SD 和 Baseline。定量结果表明，我们的模型可以生成语义上更加一致且更受人类青睐的图像。”

研究人员指出，虽然基线模型能够提高图像输出的质量，但它没有考虑图像的显著区域。他们认为，SGOOL 在全局和显著图像评估之间达成妥协，从而获得了更好的图像。

在定性（自动）比较中，SGOOL 和 DOODL 的优化次数设置为 50。

测试的定性结果。请参阅源论文以获得更好的定义。

作者在此指出：

‘在[第一行]中，提示的主题是“一只唱歌的猫”和“一个理发店四重奏”。 SD 生成的图像中有四只猫，图像内容与提示的匹配度很差。

“Baseline 生成的图像中猫被忽略了，脸部的刻画和图像中的细节都缺乏。DOODL 试图生成与提示一致的图像。

“然而，由于 DOODL 直接优化了全局图像，因此图像中的人是针对猫进行优化的。”

他们进一步指出，相比之下，SGOOL 生成的图像与原始提示更加一致。

在人类感知测试中，100 名志愿者评估测试图像的质量和语义一致性（即它们与源文本提示的一致性）。参与者有无限的时间来做出选择。

人类感知测试的结果。

正如论文所指出的，作者的方法明显比之前的方法更受欢迎。

结论

本文提到的缺点在稳定扩散的本地安装中显现出来后不久，出现了各种定制方法（例如After Detailer），迫使系统对人类更感兴趣的领域给予额外的关注。

然而，这种方法要求扩散系统首先经历其正常过程，即对图像的每个部分给予同等的关注，而增加的工作则作为额外的阶段完成。

SGOOL 的证据表明，将基本的人类心理学应用于图像部分的优先排序可以大大增强初步推断，而无需后期处理步骤。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/li-yong-ren-lei-zhu-yi-li-ke-yi-gai-shan-ren-gong-zhi-neng

Like (0)

点点

0 0

为 AI 模型评分：Endor Labs 推出评估工具

Previous 2024年10月17日

可信任的AI Agent是通向智能应用的必经之路

Next 2024年10月17日

技术评测

从微调稳定扩散模型中提取训练数据

美国的新研究提出了一种从微调模型中提取大量训练数据的方法。当艺术家的风格被抄袭，或者受版权保护的图像被用于训练公众人物、受知识产权保护的角色或其他内容的生成模型时，这可能会提供法…

AI评测师
2024年10月8日
000
AI前沿

Agentic AI：重塑企业会议的新篇章

一、引言：超越转录的智能会议助手在数字化转型的浪潮中，企业会议作为沟通协作的核心环节，正经历着前所未有的变革。Agentic AI，作为一种新兴的人工智能技术，正逐步超越传统的语…

王浩然
2025年3月28日
000
AI前沿

实时数据、区块链和人工智能：智能应用的游戏规则改变者

当我们谈论实时数据时，我们指的是那些在创建和获取后即可使用的信息。数据不是被存储，而是在收集后立即直接转发到应用程序，并立即可用（没有任何延迟），以支持实时、即时的决策。实时数据…

点点
2024年10月15日
000
AI前沿

微软希望与 OpenAI 建立开放关系

微软和 OpenAI 之间有着某种共生关系，前者向一家初创的人工智能实验室投入了数十亿美元的资金，作为回报，微软获得了尖端模型的早期使用权，这些模型现已融入微软的生产力软件套件中。…

王浩然
2024年12月25日
000
AI前沿

亚马逊新款Alexa：为儿童推出AI驱动的探索与故事功能‌

近日，亚马逊正式推出了其新款Alexa设备，专为儿童设计了全新的AI驱动功能——“探索”与“故事”。这两项创新功能旨在通过智能化、互动化的方式，为孩子们提供更加丰富、有趣的学习与娱…

王浩然
2025年2月28日
000
AI前沿

在建立真正的业务关系的同时探索人工智能世界

人工智能 (AI) 的发展速度超乎人们的想象。从提高生产力到改善决策能力和创造力，工作场所中的人工智能不再是一个未来概念，而是我们日常生活中不可或缺的一部分。根据微软的 2024 …

点点
2024年9月21日
000
AI前沿

波士顿动力公司的电动 Atlas 机器人可自动挑选汽车零件

波士顿动力公司的新机器人一直在幕后悄然飞速发展。该公司于 4 月宣布推出这款机器人，8 月我们通过一段机器人做俯卧撑的视频简要了解了电动 Atlas 的实力。周三发布的最新视频展示…

王浩然
2024年10月31日
000
AI前沿

OpenAI 的 DevDay 为 AI 应用开发者带来实时 API 和其他福利

对于 OpenAI 来说，这是动荡的一周，高管离职和重大融资进展频频，但这家初创公司又回到了正轨，试图说服开发人员在 2024 年 DevDay 上利用其 AI 模型构建工具。该公…

王浩然
2024年10月2日
000
AI前沿

小而强大：H2O.ai 的新 AI 模型在文档分析领域挑战科技巨头

开源 AI 平台提供商H2O.ai今天宣布了两种新的视觉语言模型，旨在改进文档分析和光学字符识别 (OCR) 任务。这两个模型名为H2OVL Mississippi-2B和H2OV…

王浩然
2024年10月19日
000
AI前沿

“这是一个游戏规则的改变者”：Runway 发布新的 AI 面部表情动作捕捉功能 Act-One

自2022 年底首批模型首次亮相以来，人工智能视频在过去几年中取得了令人难以置信的进步，其真实感、分辨率、保真度、提示依从性（与用户输入的文本提示或视频描述的匹配程度）和数量都有所…

王浩然
2024年10月25日
000
AI前沿

Patlytics获得1400万美元A轮融资，推动专利分析平台发展

Patlytics，一家领先的专利分析平台提供商，近日宣布成功完成1400万美元的A轮融资。这笔资金将主要用于加速平台的技术研发、市场拓展及团队扩张，从而进一步提升Patlytic…

王浩然
2025年2月27日
000
AI前沿

中国人工智能公司 MiniMax 发布新模型，声称可与业内最佳模型相媲美

中国公司不断发布可与 OpenAI 和其他美国人工智能公司开发的系统相媲美的人工智能模型。本周，由阿里巴巴和腾讯支持的初创公司MiniMax推出了三款新模型：MiniMax-Te…

王浩然
2025年1月16日
000
AI前沿

人工智能机器人加速器计划助力大学启动

该项目使大学能够使用 Richtech 自主移动机器人和机械臂平台人工智能服务机器人制造商Richtech Robotics启动了一项加速器计划，为美国大学提供开发框架和 Ric…

王浩然
2025年2月19日
000
AI前沿

DeepMind 和 Hugging Face 发布 SynthID，为 LLM 生成的文本添加水印

Google DeepMind和Hugging Face刚刚发布了SynthID Text，这是一款用于标记和检测大型语言模型(LLM) 生成的文本的工具。SynthID Text…

王浩然
2024年10月26日
000
AI前沿

o1核心作者MIT演讲：激励AI自我学习，比试图教会AI每一项任务更重要

“o1发布后，一个新的范式产生了”。其中关键，OpenAI研究科学家、o1核心贡献者Hyung Won Chung，刚刚就此分享了他在MIT的一次演讲。演讲主题为“Don’t …

点点
2024年9月20日
000
AI前沿

加州大学圣地亚哥分校和清华大学的研究人员让人工智能能够更好地了解何时寻求帮助

一个计算机科学家团队开发了一种方法，可以帮助人工智能了解何时使用工具而不是依赖内置知识，模仿人类专家解决复杂问题的方式。加州大学圣地亚哥分校和清华大学的研究表明，当人工智能系统学…

王浩然
2024年11月7日
000
AI前沿

OpenAI 首席技术官 Mira Murati 表示她将离开公司

OpenAI首席技术官米拉·穆拉蒂周三在 X 上发帖称，她将离开公司。穆拉蒂表示，在这家人工智能初创公司工作了六年多后，她将离开公司，从事自己的探索。 “经过深思熟虑，我做出了离开…

王浩然
2024年9月26日
000
AI前沿

Creatio 通过 Energy 发布代理 AI 实现 CRM 自动化

一位风险投资家表示，谷歌的 NotebookLM生成式 AI 应用程序至少可以在某些用例中取代 CRM，而 CRM 提供商Creatio则进行了反击。 Creatio 今天宣布了一…

王浩然
2024年11月1日
000
AI前沿

新研究显示，ChatGPT 搜索可能会被欺骗并误导用户

英国《卫报》发现，本月上线的人工智能搜索引擎 ChatGPT Search可能会被欺骗而生成完全误导性的摘要。 ChatGPT 的搜索功能旨在通过总结网页的产品评论等方式加快浏览速…

王浩然
2024年12月27日
000
AI前沿

AI悄然高筑了人与人之间的“柏林墙”

“参加了四五次面试，连真人面试官的影子还都没看到”，一位参加秋招的应届生源源向AI鲸选社吐槽到。她八月底开始准备秋招，看了无数攻略，准备了半个月的简历投出去，却只收到了几家公司的…

点点
2024年10月7日
000

发表回复

Please Login to Comment

利用人类注意力可以改善人工智能生成的图像

自然选择

韩国大学

方法

数据和测试

结论

相关推荐

发表回复

Share To :