Stable Diffusion 3.5：文本到图像 AI 的架构进步

点点 • 2024年10月25日上午8:00 • AI前沿 • 113 views

Stability AI发布了 Stable Diffusion 3.5，标志着文本转图像 AI 模型的又一次进步。此版本代表了一次全面改革，由宝贵的社区反馈和对突破生成式 AI 技术界限的承诺推动。

在 6 月发布 Stable Diffusion 3 Medium 后，Stability AI 承认该模型没有完全满足他们的标准或社区期望。该公司没有急于求成，而是采取了深思熟虑的方法，专注于开发一个能够推进其改造视觉媒体使命的版本，同时在整个开发过程中实施安全措施。

与以前版本相比的主要改进

新版本在几个关键领域带来了重大改进：

增强提示依从性：该模型生成的图像对复杂提示的理解显著提高，可与更大模型的功能相媲美。
架构进步： Transformer 块中查询键规范化的实现有助于提高训练稳定性并简化微调过程。
多样化的输出生成：无需大量的快速工程，即可生成代表不同肤色和特征的图像的高级功能。
优化性能：图像质量和生成速度都有显著改善，尤其是在 Turbo 版本中。

Stable Diffusion 3.5 在生成式 AI 公司领域中脱颖而出的原因在于其独特的易用性和强大功能。该版本秉承了 Stability AI 对广泛使用的创意工具的承诺，同时突破了技术能力的界限。这使得该模型系列成为个人创作者和企业用户的可行解决方案，并由明确的商业许可框架提供支持，可同时支持中型企业和大型组织。

Stable Diffusion 3.5（稳定性 AI）

适用于每种用例的三个强大模型

稳定扩散 3.5 大

此次发布的旗舰模型Stable Diffusion 3.5 Large，带来80亿参数的处理能力，可承担专业的图像生成任务。

主要特点包括：

100 万像素分辨率的专业级输出
卓越的快速依从性，实现精确的创意控制
处理复杂图像概念的高级能力
在各种艺术创作过程中均表现出色

大型涡轮

大型涡轮增压版本代表了高效性能的突破，具有以下特点：

仅需 4 步即可生成高质量图像
尽管速度加快，但仍能保持出色的快速响应
与非蒸馏模型的竞争性能
生产工作流程的速度和质量的最佳平衡

中型

Medium 模型将于 10 月 29 日发布，该模型拥有 25 亿个参数，使专业级图像生成变得民主化：

在标准消费硬件上高效运行
生成能力从 0.25 百万像素到 2 百万像素分辨率
优化架构以提高性能
与其他中型模型相比效果更佳

每个模型都经过精心定位，以服务于特定的用例，同时保持了 Stability AI 对图像质量和及时遵守的高标准。

Stable Diffusion 3.5 Large（稳定性 AI）

下一代架构改进

Stable Diffusion 3.5 的架构代表了图像生成技术的重大飞跃。从本质上讲，经过修改的 MMDiT-X 架构引入了复杂的多分辨率生成功能，这在 Medium 版本中尤为明显。这种架构改进使训练过程更加稳定，同时保持了高效的推理时间，解决了之前迭代中发现的关键技术限制。

查询键（QK）规范化：技术实现

QK 规范化是该模型的 Transformer 架构中一项关键的技术进步。此实现从根本上改变了注意力机制在训练过程中的运作方式，为特征表示提供了更稳定的基础。通过规范化注意力机制中查询和键之间的交互，该架构在不同规模和领域中实现了更一致的性能。这一改进尤其有利于从事微调过程的开发人员，因为它降低了将模型适应专门任务的复杂性。

基准测试和性能分析

性能分析表明，Stable Diffusion 3.5 在关键指标方面取得了显著成果。大型变体表现出与大型模型相媲美的快速遵守能力，同时保持了合理的计算要求。对各种图像概念的测试显示出一致的质量改进，特别是在挑战以前版本的领域。这些基准测试是在各种硬件配置下进行的，以确保可靠的性能指标。

硬件要求和部署架构

不同变体的部署架构差异很大。大型模型拥有 80 亿个参数，需要大量计算资源才能获得最佳性能，尤其是在生成高分辨率图像时。相比之下，中型变体引入了更灵活的部署模型，可在更广泛的硬件配置中有效运行，同时保持专业级的输出质量。

Stable Diffusion（稳定性 AI）

底线

Stable Diffusion 3.5 是生成式 AI 模型发展的一个重要里程碑，在先进的技术能力和实用性之间取得平衡。此次发布展示了 Stability AI 致力于改造视觉媒体，同时实施全面的安全措施，并在图像质量和道德考虑方面保持高标准。随着生成式 AI 继续塑造创意和企业工作流程，Stable Diffusion 3.5 的强大架构、高效的性能和灵活的部署选项使其成为寻求利用 AI 驱动的图像生成的开发人员、研究人员和组织的宝贵工具。

原创文章，作者：点点，如若转载，请注明出处：https://www.dian8dian.com/stable-diffusion-3-5-wen-ben-dao-tu-xiang-ai-de-jia-gou-jin

Like (0)

点点

0 0

什么阻碍了数字孪生的演进和应用？

Previous 2024年10月24日下午10:00

Nvidia 在印度签署了一系列与人工智能相关的交易

Next 2024年10月25日上午9:00

AI前沿

生成式人工智能热潮背后的风险：为何人们越来越谨慎

在不久的将来，硅谷可能会回顾最近发生的事件，认为这是生成式人工智能热潮走得太远的标志。今年夏天，投资者质疑顶级人工智能股票能否维持其高估值，因为大规模人工智能支出缺乏回报。随着秋…

点点
2024年10月11日
000
AI前沿

美国运通如何利用AI提升效率：IT问题升级减少40%，旅行援助提升85%‌

美国运通（American Express）作为一家拥有约8万名员工的大型跨国公司，日常运营中难免会遇到各种IT问题。无论是员工无法连接WiFi，还是笔记本电脑出现故障，这些问题都…

王浩然
3天前
000
AI前沿

Adobe 为 AWS 带来生成式 AI 和实时个性化：以下是下一步计划

Adobe正在积极进军亚马逊的云计算领域，将其体验平台扩展到AWS，这一合作标志着企业处理人工智能和客户数据方式的重大转变。 Adobe 领导层表示，该交易于上周在亚马逊网络服务r…

王浩然
2024年12月10日
000
AI前沿

AlphaProteo：谷歌DeepMind的蛋白质设计革命

AlphaProteo的出现，意味着我们对蛋白质结构和功能的理解和设计能力，又迈出了一大步。DeepMind团队通过这个系统，展示了他们在蛋白质折叠预测领域的最新进展。

点点
2024年9月7日
000
AI前沿

iPhone 16 今日发布，但并未配备最受关注的功能：Apple Intelligence

iPhone 16将于本周五正式发售。但对于最早的采用者来说，这款手机在发售时就已经做出了根本性的妥协。简而言之，这不是他们承诺的 iPhone 16。苹果首席执行官蒂姆·库克表…

王浩然
2024年9月21日
000
AI前沿

这是你永远不应该外包给人工智能模型的事情

在这个效率至上、颠覆性技术一夜之间创造出数十亿美元市场的世界里，企业不可避免地将生成式人工智能视为强大的盟友。从 OpenAI 的 ChatGPT 生成类似人类的文本，到 DALL…

王浩然
2024年12月8日
000
AI前沿

美国人工智能安全研究所或面临大幅削减

近期有消息称，美国人工智能安全研究所（US AI Safety Institute）正面临严重的预算削减威胁。这一消息引发了业界的广泛关注和担忧。据悉，该研究所作为美国在人工智能…

王浩然
2025年2月26日
000
AI前沿

人工智能价格战：如何降低成本让人工智能更易于普及

十年前，开发人工智能 (AI)是只有大公司和资金充足的研究机构才能负担得起的事情。必要的硬件、软件和数据存储成本非常高。但从那时起，情况发生了很大变化。一切始于 2012 年的 A…

点点
2024年9月27日
000
AI前沿

OpenAI计划将Sora的视频生成器整合至ChatGPT

‌ 引言‌ OpenAI，这家在人工智能领域持续引领创新的公司，近日宣布了一项令人兴奋的新计划：将Sora的视频生成器功能整合至其广受欢迎的ChatGPT聊天机器人中。这一举措预示…

王浩然
2025年3月3日
000
AI前沿

那个要挑战GPT的00后清华男孩｜WAVES

数月前，一张OpenAI内部的图片在网上流传。图中，OpenAI将自己通往AGI的道路分为了五个阶段： Level 1：聊天机器人，具有对话能力的AI。 Level 2：推理者，像…

点点
2024年9月20日
000
AI前沿

英特尔推出新款 Core Ultra 处理器，AI 应用性能提升 2 至 3 倍

英特尔今天在CES 2025上发布了全新英特尔酷睿超极本 9 处理器，其 AI 应用的边缘性能比之前提升了两到三倍。英特尔酷睿 Ultra 9 和酷睿 i9 系列芯片此前的代号分…

王浩然
2025年1月7日
000
AI前沿

科学家构建推动通用人工智能发展的AI模型

一、引言在人工智能领域，通用人工智能（Artificial General Intelligence, AGI）一直是研究者们追求的终极目标。近日，来自澳大利亚悉尼科技大学的研究…

王浩然
2025年3月14日
000
AI前沿

埃隆马斯克的 X 正在改变其隐私政策，允许第三方在你的帖子上训练人工智能

周三，社交网络 X（前身为 Twitter）更新了其隐私政策，表明它将允许第三方“合作者”使用 X 数据训练他们的 AI 模型，除非用户选择退出。虽然 X 所有者埃隆·马斯克使用 …

王浩然
2024年10月19日
000
AI前沿

‌TikTok终止创作者市场，推出集成AI工具的TikTok One平台‌

短视频平台TikTok近期宣布，将正式终止其创作者市场业务，并推出一个更为全面、集成多种AI工具的新平台——TikTok One。这一变革旨在为用户提供更加丰富和高效的创作体验。 …

王浩然
2025年3月2日
000
AI前沿

SpaceX 北极星黎明任务将向我们展示太空飞行如何改变身体

8 月 27 日，所有人的目光都将聚焦在美国宇航局位于佛罗里达州的肯尼迪航天中心，观看一次历史性的飞行。 SpaceX 的猎鹰 9 号火箭将把 Dragon 载人太空舱和四名私人宇…

点点
2024年9月3日
000
AI前沿

Nvidia AI Blueprint 让任何开发人员都可以轻松构建分析视频的自动代理

Nvidia宣布，其 Nvidia AI Blueprint 将使任何行业的开发人员能够轻松构建 AI 代理来分析视频和图像内容。Nvidi表示，借助这项技术，任何行业现在都可以搜…

王浩然
2024年11月6日
000
AI前沿

人工智能聊天机器人能理解而人类无法理解的隐形文本？没错，确实存在。

Unicode 标准中的一个怪癖隐藏着一个理想的隐写代码通道。

点点
2024年10月16日
000
AI前沿

Nvidia 人工智能人形机器人在拉斯维加斯提供咖啡

Richtech Robotics 公司生产的 Adam 机器人将于周日在 Town Square 的 Clouffee and Tea 开始工作采用 Nvidia AI 技术的…

王浩然
2025年2月18日
000
AI前沿

Persado 联合创始人兼总裁 Assaf Baciu – 访谈系列

Assaf Baciu 拥有近二十年为市场领先的 SaaS 组织制定企业战略和产品方向的经验。作为Persado的联合创始人兼总裁，他推动了 Persado 不断增长的产品组合的发…

点点
2024年10月24日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000