Stability AI发布了 Stable Diffusion 3.5,标志着文本转图像 AI 模型的又一次进步。此版本代表了一次全面改革,由宝贵的社区反馈和对突破生成式 AI 技术界限的承诺推动。
在 6 月发布 Stable Diffusion 3 Medium 后,Stability AI 承认该模型没有完全满足他们的标准或社区期望。该公司没有急于求成,而是采取了深思熟虑的方法,专注于开发一个能够推进其改造视觉媒体使命的版本,同时在整个开发过程中实施安全措施。
与以前版本相比的主要改进
新版本在几个关键领域带来了重大改进:
- 增强提示依从性:该模型生成的图像对复杂提示的理解显著提高,可与更大模型的功能相媲美。
- 架构进步: Transformer 块中查询键规范化的实现有助于提高训练稳定性并简化微调过程。
- 多样化的输出生成:无需大量的快速工程,即可生成代表不同肤色和特征的图像的高级功能。
- 优化性能:图像质量和生成速度都有显著改善,尤其是在 Turbo 版本中。
Stable Diffusion 3.5 在生成式 AI 公司领域中脱颖而出的原因在于其独特的易用性和强大功能。该版本秉承了 Stability AI 对广泛使用的创意工具的承诺,同时突破了技术能力的界限。这使得该模型系列成为个人创作者和企业用户的可行解决方案,并由明确的商业许可框架提供支持,可同时支持中型企业和大型组织。
适用于每种用例的三个强大模型
稳定扩散 3.5 大
此次发布的旗舰模型Stable Diffusion 3.5 Large,带来80亿参数的处理能力,可承担专业的图像生成任务。
主要特点包括:
- 100 万像素分辨率的专业级输出
- 卓越的快速依从性,实现精确的创意控制
- 处理复杂图像概念的高级能力
- 在各种艺术创作过程中均表现出色
大型涡轮
大型涡轮增压版本代表了高效性能的突破,具有以下特点:
- 仅需 4 步即可生成高质量图像
- 尽管速度加快,但仍能保持出色的快速响应
- 与非蒸馏模型的竞争性能
- 生产工作流程的速度和质量的最佳平衡
中型
Medium 模型将于 10 月 29 日发布,该模型拥有 25 亿个参数,使专业级图像生成变得民主化:
- 在标准消费硬件上高效运行
- 生成能力从 0.25 百万像素到 2 百万像素分辨率
- 优化架构以提高性能
- 与其他中型模型相比效果更佳
每个模型都经过精心定位,以服务于特定的用例,同时保持了 Stability AI 对图像质量和及时遵守的高标准。
下一代架构改进
Stable Diffusion 3.5 的架构代表了图像生成技术的重大飞跃。从本质上讲,经过修改的 MMDiT-X 架构引入了复杂的多分辨率生成功能,这在 Medium 版本中尤为明显。这种架构改进使训练过程更加稳定,同时保持了高效的推理时间,解决了之前迭代中发现的关键技术限制。
查询键(QK)规范化:技术实现
QK 规范化是该模型的 Transformer 架构中一项关键的技术进步。此实现从根本上改变了注意力机制在训练过程中的运作方式,为特征表示提供了更稳定的基础。通过规范化注意力机制中查询和键之间的交互,该架构在不同规模和领域中实现了更一致的性能。这一改进尤其有利于从事微调过程的开发人员,因为它降低了将模型适应专门任务的复杂性。
基准测试和性能分析
性能分析表明,Stable Diffusion 3.5 在关键指标方面取得了显著成果。大型变体表现出与大型模型相媲美的快速遵守能力,同时保持了合理的计算要求。对各种图像概念的测试显示出一致的质量改进,特别是在挑战以前版本的领域。这些基准测试是在各种硬件配置下进行的,以确保可靠的性能指标。
硬件要求和部署架构
不同变体的部署架构差异很大。大型模型拥有 80 亿个参数,需要大量计算资源才能获得最佳性能,尤其是在生成高分辨率图像时。相比之下,中型变体引入了更灵活的部署模型,可在更广泛的硬件配置中有效运行,同时保持专业级的输出质量。
底线
Stable Diffusion 3.5 是生成式 AI 模型发展的一个重要里程碑,在先进的技术能力和实用性之间取得平衡。此次发布展示了 Stability AI 致力于改造视觉媒体,同时实施全面的安全措施,并在图像质量和道德考虑方面保持高标准。随着生成式 AI 继续塑造创意和企业工作流程,Stable Diffusion 3.5 的强大架构、高效的性能和灵活的部署选项使其成为寻求利用 AI 驱动的图像生成的开发人员、研究人员和组织的宝贵工具。
原创文章,作者:点点,如若转载,请注明出处:https://www.dian8dian.com/stable-diffusion-3-5-wen-ben-dao-tu-xiang-ai-de-jia-gou-jin