Stable Diffusion 3 (SD3) | 文本到图像

Stable Diffusion 3 节点现已在 RunComfy Beta 版本中随时可用,使其可以轻松地在您的项目中访问。您可以直接在此工作流程中使用 Stable Diffusion 3 节点,也可以将 Stable Diffusion 3 节点集成到现有的工作流程中。请确保首先从 Stability API 密钥页面获取您的 API 密钥。

ComfyUI 工作流

Stable Diffusion 3 in ComfyUI
想要运行这个工作流吗?
  • 完全可操作的工作流
  • 没有缺失的节点或模型
  • 无需手动设置
  • 具有惊艳的视觉效果

示例

leverage-stable-diffusion-3-for-advanced-visuals-1089

描述

1. 将 Stable Diffusion 3 集成到您的创意工作流程中

1.1. 开始使用 Stable Diffusion 3 API

要将 Stable Diffusion 3 合并到您的项目中,首先通过 Stability AI Developer Platform API 访问标准版本和 Turbo 变体的 API。

  • 获取您的 API 密钥: 首先,获取您的 Stability API 密钥。您将获得 25 个免费积分作为开始,可用于生成图像。
  • 使用成本:
    • SD3: 每次图像生成需要 6.5 个积分。
    • SD3 Turbo: 每张图像 4 个积分,是一个更具成本效益的选择。

请确保您的 API 密钥有足够的积分。如果您排队一个提示但没有收到结果,请检查您在 Stability Platform 上的积分余额。😃

1.2. 将 Stable Diffusion 3 节点集成到您的工作流程中(使用 RunComfy Beta 版本)

**Stable Diffusion 3 节点现已预加载到 RunComfy Beta 版本中,**使其可以轻松地在您的项目中访问。您可以灵活地直接在此工作流程中使用 Stable Diffusion 3 节点,或将 Stable Diffusion 3 节点集成到现有的工作流程中。

以下是 Stable Diffusion 3 节点的一些关键功能:

  • Positive Prompts: 指导模型专注于艺术作品中的特定主题或元素。
  • Negative Prompts: 指定图像中应避免的元素。(注意:SD3 Turbo 模型不支持 negative prompts。)
  • 纵横比: 从 "21:9"、"16:9"、"5:4"、"3:2"、"1:1"、"2:3"、"4:5"、"9:16"、"9:21" 等多种选择。(注意:SD3 的图像到图像模式不支持纵横比选择。)
  • 模式: 可配置为文本到图像和图像到图像两种模式。
  • 模型选项: 包括对 SD3 和 SD3 Turbo 模型的支持。
  • Seed: 确保生成图像的一致性。
  • Strength: 这适用于图像到图像模式。
ComfyUI Stable Diffusion 3

2. 什么是 Stable Diffusion 3

Stable Diffusion 3 是一个专门为从文本提示生成图像而设计的尖端 AI 模型。它代表了 Stable Diffusion 系列的第三次迭代,旨在提供更高的准确性、更好地遵循提示的细微差别,以及与早期版本和其他模型(如 DALL·E 3、Midjourney v6 和 Ideogram v1)相比更优越的视觉美感。

3. Stable Diffusion 3 的技术架构

Stable Diffusion 3 的核心是多模态扩散变换器(MMDiT)架构。这个创新框架增强了模型处理和集成文本和视觉信息的方式。与其前身使用单一的神经网络权重集来处理图像和文本不同,Stable Diffusion 3 为每种模态使用单独的权重集。这种分离允许更专业地处理文本和图像数据,从而提高文本理解和生成图像中的拼写。

MMDiT 架构的组件

  • 文本嵌入器: Stable Diffusion 3 使用三个文本嵌入模型的组合,包括两个 CLIP 模型和 T5,将文本转换为 AI 可以理解和处理的格式。
  • 图像编码器: 使用增强的自动编码模型将图像转换为适合 AI 操作和生成新视觉内容的形式。
  • 双变换器方法: 该架构具有两个不同的文本和图像变换器,它们独立运行但相互连接以进行注意力操作。这种设置允许两种模态直接相互影响,增强文本输入和图像输出之间的连贯性。

4. Stable Diffusion 3 的新特性和改进

  • 遵循提示: SD3 在严格遵循用户提示的细节方面表现出色,特别是那些涉及复杂场景或多个主题的提示。在理解和呈现详细提示方面的这种精确度使其优于其他领先的模型,如 DALL·E 3、Midjourney v6 和 Ideogram v1,使其成为需要严格遵守给定指令的项目的高度可靠选择。
  • 图像中的文本: 凭借其先进的多模态扩散变换器(MMDiT)架构,SD3 显著提高了图像中文本的清晰度和可读性。通过使用单独的权重集来处理图像和语言数据,该模型实现了卓越的文本理解和拼写准确性。这是对早期版本的 Stable Diffusion 的重大改进,解决了文本到图像 AI 应用程序中的一个常见挑战。
  • 视觉质量: SD3 不仅与竞争对手生成的图像相媲美,在许多情况下还超越了它们的视觉质量。由于该模型出色的解释和可视化文本描述的能力,生成的图像不仅具有美学吸引力,而且与提示保持高度的忠实度。这使得 SD3 成为寻求在生成图像中获得卓越视觉美感的用户的首选。
ComfyUI Stable Diffusion 3

有关该模型的详细见解,请访问 Stable Diffusion 3 研究论文

想要更多 ComfyUI 工作流吗?