logo
RunComfy
  • ComfyUI
  • 训练器新
  • 模型
  • API
  • 定价
discord logo
ComfyUI>工作流>Stable Diffusion 3.5

Stable Diffusion 3.5

Workflow Name: RunComfy/SD3.5
Workflow ID: 0000...1137
Stable Diffusion 3.5 (SD3.5) 是一个新的开源模型,可以从文本提示生成多样化、高质量的图像。SD3.5 擅长创建各种风格并遵循提示。尽管在解剖学和分辨率上存在一些局限性,SD3.5 是一个强大的视觉创作工具。在 ComfyUI 中探索 SD3.5,轻松创建令人惊叹的视觉效果。

Stability AI 发布了 Stable Diffusion 3.5 (SD3.5),这是一个开源的多模态生成 AI 模型,包含多个变体,如 Stable Diffusion 3.5 (SD3.5) Large、Stable Diffusion 3.5 (SD3.5) Large Turbo 和 Stable Diffusion 3.5 (SD3.5) Medium。这些模型高度可定制,能够在消费者硬件上运行。SD3.5 Large 和 Large Turbo 模型已立即可用,而 Medium 版本将于 2024 年 10 月 29 日发布。

1. Stable Diffusion 3.5 (SD3.5) 的工作原理

在技术层面,Stable Diffusion 3.5 (SD3.5) 将文本提示作为输入,使用基于 transformer 的文本编码器将其编码到潜在空间中,然后使用基于扩散的解码器将该潜在表示解码为输出图像。transformer 文本编码器,如 CLIP (Contrastive Language-Image Pre-training) 模型,将输入提示映射到潜在空间中的语义上有意义的压缩表示。然后,扩散解码器在多个时间步中迭代去噪该潜在代码,以生成最终的图像输出。扩散过程涉及逐步去除初始噪声的潜在表示中的噪声,该过程以文本嵌入为条件,直到出现清晰的图像。

Stable Diffusion 3.5 (SD3.5) 的不同模型尺寸 (Large, Medium) 指的是可训练参数的数量 - Large 模型为 80 亿,Medium 为 25 亿。更多的参数通常允许模型从其训练数据中捕获更多的知识和细微差别。Turbo 模型是经过蒸馏的版本,牺牲了一些质量以换取更快的推理速度。蒸馏涉及训练一个较小的 "student" 模型来模仿较大 "teacher" 模型的输出,旨在以更高效的架构保留大部分能力。

2. Stable Diffusion 3.5 (SD3.5) 模型的优势

2.1. 可定制性

Stable Diffusion 3.5 (SD3.5) 模型设计为易于微调和为特定应用构建。Query-Key Normalization 被集成到 transformer 块中,以稳定训练并简化进一步开发。这种技术对 transformer 层中的注意力分数进行归一化,可以使模型更稳健,更易于通过迁移学习适应新数据集。

2.2. 输出多样性

Stable Diffusion 3.5 (SD3.5) 旨在生成代表世界多样性的图像,而无需大量提示。它可以描绘具有不同肤色、特征和美学的人物。这可能是因为模型在互联网上的大量多样化图像数据集上进行了训练。

2.3. 风格多样性

Stable Diffusion 3.5 (SD3.5) 模型能够生成多种风格的图像,包括 3D 渲染、照片真实感、绘画、线条艺术、动漫等。这种多样性使其适用于许多用例。风格多样性源于扩散模型在其潜在空间中捕获许多不同视觉模式和美学的能力。

2.4. 强大的提示遵循性

特别是对于 Stable Diffusion 3.5 (SD3.5) Large 模型,SD3.5 在生成与输入文本提示语义意义一致的图像方面表现良好。与其他模型相比,它在提示匹配指标上排名较高。这种准确将文本翻译为图像的能力由 transformer 文本编码器的语言理解能力驱动。

3. Stable Diffusion 3.5 (SD3.5) 模型的局限性与缺点

3.1. 在解剖学和物体交互方面的困难

与大多数文本到图像模型一样,Stable Diffusion 3.5 (SD3.5) 在渲染真实的人体解剖学方面仍然存在困难,尤其是在复杂姿势下的手、脚和面部。物体与手之间的交互通常会失真。这可能是因为仅从 2D 图像学习 3D 空间关系和物理的所有细微差别的挑战。

3.2. 分辨率限制

Stable Diffusion 3.5 (SD3.5) Large 模型适合生成 1 兆像素图像(1024x1024),而 Medium 模型最高达到约 2 兆像素。对于 SD3.5 来说,在更高分辨率下生成连贯的图像具有挑战性。这一限制源于扩散架构的计算和内存约束。

3.3. 偶发故障和幻觉

由于 Stable Diffusion 3.5 (SD3.5) 模型允许从相同提示生成多样化的输出,并且不同的随机种子可能导致一些不可预测性。缺乏具体提示可能导致出现故障或意外元素。这是扩散采样过程中固有的属性,该过程中涉及随机性。

3.4. 不完全达到绝对前沿水平

根据一些早期测试,在图像质量和连贯性方面,Stable Diffusion 3.5 (SD3.5) 目前尚未达到像 Midjourney 这样的最先进文本到图像模型的性能。而 Stable Diffusion 3.5 (SD3.5) 和 FLUX.1 的早期比较显示每个模型在不同领域表现出色。虽然 FLUX.1 在生成照片真实感图像方面似乎具有优势,SD3.5 Large 在生成动漫风格作品方面更为擅长,无需额外的微调或修改。

4. ComfyUI 中的 Stable Diffusion 3.5

在 RunComfy,我们已为您预加载了 Stable Diffusion 3.5 (SD3.5) 模型,方便您开始使用。您可以直接进入并使用示例工作流进行推理

示例工作流从 CheckpointLoaderSimple 节点开始,该节点加载预训练的 Stable Diffusion 3.5 Large 模型。为了帮助将您的文本提示翻译成模型能够理解的格式,TripleCLIPLoader 节点用于加载相应的编码器。这些编码器在指导图像生成过程中基于您提供的文本起着至关重要的作用。

然后,EmptySD3LatentImage 节点创建一个指定尺寸的空白画布,通常为 1024x1024 像素,作为模型生成图像的起点。CLIPTextEncode 节点处理您提供的文本提示,使用加载的编码器创建一组模型遵循的指令。

在将这些指令发送到模型之前,它们通过 ConditioningCombine、ConditioningZeroOut 和 ConditioningSetTimestepRange 节点进行进一步优化。这些节点移除任何负面提示的影响,指定提示在生成过程中应用的时间,并将指令组合成一个单一的、连贯的集合。

最后,您可以使用 ModelSamplingSD3 节点微调图像生成过程,调整采样模式、步骤数和模型输出比例等各种设置。最后,KSampler 节点让您控制步骤数、指令影响力的强度(CFG 比例)和用于生成的特定算法,从而实现所需的结果。

Want More ComfyUI Workflows?

Trellis | 图像到3D

Trellis是一个先进的图像到3D模型,用于高质量3D资产生成。

音频反应遮罩扩展 | 惊艳动画

变换您的主题,赋予他们脉动的、由音乐驱动的光环,随节奏起舞。

Stable Fast 3D | ComfyUI 3D Pack

使用 Stable Fast 3D 和 ComfyUI 3D Pack 创建令人惊叹的 3D 内容。

LTX 2.3 IC-LoRA | 动作跟踪 AI 视频生成器

V2V 动作引导视频工具,用于超精确、无风格的 AI 创作

FLUX Kontext Dev | 智能图像编辑

FLUX Kontext Dev | 智能图像编辑

Kontext Dev = 可控 + 所有图形设计需求于一体的工具

CCSR | 一致的图像/视频放大器

CCSR 模型通过更加关注内容一致性来增强图像和视频放大效果。

AnimateDiff + ControlNet | 卡通风格

通过将视频转换为生动的卡通,为您的视频增添趣味。

PuLID | 精准的人脸嵌入用于文本到图像生成

PuLID | 精准的人脸嵌入用于文本到图像生成

使用 PuLID 和 IPAdapter Plus 无缝集成面部特征并控制风格。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • RunComfy MCP
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。