在ComfyUI中使用Stable Cascade工作流进行文本转图像

ComfyUI Stable Cascade Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Cascade Examples

1. Stable Cascade ComfyUI工作流#

在这个ComfyUI工作流中,我们利用Stable Cascade,这是一种在提示对齐和美学卓越方面表现出色的文本转图像模型。与其他Stable Diffusion模型不同,Stable Cascade采用了三阶段流水线(A、B和C阶段)架构。这种设计能够在高效的潜在空间中实现分层图像压缩,从而产生出色的图像质量。

2. Stable Cascade概述#

Stable Cascade作为一种开创性的文本转图像模型,利用了创新的Würstchen架构。这个模型以其更高质量的图像、更快的速度、更低的成本和更容易定制而与众不同。

2.1. 三阶段过程结构#

Stable Cascade A阶段: Stable Cascade的A阶段利用矢量量化生成对抗网络(VQGAN)实现了4倍的图像压缩。这个阶段创新地将值量化为从学习到的码本中选择的8,192个独特条目之一,类似于从调色板中选择颜色。这种量化不仅在空间上将图像压缩了4:1,而且通过使用离散令牌表示图像,显著减少了数据大小。这种方法与Stable Diffusion使用浮点值形成对比,提供了更紧凑和高效的压缩技术。

Stable Cascade B阶段: 进入B阶段,Stable Cascade展示了其在细化图像数据方面的优势。在这里,来自A阶段的离散令牌通过潜在扩散模型进行转换,巧妙地将IP适配器的原理与扩散技术相结合,以指导创建相似的输出图像。B阶段的亮点在于它能够将令牌化数据转换回丰富、详细的浮点值,从而提高图像的语义质量。这个阶段专为效率而设计,专注于创建与输入完全匹配的去噪潜在因子,从而使训练过程更加简化,降低计算需求。

Stable Cascade C阶段: C阶段引入了一种新方法,通过在B阶段的语义输出中添加噪声,然后使用一系列ConvNeXt块仔细地对其进行去噪。目的是精确复制语义内容,绕过下采样的需要。这个阶段在将语义斑点转化为连贯的片段方面发挥着关键作用,B阶段可以进一步细化这些片段,最终生成高质量的图像。C阶段战略性地使用ConvNeXt块,突出了其高效交付顶级性能的承诺,避开了通常为实现如此先进的结果而涉及的巨大计算成本。