Qwen Image 2512 ComfyUI 工作流,用于文本精确的肖像和场景
此工作流将您的提示转化为高保真图像,使用 Qwen Image 2512。它专为需要强大文本到图像对齐、逼真人物和可靠的场景内双语文本渲染的创作者而设计。图形预先连接了 Qwen 的 VAE 和文本编码器,以及可选的 Lightning LoRA,用于少步生成,因此您可以在最少的设置下从提示到结果。
用于概念艺术、插图、标识、海报和日常照片风格。Qwen Image 2512 提供稳定的构图和清晰的排版,使其成为混合人物、环境和可读文本提示的可靠选择。
Comfyui Qwen Image 2512 工作流中的关键模型
- Qwen-Image 2512 基础模型 (bfloat16)。核心扩散模型,从条件中合成图像。Comfy 准备的权重在 Comfy-Org 包中提供。模型文件
- Qwen2.5-VL 7B 文本编码器。将您的提示编码为驱动 Qwen Image 2512 布局、风格和文本渲染的条件向量。文本编码器文件
- Qwen Image VAE。将采样器生成的潜在变量解码回具有真实颜色和细节的 RGB 图像。VAE 文件
- Qwen-Image-2512-Lightning-4steps-V1.0 LoRA(可选)。一个社区 LoRA,调整为少步生成以加速渲染,质量略有折衷。LoRA 卡片
- 有关模型家族和训练方法的背景,请参阅 Qwen-Image 技术报告。论文
如何使用 Comfyui Qwen Image 2512 工作流
总体流程:您的提示被编码,选择的分辨率创建一个潜在画布,模型堆栈应用基础模型和可选的 LoRA,采样器迭代以优化潜在变量,VAE 解码最终图像以保存。
- Qwen-Image-2512 组概述
- 整个图形组织在一个名为“Qwen-Image-2512”的单一组中。它连接文本编码器、模型和 LoRA 堆栈、采样助手和 VAE 解码。您可以通过正负提示、画布大小和一些采样器设置来控制外观。输出是高分辨率的人像风格图像,保存在您的 ComfyUI 输出文件夹中。
- 使用
CLIPTextEncode(#52) 的提示和可选的负CLIPTextEncode(#32)- 在
CLIPTextEncode(#52) 中输入您的主要描述。编写场景、主体和任何您想要渲染的图像内文本;Qwen Image 2512 特别擅长标识、海报、UI 模型和双语字幕。使用CLIPTextEncode(#32) 作为可选的负片,以避免伪影或不需要的风格。如果您需要精确的措辞,请将文本片段放在引号内。
- 在
- 使用
EmptySD3LatentImage(#57) 的画布和纵横比- 在此处选择目标宽度和高度以设置构图。纵向格式适合人物和自拍,而正方形和横向比例适合产品和场景布局。更大的画布提供更精细的细节,但会占用更多内存和时间;从中等开始,然后在您喜欢的框架后放大。保持相同的纵横比可提高一致性。
- 使用
UNETLoader(#100) 和LoraLoaderModelOnly(#101) 的模型和 LoRA 堆栈- 基础生成器是由
UNETLoader(#100) 加载的 Qwen Image 2512。如果您想要更快的渲染,可以在LoraLoaderModelOnly(#101) 中启用 Lightning LoRA 以切换到少步工作流。此堆栈在采样开始之前设置模型在逼真度、布局和文本到图像对齐方面的能力。
- 基础生成器是由
- 使用
ModelSamplingAuraFlow(#43) 和CFGNorm(#55) 的采样助手- 这两个节点准备模型进行稳定、对比平衡的采样。
ModelSamplingAuraFlow(#43) 调整时间表以保持细节清晰而不过度处理纹理。CFGNorm(#55) 正常化指导,以在遵循您的提示的同时保持一致的颜色和曝光。
- 这两个节点准备模型进行稳定、对比平衡的采样。
- 使用
KSampler(#54) 的去噪和精炼- 这是将潜在变量从噪声迭代改进为连贯图像的工作阶段。您可以设置种子以便重复性,选择采样器和调度器,并选择运行的步数。启用 Lightning 时,您可以针对少步数;仅使用基础模型时,使用更多步数以获得最大保真度。
- 使用
VAEDecode(#45) 和SaveImage(#117) 的解码和保存- 采样后,VAE 干净地从潜在变量重构 RGB,
SaveImage将最终 PNG 写入。如果颜色或对比度看起来不对,请重新审视指导或提示措辞而非后期处理;Qwen Image 2512 对描述性照明和材质提示响应良好。
- 采样后,VAE 干净地从潜在变量重构 RGB,
Comfyui Qwen Image 2512 工作流中的关键节点
UNETLoader(#100)- 加载 Qwen-Image-2512 基础模型,决定整体能力和风格空间。如果您的 GPU 允许,请使用 bf16 构建以获得最大质量。仅在需要适应内存或提高吞吐量时切换到 fp8 或压缩变体。
LoraLoaderModelOnly(#101)- 在基础模型上应用 Qwen-Image-2512-Lightning-4steps-V1.0 LoRA。提高或降低
strength_model以将速度调整与基础保真度混合,或将其设置为 0 以禁用。当此 LoRA 活动时,在KSampler中减少steps以实现加速。
- 在基础模型上应用 Qwen-Image-2512-Lightning-4steps-V1.0 LoRA。提高或降低
ModelSamplingAuraFlow(#43)- 修补模型的采样行为,以获得通常产生更清晰边缘和更少污迹的流动样式时间表。如果结果看起来过于锐利或细节不足,请稍微调整
shift参数并重新采样。在测试时保持其他变量稳定以隔离效果。
- 修补模型的采样行为,以获得通常产生更清晰边缘和更少污迹的流动样式时间表。如果结果看起来过于锐利或细节不足,请稍微调整
CFGNorm(#55)- 正常化无分类器指导,以防止输出被冲淡或过度饱和。使用
strength决定正常化的作用力度。如果文本准确性在提高 CFG 时下降,请增加正常化强度而不是进一步提高 CFG。
- 正常化无分类器指导,以防止输出被冲淡或过度饱和。使用
EmptySD3LatentImage(#57)- 设置定义框架和纵横比的潜在画布大小。对于人物,纵向比例减少失真,有助于身体比例;对于海报,正方形或横向比例强调布局和文本块。只有在对构图满意后才增加分辨率。
CLIPTextEncode(#52) 和CLIPTextEncode(#32)- 正编码器 (#52) 将您的描述转换为条件,包括要在场景中渲染的明确文本字符串。负编码器 (#32) 抑制不需要的特征,如伪影、多余的手指或嘈杂的背景。保持提示简洁和事实,以获得最佳对齐。
KSampler(#54)- 控制种子、采样器、调度器、步数、CFG 和去噪强度。使用 Qwen Image 2512 时,适度的 CFG 值通常可以保持模型的强文本对齐;如果字母变形,先降低 CFG 再更改采样器。对于快速草稿,启用 Lightning 并尝试非常少的步骤,然后在需要时增加步骤以进行最终渲染。
VAELoader(#34) 和VAEDecode(#45)- 加载并应用 Qwen 的 VAE 以重构真实的颜色和精细细节。保持 VAE 与基础模型配对以避免颜色偏移。如果您切换基础权重,也切换到匹配的 VAE 构建。
可选额外项
- 图像内文本提示
- 将确切的单词放在直引号中,并添加简短的排版提示,如“干净的现代排版”或“粗体无衬线”。包括位置提示,如“墙壁海报”或“店面标志”以锚定文本应出现的位置。
- 使用 Lightning 快速迭代
- 启用 Lightning LoRA 并使用少量步骤进行预览。一旦框架和措辞正确,禁用或减少 LoRA 强度并增加步骤以恢复最大保真度。
- 纵横比选择
- 在变体中坚持一致的比例。对于人物,使用纵向;对于产品或标志研究,使用正方形;对于环境或幻灯片,使用横向。如果您后期放大,请保持相同比例以保持构图。
- 指导纪律
- Qwen Image 2512 通常偏好适度的 CFG。如果文本保真度下降,降低 CFG 或增加
CFGNorm强度,而不是增加更多指导。
- Qwen Image 2512 通常偏好适度的 CFG。如果文本保真度下降,降低 CFG 或增加
- 可重复性
- 当您喜欢某个结果时锁定一个种子,以便可以安全地迭代。在继续之前,每次更改一个控制以了解其影响。
致谢
此工作流实现并基于以下作品和资源。我们感谢 Comfy-Org 提供的 Qwen Image 2512 模型文件的贡献和维护。有关权威详情,请参阅以下链接的原始文档和存储库。
资源
- Comfy-Org/Qwen Image 2512 模型文件
- Hugging Face: Comfy-Org/Qwen-Image_ComfyUI
- 文档/发布说明: Qwen Image 2512 模型文件
注意:引用的模型、数据集和代码的使用受其作者和维护者提供的相应许可和条款的约束。
