Z-Image I2I 终极写实主义:安全身份的肖像面部修饰
Z-Image I2I 终极写实主义是一个两阶段的 ComfyUI 工作流程,用于忠实的图像到图像人像增强。它在添加真实的面部细节、纠正表情线索的同时,保持主体的身份和整体外观,并避免常见的面部替换中的怪异伪影。围绕 Z-Image Turbo 构建,并通过专门的面部 LoRA 引导,非常适合写实人像编辑、修饰和从单一源图像进行身份一致的升级。
该流程首先以高保真度重现您的输入照片,然后使用自动面部遮罩和表情感知的修补选择性地修饰面部。结果是一个自然、逼真的肖像,保持核心相似度。此 README 解释了如何运行和调整 Comfyui Z-Image I2I 终极写实主义工作流程。
注意:此工作流程需要一个面部 LoRA 才能工作。将您自己的角色 LoRA 上传到
Inputs组节点Character Lora here。
Comfyui Z-Image I2I 终极写实主义工作流程中的关键模型
- Z-Image Turbo 扩散模型。核心图像到图像生成器,重现源图像的构图和光线,同时实现微妙的写实增强。
- ZImageTurbo VAE。配对的编码器/解码器,确保在 I2I 中忠实的潜在转换,最小化颜色和对比度漂移。
- 面部 LoRA 适配器。可选的特定主体 LoRAs,加固身份特征而不引入风格化。
- Qwen3-VL Instruct 家族。用于自动描述面部表情和目光,使修饰与实际照片中的内容对齐。参见 Qwen3-VL-2B-Instruct 和 Qwen3-VL-4B-Instruct 的模型卡。ComfyUI 节点集成由 ComfyUI-QwenVL 提供。
- Segment Anything Model 3 (SAM3)。开放词汇分割,隔离基础通道中的面部区域,实现精确、非破坏性的修补。参见 facebookresearch/sam3 和 ComfyUI 包装器 ComfyUI-SAM3。
如何使用 Comfyui Z-Image I2I 终极写实主义工作流程
该工作流程在两个协调的阶段运行:一个基础 I2I 渲染,忠实地重现您的图像,随后通过自动遮罩和表情感知提示引导的仅面部修饰过程。一个单独的沙盒允许您在不触及源图像的情况下测试面部 LoRAs。
输入
在 LoadImage (#958) 中加载您的肖像。图像通过 ImageResizeKJv2 (#973) 归一化到一个稳定的工作尺寸,同时保留构图。然后,一个视觉语言节点从图像生成结构化、真实的正面提示;长格式的自动提示来自 AILab_QwenVL (#962),其设计目的是描述照片中的内容而不是创造新内容。您可以保持原样以进行身份一致的编辑,或用您自己的提示替换以进行创意变化。一个基于 GGUF 的文本编码器提供提示嵌入,以便即使在较低 VRAM 环境中也能获得一致的条件。
渲染
基础通道将输入照片重建为一个干净、去噪的起点。CLIPTextEncode (#6) 编码自动提示,CLIPTextEncode (#7) 添加一个安全网负面提示,SeedVarianceEnhancer (#978) 注入少量、可控的早期步骤变化,以避免涡轮模型典型的低种子多样性。源图像通过 VAEEncode (#960) 编码,主要采样器 ClownsharKSampler_Beta (#979) 生成一个高保真的潜在图像,通过 VAEDecode (#860) 解码为预修饰图像。此中间结果保存为“Output 1 Pre-Face Detail”以便快速 A/B 比较。
面部修饰器
修饰阶段仅检测并改善面部,保持头发、服装和背景不变。LoadSAM3Model (#940) 与 SAM3Grounding (#939) 使用文本提示“面部”从预修饰图像中找到一个精确的面部遮罩。遮罩通过 GrowMaskWithBlur (#1008) 软化,并使用 InpaintCropImproved (#942) 在上下文中裁剪面部区域,以便在拼接回来之前进行更快、更高分辨率的采样。第二个 AILab_QwenVL (#975) 仅创建一个专注于表情和目光的简洁描述,CLIPTextEncode (#944) 将其转化为正面条件,而 ConditioningZeroOut (#945) 则有意将负面通道置零,以防止过度抑制面部微细节。InpaintModelConditioning (#943) 准备遮罩的潜在图像;DifferentialDiffusion (#949) 引导模型保持结构一致性;ClownsharKSampler_Beta (#985) 对精修后的面部进行修补;VAEDecode (#947) 和 InpaintStitchImproved (#950) 在不改变未遮罩区域的情况下合并改进的面部。最终图像由 SaveImage (#989) 保存。
测试 LoRA
使用“Test Lora”沙盒评估面部 LoRA 而不触及您的源图像。CLIPTextEncode (#999, #1000) 提供一个简单的测试提示对,EmptyLatentImage (#1001) 创建一个干净的画布,ClownsharKSampler_Beta (#1007) 渲染快速样本供您预览。这有助于在运行完整的身份精修过程之前调整 LoRA 的选择和权重。
Comfyui Z-Image I2I 终极写实主义工作流程中的关键节点
SAM3Grounding(#939)。使用 SAM3 从自然语言提示中检测面部,生成对遮挡和姿势具有鲁棒性的干净遮罩。如果遮罩过紧或包含发际线伪影,请在上游使用GrowMaskWithBlur轻轻扩展或模糊以避免接缝。参考:facebookresearch/sam3 和 ComfyUI-SAM3。InpaintCropImproved(#942) 和InpaintStitchImproved(#950)。裁剪然后拼接的工作流程,只在最佳分辨率下对遮罩区域进行采样,然后将结果混合回原始图像。使用它来设置目标面部分辨率和上下文,同时确保未遮罩的像素永远不会被重新编码。参考:ComfyUI-Inpaint-CropAndStitch。ClownsharKSampler_Beta(#979, #985)。高级 RES4LYF 采样器,具有高精度的显式采样器和强大的 SDE 选项,非常适合写实 I2I 和修补。对于身份关键的工作,选择稳定的 RES 采样器和保守的去噪;仅当您打算显著改变表情或皮肤细节时才增加去噪。参考:RES4LYF。SeedVarianceEnhancer(#978)。在早期步骤中向正面嵌入添加受控噪声,以对抗 Z-Image Turbo 中的低种子变化,产生自然变化而不偏离身份。当输出在种子之间看起来过于相似时增加其强度;如果提示遵从性减弱则减少。参考:ChangeTheConstants/SeedVarianceEnhancer。DifferentialDiffusion(#949)。修改模型以进行差异去噪,在遮罩编辑期间有助于保持基础结构。保持启用以进行细微、身份安全的面部修饰;如果您有意想要更强烈的风格化变化,请考虑禁用。参考:跨 ComfyUI 生态系统记录的节点行为,并在此用作结构保护的助力。AILab_QwenVL(#962, #975)。视觉语言提示读取实际图像内容,以保持指导锚定在现实中,特别是对于微表情和目光方向。在面部通道中优先使用简洁、字面语言,以避免引入新属性。参考:ComfyUI-QwenVL 和 Qwen3-VL 模型卡 (2B, 4B)。
可选额外功能
- 使用“Output 1 Pre-Face Detail”图像验证基础保真度,然后再修饰面部;这有助于分离基础去噪问题与遮罩或修补设置。
- 如果精修后的面部感觉过于平滑,稍微扩展面部遮罩并减少其模糊度以增加边缘责任,然后仅重新运行面部通道。
- 保持提示为事实,以进行身份保留的编辑;将创意风格化移动到服装、光线或背景,而不是面部属性。
- 首先在 Test LoRA 沙盒中验证新的面部 LoRAs,然后将选择的 LoRA 和权重应用于主流程,以实现一致的身份强化。
- 为保持批次中的一致框架,请将输入图像的纵横比保持在工作流程的调整目标附近,以最小化裁剪压力并保持比例。
致谢
此工作流程实现并基于以下作品和资源。我们衷心感谢 RetroGazzaSpurs 对“Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism”工作流程的贡献和维护。有关权威详细信息,请参阅下面链接的原始文档和存储库。
资源
- RetroGazzaSpurs/Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism
- 文档 / 发布说明: 工作流程来源
注意:所引用的模型、数据集和代码的使用需遵循各自作者和维护者提供的许可和条款。




