Z-Image I2I Ultimate Photorealism: identitätsbewusste Gesichtsverfeinerung für Porträts
Z-Image I2I Ultimate Photorealism ist ein zweistufiger ComfyUI-Workflow zur getreuen Bild-zu-Bild-Porträtverbesserung. Er bewahrt die Identität und das Gesamtbild des Subjekts, während er realistische Gesichtsdetails hinzufügt, Ausdruckshinweise korrigiert und die unheimlichen Artefakte vermeidet, die bei Gesichtswechseln häufig auftreten. Basierend auf Z-Image Turbo mit spezialisierter Gesicht-LoRA-Führung ist er ideal für fotorealistische Porträtbearbeitung, Retusche und identitätskonsistente Upgrades von einem einzigen Quellbild.
Die Pipeline reproduziert zunächst Ihr Eingabefoto mit hoher Treue und verfeinert dann selektiv das Gesicht mithilfe von automatischer Gesichtsmaskierung und ausdrucksbezogenem Inpainting. Das Ergebnis ist ein natürliches, realistisches Porträt, das die wesentliche Ähnlichkeit bewahrt. Diese README erklärt, wie Sie den Comfyui Z-Image I2I Ultimate Photorealism-Workflow ausführen und anpassen können.
Hinweis: Dieser Workflow erfordert eine Gesicht-LoRA, um zu funktionieren. Laden Sie Ihre eigene Charakter-LoRA in den
Inputs-GruppenknotenCharacter Lora herehoch.
Wichtige Modelle im Comfyui Z-Image I2I Ultimate Photorealism-Workflow
- Z-Image Turbo Diffusionsmodell. Kernbild-zu-Bild-Generator, der die Quellkomposition und Beleuchtung reproduziert und subtile, fotorealistische Verbesserungen ermöglicht.
- ZImageTurbo VAE. Gekoppelter Encoder/Decoder für eine getreue latente Umwandlung, die Farb- und Kontrastdrift in I2I minimiert.
- Gesicht-LoRA-Adapter. Optionale subjekt-spezifische LoRAs, die Identitätsmerkmale verstärken, ohne Stil zu verändern.
- Qwen3-VL Instruct-Familie. Wird verwendet, um Gesichtsausdruck und Blickrichtung automatisch zu beschreiben, damit die Verfeinerungen mit dem tatsächlichen Foto übereinstimmen. Siehe Modellkarten für Qwen3-VL-2B-Instruct und Qwen3-VL-4B-Instruct. Die ComfyUI-Knotenintegration wird bereitgestellt von ComfyUI-QwenVL.
- Segment Anything Model 3 (SAM3). Open-Vocabulary-Segmentierung, die den Gesichtsbereich vom Basispass isoliert, um präzises, nicht destruktives Inpainting zu ermöglichen. Siehe facebookresearch/sam3 und den ComfyUI-Wrapper ComfyUI-SAM3.
Wie man den Comfyui Z-Image I2I Ultimate Photorealism-Workflow verwendet
Der Workflow läuft in zwei koordinierten Stufen: ein Basis-I2I-Rendering, das Ihr Bild originalgetreu reproduziert, gefolgt von einem nur auf das Gesicht fokussierten Verfeinerungspass, der durch automatische Maskierung und einen ausdrucksbezogenen Prompt geleitet wird. Ein separates Sandbox ermöglicht es Ihnen, Gesicht-LoRAs zu testen, ohne Ihr Quellbild zu verändern.
Eingaben
Laden Sie Ihr Porträt in LoadImage (#958). Das Bild wird mit ImageResizeKJv2 (#973) auf eine stabile Arbeitsgröße normalisiert, wobei die Komposition erhalten bleibt. Ein Vision-Language-Knoten generiert dann einen strukturierten, fotowahren positiven Prompt aus dem Bild; der Langform-Auto-Prompt stammt von AILab_QwenVL (#962), der darauf ausgelegt ist, das im Foto vorhandene zu beschreiben, anstatt neue Inhalte zu erfinden. Sie können dies für identitätskonsistente Bearbeitungen belassen oder durch Ihren eigenen Prompt für kreative Variationen ersetzen. Ein GGUF-basierter Text-Encoder liefert Prompt-Embeddings, sodass Sie auch in Umgebungen mit niedrigem VRAM konsistente Konditionierung erhalten.
Render
Der Basispass rekonstruiert das Eingabefoto als sauberen, entrauschten Ausgangspunkt. CLIPTextEncode (#6) codiert den Auto-Prompt, CLIPTextEncode (#7) fügt einen Sicherheitsnetz-negativen Prompt hinzu, und SeedVarianceEnhancer (#978) injiziert eine kleine, kontrollierte Menge an frühen Schrittvariationen, um die niedrige Same-Diversität typischer Turbomodelle zu vermeiden. Das Quellbild wird mit VAEEncode (#960) codiert, und der Hauptsampler ClownsharKSampler_Beta (#979) erzeugt ein hochauflösendes Latent, das zum vorverfeinerten Bild über VAEDecode (#860) dekodiert wird. Dieses Zwischenresultat wird als „Output 1 Pre-Face Detail“ gespeichert, um einen schnellen A/B-Vergleich zu ermöglichen.
Gesichtsverfeinerer
Die Verfeinerungsstufe erkennt und verbessert nur das Gesicht und lässt Haare, Kleidung und Hintergrund unberührt. LoadSAM3Model (#940) mit SAM3Grounding (#939) findet eine präzise Gesichtsmaske aus dem vorverfeinerten Bild mit dem Textprompt „Gesicht“. Die Maske wird mit GrowMaskWithBlur (#1008) aufgeweicht, und der Gesichtsbereich wird im Kontext mit InpaintCropImproved (#942) für schnelleres, hochauflösendes Sampling zugeschnitten, bevor er wieder zusammengenäht wird. Ein zweites AILab_QwenVL (#975) erstellt eine kompakte Beschreibung, die sich nur auf Ausdruck und Blick konzentriert, die CLIPTextEncode (#944) in positive Konditionierung umwandelt, während ConditioningZeroOut (#945) absichtlich den negativen Kanal auf Null setzt, um eine Überunterdrückung von Gesichtsmikrodetails zu verhindern. InpaintModelConditioning (#943) bereitet maskierte Latents vor; DifferentialDiffusion (#949) lenkt das Modell in Richtung struktureller Konsistenz; ClownsharKSampler_Beta (#985) malt das verfeinerte Gesicht über; VAEDecode (#947) und InpaintStitchImproved (#950) fügen das verbesserte Gesicht wieder ein, ohne unmaskierte Bereiche zu verändern. Das endgültige Bild wird von SaveImage (#989) gespeichert.
LoRA testen
Verwenden Sie die „Test Lora“-Sandbox, um eine Gesicht-LoRA zu evaluieren, ohne Ihr Quellbild zu verändern. CLIPTextEncode (#999, #1000) bietet ein einfaches Test-Prompt-Paar, EmptyLatentImage (#1001) erstellt eine saubere Leinwand, und ClownsharKSampler_Beta (#1007) rendert schnelle Muster, die Sie in der Vorschau anzeigen können. Dies ist hilfreich, um die Wahl und das Gewicht der LoRA abzustimmen, bevor ein vollständiger Identitätsverfeinerungspass durchgeführt wird.
Wichtige Knoten im Comfyui Z-Image I2I Ultimate Photorealism-Workflow
SAM3Grounding(#939). Erkennt das Gesicht aus einem natürlichen Sprachprompt mit SAM3, was saubere Masken liefert, die robust gegen Verdeckung und Pose sind. Wenn die Maske zu eng ist oder Haarlinienartefakte enthält, erweitern oder verwischen Sie sie sanft mitGrowMaskWithBlurupstream, um Nähte zu vermeiden. Referenz: facebookresearch/sam3 und ComfyUI-SAM3.InpaintCropImproved(#942) undInpaintStitchImproved(#950). Crop-then-Stitch-Workflow, der nur den maskierten Bereich in optimaler Auflösung abtastet und das Ergebnis dann nahtlos in das Original einfügt. Verwenden Sie es, um die Zielgesichtsauflösung und den Kontext festzulegen, während sichergestellt wird, dass unmaskierte Pixel niemals neu kodiert werden. Referenz: ComfyUI-Inpaint-CropAndStitch.ClownsharKSampler_Beta(#979, #985). Fortschrittlicher RES4LYF-Sampler mit hochgenauen expliziten Samplern und robusten SDE-Optionen, die sich bei fotorealem I2I und Inpainting auszeichnen. Für identitätskritische Arbeiten wählen Sie einen stabilen RES-Sampler und eine konservative Entrauschung; erhöhen Sie die Entrauschung nur, wenn Sie den Ausdruck oder die Hautdetails erheblich ändern möchten. Referenz: RES4LYF.SeedVarianceEnhancer(#978). Fügt in den frühen Schritten kontrolliert Rauschen zu positiven Embeddings hinzu, um die niedrige Samendiversität in Z-Image Turbo zu bekämpfen und natürliche Variation ohne Identitätsdrift zu erzielen. Erhöhen Sie die Stärke, wenn die Ausgaben über Samen hinweg zu ähnlich aussehen; reduzieren Sie sie, wenn die Prompt-Adhärenz schwächer wird. Referenz: ChangeTheConstants/SeedVarianceEnhancer.DifferentialDiffusion(#949). Modifiziert das Modell für differenzielles Entrauschen, das hilft, die zugrunde liegende Struktur während maskierter Bearbeitungen zu bewahren. Lassen Sie es aktiviert für subtile, identitätssichere Gesichtsverfeinerungen; erwägen Sie es zu deaktivieren, wenn Sie absichtlich stärkere stilistische Änderungen wünschen. Referenz: Knotenverhalten dokumentiert in ComfyUI-Ökosystemen und hier als Struktur-Erhaltungshilfe verwendet.AILab_QwenVL(#962, #975). Vision-Language-Prompts, die den tatsächlichen Bildinhalt lesen, um die Führung in der Realität zu verankern, insbesondere für Mikroausdrücke und Blickrichtung. Bevorzugen Sie prägnante, wörtliche Formulierungen im Gesichtspass, um zu vermeiden, dass neue Attribute eingeführt werden. Referenz: ComfyUI-QwenVL und Qwen3-VL-Modellkarten (2B, 4B).
Optionale Extras
- Verwenden Sie das „Output 1 Pre-Face Detail“-Bild, um die Basis-Treue zu überprüfen, bevor Sie das Gesicht verfeinern; dies hilft, Basis-Entrauschungsprobleme von Masken- oder Inpaint-Einstellungen zu trennen.
- Wenn sich das verfeinerte Gesicht überglättet anfühlt, erweitern Sie die Gesichtsmaske leicht und reduzieren Sie deren Unschärfe, um die Kantengenauigkeit zu erhöhen, und führen Sie dann nur den Gesichtspass erneut aus.
- Halten Sie Prompts faktisch für identitätsbewahrende Bearbeitungen; verschieben Sie kreatives Styling auf Garderobe, Licht oder Hintergrund anstatt auf Gesichtszüge.
- Validieren Sie neue Gesicht-LoRAs zuerst in der Test-LoRA-Sandbox, dann wenden Sie die gewählte LoRA und das Gewicht auf die Hauptpipeline an, um die Identitätsverstärkung konsistent zu halten.
- Für konsistente Rahmung über eine Charge hinweg halten Sie das Seitenverhältnis Ihrer Eingabebilder nahe an den Resize-Zielen des Workflows, um den Druck beim Zuschneiden zu minimieren und die Proportionen zu bewahren.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken RetroGazzaSpurs herzlich für den „Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism“-Workflow für ihre Beiträge und Wartung. Für autoritative Details beziehen Sie sich bitte auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen
- RetroGazzaSpurs/Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism
- Docs / Release Notes: Workflow Source
Hinweis: Die Verwendung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Wartungsmitarbeiter.




