Flux de travail texte-à-image Z-Image pour ComfyUI
Ce flux de travail ComfyUI présente Z-Image, un transformateur de diffusion de nouvelle génération conçu pour une génération d'images rapide et haute fidélité. Construit sur une architecture évolutive à flux unique avec environ 6 milliards de paramètres, Z-Image équilibre photoréalisme, forte adhérence aux invites et rendu du texte bilingue.
Prêt à l'emploi, le graphe est configuré pour Z-Image Base afin de maximiser la qualité tout en restant efficace sur les GPU courants. Il fonctionne également bien avec la variante Z-Image Turbo lorsque la vitesse est importante, et sa structure facilite son extension vers Z-Image Edit pour les tâches image-à-image. Si vous souhaitez un graphe fiable et minimal qui transforme des invites claires en résultats propres, ce flux de travail Z-Image est un point de départ solide.
Modèles clés dans le flux de travail Z-Image de Comfyui
- Z-Image Base transformateur de diffusion (bf16). Générateur principal qui débruite les latents en images avec la topologie à flux unique et le contrôle des invites de Z-Image. Page du modèle • Poids bf16
- Encodeur de texte Qwen 3 4B. Encode les invites pour Z-Image avec une couverture bilingue forte et une tokenisation claire pour le rendu du texte. Poids de l'encodeur
- Autoencodeur VAE Z-Image. Compresse et reconstruit les images entre l'espace pixel et l'espace latent de Z-Image. Poids VAE
Comment utiliser le flux de travail Z-Image de Comfyui
À un niveau élevé, le graphe charge les composants Z-Image, prépare une toile latente, encode vos invites positives et négatives, exécute un échantillonneur réglé pour Z-Image, puis décode et enregistre le résultat. Vous fournissez principalement l'invite et choisissez la taille de sortie ; le reste est câblé pour des valeurs par défaut raisonnables.
Étape1 - Charger les modèles
Ce groupe initialise le Z-Image UNet, l'encodeur de texte Qwen 3 4B et le VAE pour que tous les composants soient alignés. Le UNETLoader (#66) pointe par défaut vers Z-Image Base, qui privilégie la fidélité et la marge de manœuvre pour l'édition. Le CLIPLoader (#62) intègre l'encodeur basé sur Qwen qui gère bien les invites multilingues et les tokens de texte. Le VAELoader (#63) configure l'autoencodeur utilisé plus tard pour le décodage. Échangez les poids ici si vous souhaitez essayer Z-Image Turbo pour des brouillons plus rapides.
Étape2 - Taille de l'image
Ce groupe configure la toile latente via EmptySD3LatentImage (#68). Choisissez la largeur et la hauteur que vous souhaitez générer, et gardez à l'esprit le rapport d'aspect pour la composition. Z-Image fonctionne bien avec les tailles créatives courantes, alors choisissez des dimensions qui correspondent à vos storyboards ou au format de livraison. Les tailles plus grandes augmentent le détail et le coût de calcul.
Étape3 - Invite
Ici, vous écrivez votre histoire. Le nœud CLIP Text Encode (Positive Prompt) (#67) prend la description de votre scène et les directives de style pour Z-Image. Le CLIP Text Encode (Negative Prompt) (#71) aide à éviter les artefacts ou les éléments indésirables. Z-Image est réglé pour le rendu de texte bilingue, vous pouvez donc inclure du contenu textuel dans plusieurs langues directement dans l'invite si nécessaire. Gardez les invites spécifiques et visuelles pour des résultats les plus cohérents.
Échantillonner et débruiter
ModelSamplingAuraFlow (#70) applique une politique d'échantillonnage alignée avec le design à flux unique de Z-Image, puis KSampler (#69) conduit le processus de débruitage pour transformer le bruit en une image qui correspond à vos invites. L'échantillonneur combine vos conditionnements positifs et négatifs avec la toile latente pour affiner structure et détails de manière itérative. Vous pouvez échanger la vitesse contre la qualité ici en ajustant les paramètres de l'échantillonneur comme décrit ci-dessous. C'est à ce stade que l'adhérence aux invites et la clarté du texte de Z-Image se manifestent vraiment.
Décoder et enregistrer
VAEDecode (#65) convertit le latent final en une image RGB. SaveImage (#9) écrit les fichiers en utilisant le préfixe défini dans le nœud pour que vos sorties Z-Image soient faciles à trouver et à organiser. Cela complète un passage complet de l'invite aux pixels.
Nœuds clés dans le flux de travail Z-Image de Comfyui
UNETLoader (#66)
Charge la base Z-Image qui effectue le débruitage réel. Passez à une autre variante Z-Image ici lorsque vous explorez des cas d'utilisation de vitesse ou d'édition. Si vous changez de variante, gardez l'encodeur et le VAE compatibles pour éviter les changements de couleur ou de contraste.
CLIP Text Encode (Positive Prompt) (#67)
Encode la description principale pour Z-Image. Écrivez des phrases concises et visuelles qui spécifient le sujet, l'éclairage, la caméra, l'ambiance et tout texte sur l'image. Pour le rendu du texte, mettez les mots souhaités entre guillemets et gardez-les courts pour une meilleure lisibilité.
CLIP Text Encode (Negative Prompt) (#71)
Définit ce qu'il faut éviter pour que Z-Image puisse se concentrer sur les bons détails. Utilisez-le pour supprimer le flou, les membres supplémentaires, la typographie désordonnée ou les éléments hors style. Gardez-le bref et thématique pour qu'il ne contraigne pas excessivement la composition.
EmptySD3LatentImage (#68)
Crée la toile latente où Z-Image peindra. Choisissez des dimensions qui conviennent à l'utilisation finale et gardez-les multiples de 64 px pour une utilisation efficace de la mémoire. Les toiles plus larges ou plus hautes influencent la composition et la perspective, ajustez donc les invites en conséquence.
ModelSamplingAuraFlow (#70)
Sélectionne un préréglage d'échantillonneur qui correspond à l'entraînement et à l'espace latent de Z-Image. Vous n'avez rarement besoin de changer cela à moins de tester des échantillonneurs alternatifs. Laissez-le tel quel pour des résultats stables et sans artefacts.
KSampler (#69)
Contrôle le compromis qualité-vitesse pour Z-Image. Augmentez steps pour plus de détail et de stabilité, diminuez pour des brouillons plus rapides. Gardez cfg modéré pour équilibrer l'adhérence aux invites avec des textures naturelles ; les valeurs typiques dans ce graphe sont steps: 30 à 50 et cfg: 3 à 5. Définissez une seed fixe pour la reproductibilité ou randomisez-la pour explorer des variations.
VAEDecode (#65)
Transforme le latent final de Z-Image en une image RGB. Si vous changez un jour le VAE, gardez-le assorti à la famille de modèles pour préserver la précision des couleurs et la netteté.
SaveImage (#9)
Écrit le résultat avec un préfixe de nom de fichier clair pour que les sorties Z-Image soient faciles à cataloguer. Ajustez le préfixe pour séparer les expériences, les variantes de modèle ou les rapports d'aspect.
Extras optionnels
- Utilisez Z-Image Turbo pour une idéation rapide, puis revenez à Z-Image Base et augmentez les étapes pour les rendus finaux.
- Pour les invites bilingues et le texte sur l'image, gardez les formulations courtes et à fort contraste dans l'invite pour aider Z-Image à rendre une typographie nette.
- Verrouillez la seed lors de la comparaison de petites modifications d'invite afin que les différences reflètent vos changements plutôt qu'un nouveau bruit.
- Si vous voyez une saturation excessive ou des halos, réduisez légèrement
cfgou renforcez l'invite négative pour retrouver l'équilibre.
Remerciements
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy-Org pour le modèle de flux de travail Z-Image Day-0 ComfyUI pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources
- Comfy-Org/Z-Image Day-0 support in ComfyUI
- GitHub: Comfy-Org/workflow_templates
- Docs / Notes de version: Source
Note: L'utilisation des modèles, ensembles de données et du code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

