Questo workflow porta Z Image ControlNet in ComfyUI così puoi guidare Z-Image Turbo con una struttura precisa da immagini di riferimento. Combina tre modalità di guida in un grafico profondità, bordi canny, e posa umana e ti consente di passare tra di esse per adattarsi al tuo compito. Il risultato è una generazione di testo o immagine di alta qualità e veloce dove layout, posa e composizione rimangono sotto controllo mentre iteri.
Progettato per artisti, designer concettuali e pianificatori di layout, il grafico supporta suggerimenti bilingue e uno stile opzionale LoRA. Ottieni un'anteprima pulita del segnale di controllo scelto più una striscia di confronto automatica per valutare profondità, canny o posa rispetto al risultato finale.
A livello generale, carichi o carichi un'immagine di riferimento, selezioni una modalità di controllo tra profondità, canny o posa, quindi generi con un suggerimento testuale. Il grafico ridimensiona il riferimento per un campionamento efficiente, costruisce un latente con proporzioni corrispondenti e salva sia l'immagine finale che una striscia di confronto affiancata.
Usa LoadImage (#14) per scegliere un'immagine di riferimento. Inserisci il tuo suggerimento testuale in Text Multiline (#17) lo stack Z-Image supporta suggerimenti bilingue. Il suggerimento è codificato da CLIPLoader (#2) e CLIPTextEncode (#4). Se preferisci un'immagine guidata puramente dalla struttura, puoi lasciare il suggerimento minimo e fare affidamento sul segnale di controllo selezionato.
Tre preprocessori convertono il tuo riferimento in segnali di controllo. AIO_Preprocessor (#45) produce profondità con Depth Anything v2, AIO_Preprocessor (#46) estrae bordi canny, e DWPreprocessor (#56) stima la posa del corpo intero. Usa ImpactSwitch (#58) per selezionare quale segnale guida Z Image ControlNet, e controlla PreviewImage (#43) per confermare la mappa di controllo scelta. Scegli profondità quando desideri la geometria della scena, canny per layout nitidi o scatti di prodotto, e posa per lavori sui personaggi.
Suggerimenti per OpenPose:
- Migliore per Corpo Intero: OpenPose funziona meglio (~70-90% di accuratezza) quando includi "corpo intero" nel tuo suggerimento.
- Evitare per Primi Piani: L'accuratezza cala significativamente sui volti. Usa Profondità o Canny (bassa/media intensità) per primi piani invece.
- I Suggerimenti Contano: I suggerimenti influenzano fortemente ControlNet. Evita suggerimenti vuoti per prevenire risultati confusi.
ImageScaleToTotalPixels (#34) ridimensiona il riferimento a una risoluzione pratica di lavoro per bilanciare qualità e velocità. GetImageSizeAndCount (#35) legge la dimensione ridimensionata e passa avanti larghezza e altezza. EmptyLatentImage (#6) crea una tela latente che corrisponde all'aspetto del tuo input ridimensionato così la composizione rimane coerente.
QwenImageDiffsynthControlnet (#39) fonde il modello base con la patch union Z Image ControlNet e l'immagine di controllo selezionata, poi KSampler (#7) genera il risultato guidato dal tuo condizionamento positivo e negativo. VAEDecode (#8) converte il latente in un'immagine. Il workflow salva due output SaveImage (#31) scrive l'immagine finale, e SaveImage (#42) scrive una striscia di confronto tramite ImageConcatMulti (#38) che include la sorgente, la mappa di controllo, e il risultato per un rapido controllo qualità.
ImpactSwitch (#58)Sceglie quale immagine di controllo guida la generazione profondità, canny, o posa. Cambia modalità per confrontare come ogni vincolo modella composizione e dettaglio. Usalo durante l'iterazione dei layout per testare rapidamente quale guida si adatta meglio al tuo obiettivo.
QwenImageDiffsynthControlnet (#39)Collega il modello base, la patch union Z Image ControlNet, il VAE, e il segnale di controllo selezionato. Il parametro strength determina quanto rigorosamente il modello segue l'input di controllo rispetto al suggerimento. Per un abbinamento stretto del layout, aumenta la forza per maggiore variazione creativa, riducila.
AIO_Preprocessor (#45)Esegue la pipeline Depth Anything v2 per creare mappe di profondità dense. Aumenta la risoluzione per una struttura più dettagliata o riduci per anteprime più rapide. Si abbina bene con scene architettoniche, scatti di prodotto, e paesaggi dove la geometria è importante.
DWPreprocessor (#56)Genera mappe di posa adatte per persone e personaggi. Funziona meglio quando gli arti sono visibili e non pesantemente occultati. Se mani o gambe mancano, prova un riferimento più chiaro o un diverso fotogramma con maggiore visibilità del corpo completo.
LoraLoaderModelOnly (#54)Applica un LoRA opzionale al modello base per indizi di stile o identità. Regola strength_model per fondere il LoRA dolcemente o fortemente. Puoi sostituire un LoRA facciale per personalizzare i soggetti o usare un LoRA di stile per fissare un look specifico.
KSampler (#7)Esegue il campionamento di diffusione utilizzando il tuo suggerimento e controllo. Regola seed per la riproducibilità, steps per il budget di affinamento, cfg per l'aderenza al suggerimento, e denoise per quanto l'output può deviare dal latente iniziale. Per modifiche immagine-su-immagine, abbassa il denoise per preservare la struttura valori più alti consentono cambiamenti maggiori.
Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine Alibaba PAI per Z Image ControlNet per i loro contributi e manutenzione. Per dettagli autorevoli, fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e condizioni fornite dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.