Nunchaku Qwen Image è un flusso di lavoro di editing e compositing multi‑immagine guidato da prompt per ComfyUI. Accetta fino a tre immagini di riferimento, ti permette di specificare come devono essere mescolate o trasformate, e produce un risultato coeso guidato da linguaggio naturale. I casi d'uso tipici includono la fusione di soggetti, la sostituzione di sfondi o il trasferimento di stili e dettagli da un'immagine all'altra.
Costruito attorno alla famiglia d'immagini Qwen, questo flusso di lavoro offre ad artisti, designer e creatori un controllo preciso rimanendo veloce e prevedibile. Include anche una rotta di modifica singola immagine e una rotta pura da testo a immagine, così puoi generare, rifinire e comporre all'interno di un'unica pipeline Nunchaku Qwen Image.
Nota: Seleziona tipi di macchine nell'intervallo da Medium a 2XLarge. L'uso di tipi di macchine 2XLarge Plus o 3XLarge non è supportato e risulterà in un fallimento dell'esecuzione.
Nunchaku Qwen Image Edit 2509. Pesi di diffusione/DiT ottimizzati per l'editing di immagini guidato da prompt e il trasferimento di attributi. Forti in modifiche localizzate, scambi di oggetti e cambiamenti di sfondo. Model card
Nunchaku Qwen Image (base). Generatore base utilizzato dal ramo testo-a-immagine per la sintesi creativa senza una foto di origine. Model card
Qwen2.5‑VL 7B codificatore di testo. Modello linguistico multimodale che interpreta i prompt e li allinea con le caratteristiche visive per l'editing e la generazione. Model page
Qwen Image VAE. Autoencoder variazionale utilizzato per codificare immagini di origine in latenze e decodificare risultati finali con colore e dettaglio fedeli. Assets
Questo grafico contiene tre rotte indipendenti che condividono lo stesso linguaggio visivo e logica di campionamento. Usa un ramo alla volta a seconda che tu stia modificando più immagini, raffinando un'unica immagine o generando da testo.
Questo ramo carica il modello di modifica con NunchakuQwenImageDiTLoader
(#115), lo instrada attraverso ModelSamplingAuraFlow
(#66) e CFGNorm
(#75), quindi sintetizza con KSampler
(#3). Carica fino a tre immagini usando LoadImage
(#78, #106, #108). Il riferimento principale è codificato da VAEEncode
(#88) per impostare la tela, e ImageScaleToTotalPixels
(#93) mantiene gli input entro un intervallo di dimensioni stabile.
Scrivi la tua istruzione in TextEncodeQwenImageEditPlus
(#111) e, se necessario, inserisci rimozioni o vincoli nel TextEncodeQwenImageEditPlus
associato (#110). Fai riferimento esplicito alle fonti, ad esempio: “Il cane nell'immagine 1 indossa il cappello verde dell'immagine 2 e gli occhiali dell'immagine 3.” Per dimensioni di output personalizzate, puoi sostituire la latenza codificata con EmptySD3LatentImage
(#112). I risultati sono decodificati da VAEDecode
(#8) e salvati con SaveImage
(#60).
Scegli questo quando desideri pulizie mirate, cambiamenti di sfondo o regolazioni di stile su un'immagine. Il modello è caricato da NunchakuQwenImageDiTLoader
(#120), adattato da ModelSamplingAuraFlow
(#125) e CFGNorm
(#123), e campionato da KSampler
(#127). Importa la tua foto con LoadImage
(#129); è normalizzata da ImageScaleToTotalPixels
(#130) e codificata da VAEEncode
(#131).
Fornisci la tua istruzione in TextEncodeQwenImageEdit
(#121) e una guida negativa opzionale in TextEncodeQwenImageEdit
(#122) per mantenere o rimuovere elementi. Il ramo decodifica con VAEDecode
(#124) e scrive i file tramite SaveImage
(#128).
Usa questo ramo per creare nuove immagini da zero con il modello base. NunchakuQwenImageDiTLoader
(#146) alimenta ModelSamplingAuraFlow
(#138). Inserisci i tuoi prompt positivi e negativi in CLIPTextEncode
(#143) e CLIPTextEncode
(#137). Imposta la tua tela con EmptySD3LatentImage
(#136), quindi genera con KSampler
(#141), decodifica usando VAEDecode
(#142), e salva con SaveImage
(#147).
NunchakuQwenImageDiTLoader
(#115)
Carica i pesi dell'immagine Qwen e la variante utilizzata dal ramo. Seleziona il modello di modifica per modifiche guidate da foto o il modello base per da testo a immagine. Quando il VRAM lo consente, varianti ad alta precisione o risoluzione possono offrire più dettagli; varianti più leggere danno priorità alla velocità.
TextEncodeQwenImageEditPlus
(#111)
Guida le modifiche multi‑immagine interpretando la tua istruzione e legandola fino a tre riferimenti. Mantieni le direttive esplicite su quale immagine contribuisce con quale attributo. Usa una frase concisa ed evita obiettivi conflittuali per mantenere le modifiche focalizzate.
TextEncodeQwenImageEditPlus
(#110)
Agisce come codificatore negativo o di vincolo associato per il ramo multi‑immagine. Usalo per escludere oggetti, stili o artefatti che non vuoi che appaiano. Questo spesso aiuta a preservare la composizione rimuovendo sovrapposizioni UI o oggetti indesiderati.
TextEncodeQwenImageEdit
(#121)
Istruzione positiva per il ramo di modifica immagine singola. Descrivi il risultato desiderato, le qualità superficiali e la composizione in termini chiari. Mira a una o tre frasi che specificano la scena e i cambiamenti.
TextEncodeQwenImageEdit
(#122)
Prompt negativo o di vincolo per il ramo di modifica immagine singola. Elenca elementi o tratti da evitare, o descrivi elementi da rimuovere dall'immagine di origine. Questo è utile per pulire testo superfluo, loghi o elementi dell'interfaccia.
ImageScaleToTotalPixels
(#93)
Previene che input troppo grandi destabilizzino i risultati scalando a un conteggio totale di pixel target. Usalo per armonizzare risoluzioni di origine disparate prima del composito. Se noti nitidezza incoerente tra le fonti, avvicinale in dimensione effettiva qui.
ModelSamplingAuraFlow
(#66)
Applica un programma di campionamento DiT/flow‑matching ottimizzato per i modelli d'immagine Qwen. Se gli output appaiono scuri, confusi o privi di struttura, aumenta lo spostamento del programma per stabilizzare il tono globale; se appaiono piatti, riduci lo spostamento per inseguire dettagli extra.
KSampler
(#3)
Il campionatore principale dove bilanci velocità, fedeltà e varietà stocastica. Regola i passaggi e la scala di guida per coerenza rispetto alla creatività, scegli un metodo di campionamento e blocca un seme quando vuoi riproducibilità esatta tra le esecuzioni.
CFGNorm
(#75)
Normalizza la guida libera da classificatori per ridurre la sovrasaturazione o gli scoppi di contrasto a scale di guida più alte. Lascialo nel percorso come fornito; aiuta a mantenere il colore e l'esposizione stabili mentre iteri sui prompt.
ModelSamplingAuraFlow
; quando vuoi una texture extra, prova uno spostamento leggermente inferiore.EmptySD3LatentImage
nel ramo che stai usando.Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo Nunchaku per il flusso di lavoro Qwen-Image (ComfyUI-nunchaku) per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice referenziati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.