ComfyUI>Workflow>Crea Scene Coerenti | Generatore di Arte Narrativa Coerente

Crea Scene Coerenti | Generatore di Arte Narrativa Coerente

Workflow Name: RunComfy/Create-Coherent-Scenes

Workflow ID: 0000...1305

Questo potente flusso di lavoro ti aiuta a progettare scene narrative visivamente unificate usando le capacità combinate di Qwen Image Edit e Wan 2.2. Sincronizza l'illuminazione, gli angoli di ripresa e la composizione su più inquadrature per ottenere una coerenza naturale. Perfetto per narrazione, animazione e visualizzazione di concetti, mantiene personaggi e ambienti coerenti da un fotogramma all'altro. Puoi facilmente perfezionare le riprese, preservare il tono artistico e generare transizioni fluide per sequenze cinematografiche. Ideale per creatori che cercano efficienza e controllo su narrazioni multi-scena.

Crea Scene Coerenti (Qwen Image Edit & Wan 2.2)

Crea Scene Coerenti (Qwen Image Edit & Wan 2.2) è un flusso di lavoro ComfyUI pronto per la produzione per costruire video multi-inquadratura guidati dalla storia dove personaggi, illuminazione e composizione rimangono coerenti da un'inquadratura all'altra. Si abbina a Qwen Image Edit per fotogrammi fissi precisi e guidati da riferimenti con Wan 2.2 image-to-video per il movimento cinematografico, permettendoti di cucire scene, rendere fluido il movimento con interpolazione di fotogrammi e aggiungere audio foley generato per completare. Ideale per arte narrativa, animazione, previz e concept reel, il flusso di lavoro ti aiuta a passare da un singolo fotogramma chiave di stabilimento a una sequenza coesa con un minimo di ritocco manuale.

La pipeline è organizzata in tre parti: la Parte 1 crea ed edita fotogrammi chiave coerenti, la Parte 2 anima ogni ripresa con Wan 2.2 e le unisce in un unico taglio, e la Parte 3 genera audio foley consapevole della scena. Ovunque tu veda Crea Scene Coerenti (Qwen Image Edit & Wan 2.2) in questo README, si riferisce al processo completo, end-to-end.

Modelli chiave nel flusso di lavoro Comfyui Crea Scene Coerenti (Qwen Image Edit & Wan 2.2)

Wan 2.2 Image-to-Video 14B (varianti ad alto rumore e basso rumore). Generatore video core utilizzato per animare le immagini delle tue scene preservando il layout spaziale e lo stile. Confezionato per ComfyUI con encoder di testo e asset VAE. Riferimento: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
Qwen-Image-Edit 2509 + Qwen 2.5 VL text encoder + Qwen Image VAE. Editing di immagini semantico e consapevole del riferimento utilizzato per creare fotogrammi chiave della scena successiva che si adattano alla tua narrazione mantenendo la continuità di personaggi e scene. Riferimenti: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.
FLUX.1 dev (text-to-image). Modello di base opzionale per il primissimo fotogramma chiave di stabilimento prima dell'editing. Riferimento: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.
RIFE Video Frame Interpolation. Utilizzato per aumentare il frame rate e rendere fluido il movimento sul taglio combinato. Riferimento: hzwer/Practical-RIFE.
HunyuanVideo-Foley. Un modello audio generativo che crea foley sincronizzati da immagini o video più un breve indizio testuale; utilizzato per aggiungere suono diegetico per scena o per il taglio finale. Riferimento: phazei/HunyuanVideo-Foley.
Aiutanti opzionali. MiniCPM-V 4.5 può redigere automaticamente prompt audio dal tuo taglio per velocizzare l'ideazione del foley: OpenBMB/MiniCPM-V.

Come utilizzare il flusso di lavoro Comfyui Crea Scene Coerenti (Qwen Image Edit & Wan 2.2)

Logica generale

La Parte 1 crea un fotogramma chiave di stabilimento e poi utilizza Qwen Image Edit per generare immagini fisse della "scena successiva" che rimangano stilisticamente allineate.
La Parte 2 anima ogni immagine della scena in un breve clip con Wan 2.2, quindi concatena tutti i clip in un unico taglio e opzionalmente interpola i fotogrammi per un movimento più fluido.
La Parte 3 genera opzionalmente audio foley per scena o per il taglio combinato e lo muxa nel video finale.

Caricatore del modello

L'area del modello carica le varianti ad alto e basso rumore di Wan 2.2 e il loro VAE/CLIP una volta, con un'opzione per accelerare tramite torch compile. Vedrai anche un percorso a basso VRAM usando quantized GGUF UNETs e block-swap in modo da poter eseguire lo stesso processo Crea Scene Coerenti (Qwen Image Edit & Wan 2.2) su GPU più piccole.
LoRAs per Wan 2.2 e il Qwen Image Edit Lightning LoRA sono preconfigurati per influenzare lo stile del movimento e la velocità di editing senza complicare il grafico.
Se cambi modelli, mantieni coerenti le famiglie encoder di testo/UNET/VAE per evitare disallineamenti dello spazio latente.

Impostazioni

I controlli globali impostano la larghezza, l'altezza, il seed e la lunghezza della scena in modo che ogni scena erediti la stessa geometria della tela e cadenza temporale. Questo è uno dei principali fattori di coerenza di Crea Scene Coerenti (Qwen Image Edit & Wan 2.2).
Viene fornito un prompt negativo completo e indirizzato globalmente; puoi sostituirlo in qualsiasi momento per adattarlo alla tua direzione artistica.

Parte 1 — Fotogramma chiave di stabilimento Text-to-Image

Inizia descrivendo la tua ripresa di apertura. Il prompt alimenta un campionatore di testo in immagine di base che genera un fotogramma "Start_" per il progetto.
Quell'immagine viene memorizzata nella cache e diventa il riferimento per la scena successiva nella traccia Qwen. Il flusso di lavoro ridimensiona l'immagine a una risoluzione adatta all'editing e la codifica in latenti.

Parte 1 — Qwen Image Edit fotogrammi chiave della scena successiva

Per ogni ripresa successiva, scrivi una breve istruzione "Next Scene". L'editor si basa sull'immagine della scena precedente in modo che l'identità del personaggio, il guardaroba, l'illuminazione e la palette rimangano allineati.
Il risultato modificato viene decodificato, visualizzato in anteprima e salvato come "Scene_1_…", "Scene_2_…", ecc. Questi sono i tuoi fotogrammi fissi coerenti. Vengono anche archiviati negli slot di immagine condivisi in modo che i prompt successivi possano farvi riferimento.

Input delle scene (1–6)

Se hai già fotogrammi concettuali, inseriscili nei sei nodi "LoadImage". In caso contrario, usa i fotogrammi fissi generati da Qwen dalla Parte 1 come immagini di partenza.
Per ogni scena, aggiungi un breve prompt di testo tramite il nodo di prompt etichettato. Considerali come note di cinematografia che guidano lo stile del movimento piuttosto che descrivere nuovamente l'intero ambiente.

Campionamento delle scene (1–6)

Ogni scena esegue un passaggio Wan 2.2 image-to-video per trasformare l'immagine di partenza in un clip latente. Un percorso di campionamento a tre stadi poi affina la sequenza latente usando un percorso ad alto rumore, un percorso a basso rumore e un percorso senza LoRA disposti per la stabilità.
I fotogrammi decodificati alimentano uno scrittore video per scena che salva un MP4 per una rapida revisione. I nodi di purga della memoria dopo ogni render liberano VRAM prima che inizi la scena successiva.
Poiché tutte le scene condividono lo stesso seed, dimensione e lunghezza, la cadenza del movimento e la composizione rimangono allineate, aiutando Crea Scene Coerenti (Qwen Image Edit & Wan 2.2) a sembrare un unico pezzo continuo.

Combina scene

Le sei sequenze di immagini renderizzate vengono concatenate in ordine, producendo un taglio "Combined". Puoi riordinare o omettere scene ricollegando il nodo batch che le raccoglie.

Interpolazione opzionale dei fotogrammi

Un passaggio di interpolazione aumenta il frame rate apparente usando RIFE. Questo crea un'esportazione "Interpolated" per un movimento più fluido della telecamera e del soggetto mantenendo lo stesso aspetto.

Parte 3 — Video-to-Audio foley

Carica il taglio combinato o qualsiasi scena individuale nella sezione audio. Un helper di visione-linguaggio integrato può redigere automaticamente una descrizione testuale della scena; modificala a tuo piacimento per riflettere ritmo, umore e azioni chiave.
Il modello foley sintetizza audio sincronizzato e un nodo mux lo combina con i tuoi fotogrammi in un MP4 abilitato all'audio. Per i migliori risultati, genera audio per scena e poi cucilo.

Nodi chiave nel flusso di lavoro Comfyui Crea Scene Coerenti (Qwen Image Edit & Wan 2.2)

WanImageToVideo (#111) Converte un singolo fotogramma di riferimento in un video latente coerente rispettando testo positivo e negativo. Usalo per impostare la durata di ogni ripresa e la dimensione della tela e per fornire l'immagine di partenza che vuoi animata. Supportato dai modelli Wan 2.2 I2V 14B confezionati qui: Comfy-Org/Wan_2.2_ComfyUI_Repackaged.
TextEncodeQwenImageEditPlus (#360) Codifica le istruzioni "Next Scene" insieme a un'immagine di riferimento in modo che le modifiche seguano la storia ma corrispondano a identità e illuminazione. Mantieni coerenti i nomi e i tag stilistici tra le scene per rafforzare la continuità. Riferimenti del modello: Comfy-Org/Qwen-Image-Edit_ComfyUI e Comfy-Org/Qwen-Image_ComfyUI.
KSamplerAdvanced (#159) Il denoiser core per ogni scena animata. Questo flusso di lavoro collega tre sampler che mirano a diversi regimi di rumore e mix LoRA per migliorare la stabilità temporale. Se cambi passi o seed, fallo uniformemente tra i sampler collegati per mantenere prevedibile il comportamento del movimento.
ImageBatchMulti (#308) Raccoglie batch di fotogrammi di scena in una lunga timeline. Usalo per riordinare, eliminare o scambiare scene prima dell'esportazione senza toccare i percorsi di campionamento.
RIFE VFI (#94) Esegue l'interpolazione dei fotogrammi per aumentare la frequenza dei fotogrammi percepita. È particolarmente efficace per movimenti lenti della telecamera e movimenti fluidi del soggetto. Riferimento: hzwer/Practical-RIFE.
HunyuanFoleySampler (#331) Genera foley sincronizzati da fotogrammi più un breve prompt di testo, quindi passa l'audio al muxer video. Per dettagli sui modelli e file, vedi phazei/HunyuanVideo-Foley.

Extra opzionali

Per iterazioni più rapide, usa il percorso quantizzato GGUF Wan 2.2 con block-swap quando la VRAM è limitata; passa alla piena precisione per i render finali.
Mantieni larghezza, altezza e lunghezza della scena identici in tutto il progetto per rafforzare ritmo e continuità dell'inquadratura.
Nei prompt di Qwen, preserva gli identificatori principali (nomi, abiti, oggetti) e termini di illuminazione; varia solo l'azione e il linguaggio della telecamera tra le scene.
Usa il seed globale per bloccare il "feeling" complessivo del progetto. Cambialo solo quando vuoi un carattere di movimento diverso in tutte le scene.
Interpola solo dopo che sei soddisfatto del timing, poi rendi la versione audio per scena e combina; il foley per scena tende a suonare più naturale.
FLUX.1 dev è una grande base per il primissimo fotogramma chiave; una volta stabilito, affidati alle modifiche di Qwen per progredire nella storia mantenendo l'aspetto: Comfy-Org/FLUX.1-Krea-dev_ComfyUI.

Riconoscimenti

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine i creatori di Qwen Image Edit per il modello, gli sviluppatori di Wan 2.2 per il modello e l'autore (@Benji’s AI Playground) del "Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial" per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

YouTube/Create Coherent Scenes (Qwen Image Edit & Wan 2.2)
- Docs / Note di Rilascio @Benji’s AI Playground: Create Coherent Scenes (Qwen Image Edit & Wan 2.2) Youtube Tutorial

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source nella Generazione Video

Disponibile ora! Maggiore precisione + movimento più fluido.

Wan 2.2 FLF2V | Generazione Video da Primo a Ultimo Fotogramma

Genera video fluidi da un fotogramma iniziale e finale utilizzando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Veloce

Configurazione Dual Light LoRA, 4X più veloce.

Wan 2.2 VACE | Generatore di Video Controllato dalla Posizione

Trasforma immagini statiche in straordinari movimenti con controllo basato sulla posizione.

Wan 2.1 Ditto | Generatore di Ristilizzazione Video Cinematica

Trasforma i video in stili artistici sorprendenti con un flusso di movimento perfetto.

Hunyuan Image to Video | Creatore di Movimento Mozzafiato

Crea filmati magnifici a partire da immagini statiche attraverso movimenti cinematografici ed effetti personalizzabili.

FLUX Outpainting

Usa SDXL e FLUX per espandere e affinare le immagini senza interruzioni.

ICEdit | Editing di Immagini AI Veloce con Nunchaku

ICEdit+Nunchaku: Una soluzione per un editing di immagini AI ultra-rapido e preciso.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.