Questo workflow avvolge Hunyuan Video 1.5 in ComfyUI per offrire una generazione di video rapida e coerente su GPU consumer. Supporta sia la conversione da testo a video sia da immagine a video, quindi opzionalmente effettua l'upscaling a 1080p utilizzando un upsampler latente dedicato e un modello di super-risoluzione distillato. Sotto il cofano, Hunyuan Video 1.5 accoppia un Diffusion Transformer con un VAE causale 3D e una strategia di attenzione a tessere scorrevoli selettiva per bilanciare qualità, fedeltà del movimento e velocità.
I creatori, i team di prodotto e i ricercatori possono utilizzare questo workflow ComfyUI Hunyuan Video 1.5 per iterare rapidamente da prompt o da un'immagine fissa singola, effettuare un'anteprima a 720p e completare con output nitidi a 1080p quando necessario.
Questo grafico espone due percorsi indipendenti che condividono lo stesso stadio di esportazione e finitura opzionale a 1080p. Scegli Image to Video o Text to Video, quindi abilita opzionalmente il gruppo 1080p per finalizzare.
Step 1 — Carica modelli
I loader portano l'UNet Hunyuan Video 1.5 per image-to-video, il VAE 3D, i due encoder testuali e la visione SigCLIP. Questo prepara il workflow per accettare un'immagine di partenza e un prompt. Non è necessaria alcuna azione dell'utente oltre a confermare che i modelli siano disponibili.
Step 2 — Carica immagine di partenza
Fornisci un'immagine pulita e ben esposta in LoadImage (#80). Il grafico codifica questa immagine con CLIPVisionEncode (#79) in modo che Hunyuan Video 1.5 possa ancorare movimento e stile al tuo riferimento. Preferisci immagini che corrispondano approssimativamente al tuo rapporto d'aspetto target per ridurre ritagli o padding.
Step 3 — Prompt
Scrivi la tua descrizione in CLIP Text Encode (Positive Prompt) (#44). Usa il prompt negativo CLIP Text Encode (Negative Prompt) (#93) per evitare artefatti o stili indesiderati. Mantieni i prompt concisi ma specifici su soggetto, movimento e comportamento della telecamera.
Step 4 — Dimensione e durata del video
HunyuanVideo15ImageToVideo (#78) imposta la risoluzione spaziale e il numero di fotogrammi da sintetizzare. Sequenze più lunghe richiedono più VRAM e tempo, quindi inizia con sequenze più brevi e aumenta una volta che ti piace il movimento.
Campionamento personalizzato
Lo stack di campionamento (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controlla la forza della guida, i passi, il tipo di campionatore e il seed. Aumenta i passi per maggiore dettaglio e stabilità, e usa un seed fisso per riprodurre i risultati quando iteri sui prompt.
Anteprima e salva
La sequenza latente viene decodificata con VAEDecode (#8), incorniciata in un video a 24 fps con CreateVideo (#101) e scritta da SaveVideo (#102). Questo ti offre un'anteprima rapida a 720p pronta per essere revisionata.
Finitura a 1080p (opzionale)
Attiva il gruppo “Video Upscale 1080P” per abilitare la catena di finitura. L'upsampler latente si espande a 1920×1080, poi l'UNet di super-risoluzione distillato affina i dettagli in due fasi. VAEDecodeTiled e una seconda coppia CreateVideo/SaveVideo esportano il risultato a 1080p.
Step 1 — Carica modelli
I loader recuperano l'UNet Hunyuan Video 1.5 720p text-to-video, il VAE 3D e i due encoder testuali. Questo percorso non richiede un'immagine di partenza.
Step 3 — Prompt
Inserisci la tua descrizione nell'encoder positivo CLIP Text Encode (Positive Prompt) (#149) e opzionalmente aggiungi un prompt negativo in CLIP Text Encode (Negative Prompt) (#155). Descrivi scena, soggetto, movimento e telecamera, mantenendo il linguaggio concreto.
Step 4 — Dimensione e durata del video
EmptyHunyuanVideo15Latent (#183) alloca il latente iniziale con la larghezza, l'altezza e il conteggio dei fotogrammi scelti. Usalo per impostare quanto lungo e quanto grande dovrebbe essere il tuo video.
Campionamento personalizzato
ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) collaborano per trasformare il rumore in un video coerente guidato dal tuo testo. Regola i passi e la guida per scambiare velocità con fedeltà, e fissa il seed per rendere le esecuzioni comparabili.
Anteprima e salva
I fotogrammi decodificati sono assemblati da CreateVideo (#168) e salvati da SaveVideo (#167) per una rapida revisione a 720p a 24 fps.
Finitura a 1080p (opzionale)
Abilita il gruppo “Video Upscale 1080P” per effettuare l'upscaling dei latenti a 1080p e affinare con l'UNet SR distillato. Il campionamento a due fasi migliora la nitidezza mantenendo il movimento. Un decodificatore a tessere e una seconda fase di salvataggio esportano il video finale a 1080p.
HunyuanVideo15ImageToVideo (#78)
Genera un video condizionando su un'immagine di partenza e sui tuoi prompt. Regola la sua risoluzione e il totale dei fotogrammi per corrispondere al tuo obiettivo creativo. Risoluzioni più elevate e clip più lunghe aumentano VRAM e tempo. Questo nodo è centrale per la qualità da immagine a video perché fonde le caratteristiche CLIP-Vision con la guida testuale prima del campionamento.
EmptyHunyuanVideo15Latent (#183)
Inizializza la griglia latente per il text-to-video con larghezza, altezza e conteggio dei fotogrammi. Usalo per definire la lunghezza della sequenza in anticipo in modo che il programmatore e il campionatore possano pianificare una traiettoria di denoising stabile. Mantieni il rapporto d'aspetto coerente con il tuo output previsto per evitare padding extra più tardi.
CFGGuider (#129)
Imposta la forza della guida classifier-free, bilanciando l'aderenza al prompt contro la naturalezza. Aumenta la guida per seguire il prompt più strettamente; abbassala per ridurre l'oversaturazione e lo sfarfallio. Usa valori moderati durante la generazione di base e abbassa la guida per il perfezionamento della super-risoluzione.
BasicScheduler (#126)
Controlla il numero di passi di denoising e il programma. Più passi solitamente significano maggior dettaglio e stabilità ma rendering più lunghi. Abbina il conteggio dei passi alla scelta del campionatore per i migliori risultati; questo workflow predefinisce un campionatore veloce e generico.
SamplerCustomAdvanced (#125)
Esegue il ciclo di denoising con il campionatore e la guida selezionati. Nella catena di finitura a 1080p, funziona in due fasi divise da SplitSigmas per stabilire prima la struttura a rumore più alto e poi affinare i dettagli a basso rumore. Mantieni i seed fissi mentre ottimizzi passi e guida in modo da poter confrontare gli output in modo affidabile.
HunyuanVideo15LatentUpscaleWithModel (#109)
Scala la sequenza latente a 1920×1080 utilizzando l'upsampler dedicato dai pesi reimpacchettati. L'upscaling nello spazio latente è più veloce e più efficiente in termini di memoria rispetto al ridimensionamento nello spazio pixel, e prepara il terreno per il modello SR distillato per aggiungere dettagli fini. Obiettivi più grandi richiedono più VRAM; mantieni 16:9 per la migliore produttività.
HunyuanVideo15SuperResolution (#113)
Affina il latente upscalato con l'UNet SR distillato a 1080p dal pacchetto Hunyuan Video 1.5, opzionalmente prendendo spunto dall'immagine di partenza e dagli indizi CLIP-Vision per la coerenza. Questo aggiunge texture nitide e linee di lavoro mantenendo il movimento. I pesi SR sono disponibili in Comfy-Org/HunyuanVideo_1.5_repackaged.
EasyCache (#116)
Memorizza in cache gli stati intermedi dei modelli per accelerare le iterazioni di anteprima. Abilitalo quando desideri un turnaround più rapido e disabilitalo per la massima qualità nel passaggio finale. È particolarmente utile quando si iterano i prompt con la stessa risoluzione e durata.
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine Comfy.org per il tutorial sul workflow Hunyuan Video 1.5 per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.