Hunyuan Video 1.5 in ComfyUI | Workflow Efficiente da Testo a Video

Workflow Hunyuan Video 1.5 ComfyUI: conversione rapida da testo a video e da immagine a video con super risoluzione a 1080p

Questo workflow avvolge Hunyuan Video 1.5 in ComfyUI per offrire una generazione di video rapida e coerente su GPU consumer. Supporta sia la conversione da testo a video sia da immagine a video, quindi opzionalmente effettua l'upscaling a 1080p utilizzando un upsampler latente dedicato e un modello di super-risoluzione distillato. Sotto il cofano, Hunyuan Video 1.5 accoppia un Diffusion Transformer con un VAE causale 3D e una strategia di attenzione a tessere scorrevoli selettiva per bilanciare qualità, fedeltà del movimento e velocità.

I creatori, i team di prodotto e i ricercatori possono utilizzare questo workflow ComfyUI Hunyuan Video 1.5 per iterare rapidamente da prompt o da un'immagine fissa singola, effettuare un'anteprima a 720p e completare con output nitidi a 1080p quando necessario.

Modelli chiave nel workflow Comfyui Hunyuan Video 1.5

HunyuanVideo 1.5 720p Image-to-Video UNet. Produce coerenza di movimento e temporale da un'immagine di partenza. I pesi sono forniti nel repackage Comfy-Org su Hugging Face Comfy-Org/HunyuanVideo_1.5_repackaged.
HunyuanVideo 1.5 720p Text-to-Video UNet. Genera video direttamente dai prompt testuali utilizzando la stessa architettura di base, ottimizzata per i workflow prompt-first. Vedi il repository repackage sopra.
HunyuanVideo 1.5 1080p Super-Resolution UNet (distillato). Affina i latenti a 720p a un dettaglio più elevato preservando movimento e struttura della scena. Incluso nello stesso repackage su Hugging Face.
HunyuanVideo 1.5 3D VAE. Codifica e decodifica i latenti video per una generazione efficiente e una decodifica a tessere.
HunyuanVideo 1.5 Latent Upsampler 1080p. Scala le sequenze latenti a 1920×1080 prima del perfezionamento SR per velocità ed efficienza della memoria.
Qwen 2.5 VL 7B text encoder e ByT5 Small text encoder. Forniscono robusta interpretazione delle istruzioni e tokenizzazione per prompt diversi, reimpacchettati per questo workflow nel pacchetto Hugging Face sopra. La scheda modello originale di ByT5: google/byt5-small.
SigCLIP Vision (ViT-L/14, 384). Estrae caratteristiche visive di alta qualità dall'immagine di partenza per guidare il conditioning da immagine a video: Comfy-Org/sigclip_vision_384.

Come utilizzare il workflow Comfyui Hunyuan Video 1.5

Questo grafico espone due percorsi indipendenti che condividono lo stesso stadio di esportazione e finitura opzionale a 1080p. Scegli Image to Video o Text to Video, quindi abilita opzionalmente il gruppo 1080p per finalizzare.

Image to Video

Step 1 — Carica modelli I loader portano l'UNet Hunyuan Video 1.5 per image-to-video, il VAE 3D, i due encoder testuali e la visione SigCLIP. Questo prepara il workflow per accettare un'immagine di partenza e un prompt. Non è necessaria alcuna azione dell'utente oltre a confermare che i modelli siano disponibili.

Step 2 — Carica immagine di partenza Fornisci un'immagine pulita e ben esposta in LoadImage (#80). Il grafico codifica questa immagine con CLIPVisionEncode (#79) in modo che Hunyuan Video 1.5 possa ancorare movimento e stile al tuo riferimento. Preferisci immagini che corrispondano approssimativamente al tuo rapporto d'aspetto target per ridurre ritagli o padding.

Step 3 — Prompt Scrivi la tua descrizione in CLIP Text Encode (Positive Prompt) (#44). Usa il prompt negativo CLIP Text Encode (Negative Prompt) (#93) per evitare artefatti o stili indesiderati. Mantieni i prompt concisi ma specifici su soggetto, movimento e comportamento della telecamera.

Step 4 — Dimensione e durata del video HunyuanVideo15ImageToVideo (#78) imposta la risoluzione spaziale e il numero di fotogrammi da sintetizzare. Sequenze più lunghe richiedono più VRAM e tempo, quindi inizia con sequenze più brevi e aumenta una volta che ti piace il movimento.

Campionamento personalizzato Lo stack di campionamento (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controlla la forza della guida, i passi, il tipo di campionatore e il seed. Aumenta i passi per maggiore dettaglio e stabilità, e usa un seed fisso per riprodurre i risultati quando iteri sui prompt.

Anteprima e salva La sequenza latente viene decodificata con VAEDecode (#8), incorniciata in un video a 24 fps con CreateVideo (#101) e scritta da SaveVideo (#102). Questo ti offre un'anteprima rapida a 720p pronta per essere revisionata.

Finitura a 1080p (opzionale) Attiva il gruppo “Video Upscale 1080P” per abilitare la catena di finitura. L'upsampler latente si espande a 1920×1080, poi l'UNet di super-risoluzione distillato affina i dettagli in due fasi. VAEDecodeTiled e una seconda coppia CreateVideo/SaveVideo esportano il risultato a 1080p.

Text to Video

Step 1 — Carica modelli I loader recuperano l'UNet Hunyuan Video 1.5 720p text-to-video, il VAE 3D e i due encoder testuali. Questo percorso non richiede un'immagine di partenza.

Step 3 — Prompt Inserisci la tua descrizione nell'encoder positivo CLIP Text Encode (Positive Prompt) (#149) e opzionalmente aggiungi un prompt negativo in CLIP Text Encode (Negative Prompt) (#155). Descrivi scena, soggetto, movimento e telecamera, mantenendo il linguaggio concreto.

Step 4 — Dimensione e durata del video EmptyHunyuanVideo15Latent (#183) alloca il latente iniziale con la larghezza, l'altezza e il conteggio dei fotogrammi scelti. Usalo per impostare quanto lungo e quanto grande dovrebbe essere il tuo video.

Campionamento personalizzato ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) collaborano per trasformare il rumore in un video coerente guidato dal tuo testo. Regola i passi e la guida per scambiare velocità con fedeltà, e fissa il seed per rendere le esecuzioni comparabili.

Anteprima e salva I fotogrammi decodificati sono assemblati da CreateVideo (#168) e salvati da SaveVideo (#167) per una rapida revisione a 720p a 24 fps.

Finitura a 1080p (opzionale) Abilita il gruppo “Video Upscale 1080P” per effettuare l'upscaling dei latenti a 1080p e affinare con l'UNet SR distillato. Il campionamento a due fasi migliora la nitidezza mantenendo il movimento. Un decodificatore a tessere e una seconda fase di salvataggio esportano il video finale a 1080p.

Nodi chiave nel workflow Comfyui Hunyuan Video 1.5

HunyuanVideo15ImageToVideo (#78) Genera un video condizionando su un'immagine di partenza e sui tuoi prompt. Regola la sua risoluzione e il totale dei fotogrammi per corrispondere al tuo obiettivo creativo. Risoluzioni più elevate e clip più lunghe aumentano VRAM e tempo. Questo nodo è centrale per la qualità da immagine a video perché fonde le caratteristiche CLIP-Vision con la guida testuale prima del campionamento.

EmptyHunyuanVideo15Latent (#183) Inizializza la griglia latente per il text-to-video con larghezza, altezza e conteggio dei fotogrammi. Usalo per definire la lunghezza della sequenza in anticipo in modo che il programmatore e il campionatore possano pianificare una traiettoria di denoising stabile. Mantieni il rapporto d'aspetto coerente con il tuo output previsto per evitare padding extra più tardi.

CFGGuider (#129) Imposta la forza della guida classifier-free, bilanciando l'aderenza al prompt contro la naturalezza. Aumenta la guida per seguire il prompt più strettamente; abbassala per ridurre l'oversaturazione e lo sfarfallio. Usa valori moderati durante la generazione di base e abbassa la guida per il perfezionamento della super-risoluzione.

BasicScheduler (#126) Controlla il numero di passi di denoising e il programma. Più passi solitamente significano maggior dettaglio e stabilità ma rendering più lunghi. Abbina il conteggio dei passi alla scelta del campionatore per i migliori risultati; questo workflow predefinisce un campionatore veloce e generico.

SamplerCustomAdvanced (#125) Esegue il ciclo di denoising con il campionatore e la guida selezionati. Nella catena di finitura a 1080p, funziona in due fasi divise da SplitSigmas per stabilire prima la struttura a rumore più alto e poi affinare i dettagli a basso rumore. Mantieni i seed fissi mentre ottimizzi passi e guida in modo da poter confrontare gli output in modo affidabile.

HunyuanVideo15LatentUpscaleWithModel (#109) Scala la sequenza latente a 1920×1080 utilizzando l'upsampler dedicato dai pesi reimpacchettati. L'upscaling nello spazio latente è più veloce e più efficiente in termini di memoria rispetto al ridimensionamento nello spazio pixel, e prepara il terreno per il modello SR distillato per aggiungere dettagli fini. Obiettivi più grandi richiedono più VRAM; mantieni 16:9 per la migliore produttività.

HunyuanVideo15SuperResolution (#113) Affina il latente upscalato con l'UNet SR distillato a 1080p dal pacchetto Hunyuan Video 1.5, opzionalmente prendendo spunto dall'immagine di partenza e dagli indizi CLIP-Vision per la coerenza. Questo aggiunge texture nitide e linee di lavoro mantenendo il movimento. I pesi SR sono disponibili in Comfy-Org/HunyuanVideo_1.5_repackaged.

EasyCache (#116) Memorizza in cache gli stati intermedi dei modelli per accelerare le iterazioni di anteprima. Abilitalo quando desideri un turnaround più rapido e disabilitalo per la massima qualità nel passaggio finale. È particolarmente utile quando si iterano i prompt con la stessa risoluzione e durata.

Extra opzionali

Mantieni i prompt concreti. Descrivi soggetto, verbi di movimento e movimenti di telecamera. Usa un breve prompt negativo per sopprimere artefatti che vedi ripetutamente.
Preferisci immagini di partenza pulite e ad alto contrasto per image-to-video. Abbina il rapporto d'aspetto alla tua risoluzione target per minimizzare il padding.
Per velocità, itera a durate più brevi e 720p; attiva il gruppo 1080p solo per le esecuzioni finali.
Se la VRAM è limitata, attiva il decode VAE a tessere e considera di caricare i pesi in una impostazione di precisione inferiore esposta dal caricatore di modelli.
Fissa i seed mentre ottimizzi passi, guida e formulazione per rendere le modifiche misurabili tra le esecuzioni.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine Comfy.org per il tutorial sul workflow Hunyuan Video 1.5 per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

Hunyuan Video 1.5 Source
- Docs / Note di Rilascio: Hunyuan Video 1.5 Source

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

AnimateLCM | Accelera da testo a video

Accelera la tua animazione da testo a video utilizzando il flusso di lavoro ComfyUI AnimateLCM.

SUPIR | Upscaler Foto-Realistico per Immagini/Video

SUPIR consente il restauro foto-realistico delle immagini, funziona con il modello SDXL e supporta il miglioramento dei prompt testuali.

CCSR | Upscaler coerente di immagini/video

Il modello CCSR migliora l'upscaling di immagini e video concentrandosi maggiormente sulla coerenza dei contenuti.

Face Detailer | Correggi i volti

Usa prima Face Detailer per il restauro facciale, seguito dal modello 4x UltraSharp per un upscaling superiore.

Qwen Edit 2509 Light Restoration | Strumento di Riluminazione Foto

Correggi rapidamente la cattiva illuminazione per foto perfette, pulite e bilanciate ogni volta.

Personaggi Coerenti con Flux

Ottimizza la creazione di personaggi AI e garantisci apparizioni uniformi.

FLUX NF4 | Accelera la generazione di immagini FLUX

Generazione di immagini più veloce e migliore gestione delle risorse.

Wan 2.1 Fun | Generazione Video ControlNet

Genera video con passaggi visivi in stile ControlNet come Profondità, Canny e OpenPose.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Hunyuan Video 1.5 | Generatore di Video AI Rapido

Workflow Hunyuan Video 1.5 ComfyUI: conversione rapida da testo a video e da immagine a video con super risoluzione a 1080p

Modelli chiave nel workflow Comfyui Hunyuan Video 1.5

Come utilizzare il workflow Comfyui Hunyuan Video 1.5

Image to Video

Text to Video

Nodi chiave nel workflow Comfyui Hunyuan Video 1.5

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

AnimateLCM | Accelera da testo a video

SUPIR | Upscaler Foto-Realistico per Immagini/Video

CCSR | Upscaler coerente di immagini/video

Face Detailer | Correggi i volti

Qwen Edit 2509 Light Restoration | Strumento di Riluminazione Foto

Personaggi Coerenti con Flux

FLUX NF4 | Accelera la generazione di immagini FLUX

Wan 2.1 Fun | Generazione Video ControlNet