logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflow>Hunyuan Video 1.5 | Generatore di Video AI Rapido

Hunyuan Video 1.5 | Generatore di Video AI Rapido

Workflow Name: RunComfy/Hunyuan-Video-1.5
Workflow ID: 0000...1313
Con questo workflow, puoi trasformare facilmente testo o immagini in video chiari, con movimento naturale, mantenendo alta fedeltà ed efficienza. Il suo design DiT supporta transizioni di movimento senza soluzione di continuità, rendendolo ideale per i designer che vogliono controllo creativo senza necessità di hardware pesante. Puoi effettuare l'upscaling degli output a 1080p senza sforzo e ottenere movimenti realistici utilizzando meno parametri. L'interfaccia consente una personalizzazione intuitiva, risparmiando tempo nella messa a punto. Perfetto per la visualizzazione rapida di concetti, clip promozionali o narrazione guidata dall'AI.

Workflow Hunyuan Video 1.5 ComfyUI: conversione rapida da testo a video e da immagine a video con super risoluzione a 1080p

Questo workflow avvolge Hunyuan Video 1.5 in ComfyUI per offrire una generazione di video rapida e coerente su GPU consumer. Supporta sia la conversione da testo a video sia da immagine a video, quindi opzionalmente effettua l'upscaling a 1080p utilizzando un upsampler latente dedicato e un modello di super-risoluzione distillato. Sotto il cofano, Hunyuan Video 1.5 accoppia un Diffusion Transformer con un VAE causale 3D e una strategia di attenzione a tessere scorrevoli selettiva per bilanciare qualità, fedeltà del movimento e velocità.

I creatori, i team di prodotto e i ricercatori possono utilizzare questo workflow ComfyUI Hunyuan Video 1.5 per iterare rapidamente da prompt o da un'immagine fissa singola, effettuare un'anteprima a 720p e completare con output nitidi a 1080p quando necessario.

Modelli chiave nel workflow Comfyui Hunyuan Video 1.5

  • HunyuanVideo 1.5 720p Image-to-Video UNet. Produce coerenza di movimento e temporale da un'immagine di partenza. I pesi sono forniti nel repackage Comfy-Org su Hugging Face Comfy-Org/HunyuanVideo_1.5_repackaged.
  • HunyuanVideo 1.5 720p Text-to-Video UNet. Genera video direttamente dai prompt testuali utilizzando la stessa architettura di base, ottimizzata per i workflow prompt-first. Vedi il repository repackage sopra.
  • HunyuanVideo 1.5 1080p Super-Resolution UNet (distillato). Affina i latenti a 720p a un dettaglio più elevato preservando movimento e struttura della scena. Incluso nello stesso repackage su Hugging Face.
  • HunyuanVideo 1.5 3D VAE. Codifica e decodifica i latenti video per una generazione efficiente e una decodifica a tessere.
  • HunyuanVideo 1.5 Latent Upsampler 1080p. Scala le sequenze latenti a 1920×1080 prima del perfezionamento SR per velocità ed efficienza della memoria.
  • Qwen 2.5 VL 7B text encoder e ByT5 Small text encoder. Forniscono robusta interpretazione delle istruzioni e tokenizzazione per prompt diversi, reimpacchettati per questo workflow nel pacchetto Hugging Face sopra. La scheda modello originale di ByT5: google/byt5-small.
  • SigCLIP Vision (ViT-L/14, 384). Estrae caratteristiche visive di alta qualità dall'immagine di partenza per guidare il conditioning da immagine a video: Comfy-Org/sigclip_vision_384.

Come utilizzare il workflow Comfyui Hunyuan Video 1.5

Questo grafico espone due percorsi indipendenti che condividono lo stesso stadio di esportazione e finitura opzionale a 1080p. Scegli Image to Video o Text to Video, quindi abilita opzionalmente il gruppo 1080p per finalizzare.

Image to Video

Step 1 — Carica modelli
I loader portano l'UNet Hunyuan Video 1.5 per image-to-video, il VAE 3D, i due encoder testuali e la visione SigCLIP. Questo prepara il workflow per accettare un'immagine di partenza e un prompt. Non è necessaria alcuna azione dell'utente oltre a confermare che i modelli siano disponibili.

Step 2 — Carica immagine di partenza
Fornisci un'immagine pulita e ben esposta in LoadImage (#80). Il grafico codifica questa immagine con CLIPVisionEncode (#79) in modo che Hunyuan Video 1.5 possa ancorare movimento e stile al tuo riferimento. Preferisci immagini che corrispondano approssimativamente al tuo rapporto d'aspetto target per ridurre ritagli o padding.

Step 3 — Prompt
Scrivi la tua descrizione in CLIP Text Encode (Positive Prompt) (#44). Usa il prompt negativo CLIP Text Encode (Negative Prompt) (#93) per evitare artefatti o stili indesiderati. Mantieni i prompt concisi ma specifici su soggetto, movimento e comportamento della telecamera.

Step 4 — Dimensione e durata del video
HunyuanVideo15ImageToVideo (#78) imposta la risoluzione spaziale e il numero di fotogrammi da sintetizzare. Sequenze più lunghe richiedono più VRAM e tempo, quindi inizia con sequenze più brevi e aumenta una volta che ti piace il movimento.

Campionamento personalizzato
Lo stack di campionamento (ModelSamplingSD3 (#130), CFGGuider (#129), BasicScheduler (#126), KSamplerSelect (#128), RandomNoise (#127), SamplerCustomAdvanced (#125)) controlla la forza della guida, i passi, il tipo di campionatore e il seed. Aumenta i passi per maggiore dettaglio e stabilità, e usa un seed fisso per riprodurre i risultati quando iteri sui prompt.

Anteprima e salva
La sequenza latente viene decodificata con VAEDecode (#8), incorniciata in un video a 24 fps con CreateVideo (#101) e scritta da SaveVideo (#102). Questo ti offre un'anteprima rapida a 720p pronta per essere revisionata.

Finitura a 1080p (opzionale)
Attiva il gruppo “Video Upscale 1080P” per abilitare la catena di finitura. L'upsampler latente si espande a 1920×1080, poi l'UNet di super-risoluzione distillato affina i dettagli in due fasi. VAEDecodeTiled e una seconda coppia CreateVideo/SaveVideo esportano il risultato a 1080p.

Text to Video

Step 1 — Carica modelli
I loader recuperano l'UNet Hunyuan Video 1.5 720p text-to-video, il VAE 3D e i due encoder testuali. Questo percorso non richiede un'immagine di partenza.

Step 3 — Prompt
Inserisci la tua descrizione nell'encoder positivo CLIP Text Encode (Positive Prompt) (#149) e opzionalmente aggiungi un prompt negativo in CLIP Text Encode (Negative Prompt) (#155). Descrivi scena, soggetto, movimento e telecamera, mantenendo il linguaggio concreto.

Step 4 — Dimensione e durata del video
EmptyHunyuanVideo15Latent (#183) alloca il latente iniziale con la larghezza, l'altezza e il conteggio dei fotogrammi scelti. Usalo per impostare quanto lungo e quanto grande dovrebbe essere il tuo video.

Campionamento personalizzato
ModelSamplingSD3 (#165), CFGGuider (#164), BasicScheduler (#161), KSamplerSelect (#163), RandomNoise (#162), e SamplerCustomAdvanced (#166) collaborano per trasformare il rumore in un video coerente guidato dal tuo testo. Regola i passi e la guida per scambiare velocità con fedeltà, e fissa il seed per rendere le esecuzioni comparabili.

Anteprima e salva
I fotogrammi decodificati sono assemblati da CreateVideo (#168) e salvati da SaveVideo (#167) per una rapida revisione a 720p a 24 fps.

Finitura a 1080p (opzionale)
Abilita il gruppo “Video Upscale 1080P” per effettuare l'upscaling dei latenti a 1080p e affinare con l'UNet SR distillato. Il campionamento a due fasi migliora la nitidezza mantenendo il movimento. Un decodificatore a tessere e una seconda fase di salvataggio esportano il video finale a 1080p.

Nodi chiave nel workflow Comfyui Hunyuan Video 1.5

HunyuanVideo15ImageToVideo (#78)
Genera un video condizionando su un'immagine di partenza e sui tuoi prompt. Regola la sua risoluzione e il totale dei fotogrammi per corrispondere al tuo obiettivo creativo. Risoluzioni più elevate e clip più lunghe aumentano VRAM e tempo. Questo nodo è centrale per la qualità da immagine a video perché fonde le caratteristiche CLIP-Vision con la guida testuale prima del campionamento.

EmptyHunyuanVideo15Latent (#183)
Inizializza la griglia latente per il text-to-video con larghezza, altezza e conteggio dei fotogrammi. Usalo per definire la lunghezza della sequenza in anticipo in modo che il programmatore e il campionatore possano pianificare una traiettoria di denoising stabile. Mantieni il rapporto d'aspetto coerente con il tuo output previsto per evitare padding extra più tardi.

CFGGuider (#129)
Imposta la forza della guida classifier-free, bilanciando l'aderenza al prompt contro la naturalezza. Aumenta la guida per seguire il prompt più strettamente; abbassala per ridurre l'oversaturazione e lo sfarfallio. Usa valori moderati durante la generazione di base e abbassa la guida per il perfezionamento della super-risoluzione.

BasicScheduler (#126)
Controlla il numero di passi di denoising e il programma. Più passi solitamente significano maggior dettaglio e stabilità ma rendering più lunghi. Abbina il conteggio dei passi alla scelta del campionatore per i migliori risultati; questo workflow predefinisce un campionatore veloce e generico.

SamplerCustomAdvanced (#125)
Esegue il ciclo di denoising con il campionatore e la guida selezionati. Nella catena di finitura a 1080p, funziona in due fasi divise da SplitSigmas per stabilire prima la struttura a rumore più alto e poi affinare i dettagli a basso rumore. Mantieni i seed fissi mentre ottimizzi passi e guida in modo da poter confrontare gli output in modo affidabile.

HunyuanVideo15LatentUpscaleWithModel (#109)
Scala la sequenza latente a 1920×1080 utilizzando l'upsampler dedicato dai pesi reimpacchettati. L'upscaling nello spazio latente è più veloce e più efficiente in termini di memoria rispetto al ridimensionamento nello spazio pixel, e prepara il terreno per il modello SR distillato per aggiungere dettagli fini. Obiettivi più grandi richiedono più VRAM; mantieni 16:9 per la migliore produttività.

HunyuanVideo15SuperResolution (#113)
Affina il latente upscalato con l'UNet SR distillato a 1080p dal pacchetto Hunyuan Video 1.5, opzionalmente prendendo spunto dall'immagine di partenza e dagli indizi CLIP-Vision per la coerenza. Questo aggiunge texture nitide e linee di lavoro mantenendo il movimento. I pesi SR sono disponibili in Comfy-Org/HunyuanVideo_1.5_repackaged.

EasyCache (#116)
Memorizza in cache gli stati intermedi dei modelli per accelerare le iterazioni di anteprima. Abilitalo quando desideri un turnaround più rapido e disabilitalo per la massima qualità nel passaggio finale. È particolarmente utile quando si iterano i prompt con la stessa risoluzione e durata.

Extra opzionali

  • Mantieni i prompt concreti. Descrivi soggetto, verbi di movimento e movimenti di telecamera. Usa un breve prompt negativo per sopprimere artefatti che vedi ripetutamente.
  • Preferisci immagini di partenza pulite e ad alto contrasto per image-to-video. Abbina il rapporto d'aspetto alla tua risoluzione target per minimizzare il padding.
  • Per velocità, itera a durate più brevi e 720p; attiva il gruppo 1080p solo per le esecuzioni finali.
  • Se la VRAM è limitata, attiva il decode VAE a tessere e considera di caricare i pesi in una impostazione di precisione inferiore esposta dal caricatore di modelli.
  • Fissa i seed mentre ottimizzi passi, guida e formulazione per rendere le modifiche misurabili tra le esecuzioni.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine Comfy.org per il tutorial sul workflow Hunyuan Video 1.5 per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

  • Hunyuan Video 1.5 Source
    • Docs / Note di Rilascio: Hunyuan Video 1.5 Source

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

AnimateLCM | Accelera da testo a video

Accelera la tua animazione da testo a video utilizzando il flusso di lavoro ComfyUI AnimateLCM.

SUPIR | Upscaler Foto-Realistico per Immagini/Video

SUPIR consente il restauro foto-realistico delle immagini, funziona con il modello SDXL e supporta il miglioramento dei prompt testuali.

CCSR | Upscaler coerente di immagini/video

Il modello CCSR migliora l'upscaling di immagini e video concentrandosi maggiormente sulla coerenza dei contenuti.

Face Detailer | Correggi i volti

Usa prima Face Detailer per il restauro facciale, seguito dal modello 4x UltraSharp per un upscaling superiore.

Mappe di profondità Z | Animazioni simili a quelle di Houdini

Crea sorprendenti animazioni simili a quelle di Houdini con le mappe di profondità Z utilizzando solo immagini 2D.

Creatore di Personaggi Coerenti

Crea design di personaggi coerenti e ad alta risoluzione da più angolazioni con pieno controllo su emozioni, illuminazione e ambienti.

Segment Anything V2 (SAM2) | Segmentazione Video

Segmentazione degli oggetti nei video con un'accuratezza senza pari.

AnimateDiff + Batch Prompt Schedule | Da testo a video

Batch Prompt schedule con AnimateDiff offre un controllo preciso sulla narrazione e sugli elementi visivi nella creazione di animazioni.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.