LTX-2 ComfyUI Workflow | Velocità di Generazione Video in Tempo Reale

LTX-2 ComfyUI: testo, immagine, profondità e posa in tempo reale con audio sincronizzato

Questo workflow LTX-2 ComfyUI tutto-in-uno ti consente di generare e iterare brevi video con audio in pochi secondi. Viene fornito con percorsi per testo a video (T2V), immagine a video (I2V), profondità a video, posa a video e canny a video, così puoi iniziare da un prompt, un fermo immagine o una guida strutturata e mantenere lo stesso ciclo creativo.

Costruito attorno al pipeline AV a bassa latenza di LTX-2 e al parallelismo di sequenza multi-GPU, il grafo enfatizza il feedback rapido. Descrivi movimento, camera, aspetto e suono una volta, quindi regola larghezza, altezza, conteggio dei fotogrammi o controlla i LoRAs per perfezionare il risultato senza dover ricollegare nulla.

Nota: Nota sulla Compatibilità del Workflow LTX-2 — LTX-2 include 5 workflow: Text-to-Video e Image-to-Video funzionano su tutti i tipi di macchine, mentre Depth to Video, Canny to Video e Pose to Video richiedono una macchina 2X-Large o superiore; eseguire questi workflow ControlNet su macchine più piccole potrebbe causare errori.

Modelli chiave nel workflow LTX-2 ComfyUI

LTX-2 19B (dev FP8) checkpoint. Modello generativo audio-visivo principale che produce fotogrammi video e audio sincronizzato da condizionamento multimodale. Lightricks/LTX-2
LTX-2 19B Distilled checkpoint. Variante più leggera e veloce utile per bozze rapide o esecuzioni controllate da canny. Lightricks/LTX-2
Gemma 3 12B IT text encoder. Backbone principale per la comprensione del testo utilizzato dagli encoder di prompt del workflow. Comfy-Org/ltx-2 split files
LTX-2 Spatial Upscaler x2. Upsampler latente che raddoppia il dettaglio spaziale a metà grafo per output più puliti. Lightricks/LTX-2
LTX-2 Audio VAE. Codifica e decodifica latenti audio in modo che il suono possa essere generato e muxato insieme al video. Incluso con il rilascio LTX-2 sopra.
Lotus Depth D v1‑1. Depth UNet utilizzato per derivare mappe di profondità robuste dalle immagini prima della generazione video guidata dalla profondità. Comfy‑Org/lotus
SD VAE (MSE, EMA pruned). VAE utilizzato nel ramo pre-processore di profondità. stabilityai/sd-vae-ft-mse-original
Control LoRAs per LTX‑2. LoRAs opzionali, plug‑and‑play per guidare movimento e struttura:
- Distilled LoRA 384 (raffinamento generale) link
- Camera Control: Dolly Left link
- Pose Control link
- Depth Control link
- Canny Control link

Come usare il workflow LTX-2 ComfyUI

Il grafo contiene cinque percorsi che puoi eseguire in modo indipendente. Tutti i percorsi condividono lo stesso percorso di esportazione e utilizzano la stessa logica di prompt-to-conditioning, quindi una volta imparato uno, gli altri sembrano familiari.

T2V: genera video e audio da un prompt

Il percorso T2V inizia con CLIP Text Encode (Prompt) (#3) e un negativo opzionale in CLIP Text Encode (Prompt) (#4). LTXVConditioning (#22) lega il tuo testo e il frame rate scelto al modello. EmptyLTXVLatentVideo (#43) e LTX LTXV Empty Latent Audio (#26) creano latenti video e audio che vengono fusi da LTX LTXV Concat AV Latent (#28). Il ciclo di denoising attraversa LTXVScheduler (#9) e SamplerCustomAdvanced (#41), dopo di che VAE Decode (#12) e LTX LTXV Audio VAE Decode (#14) producono fotogrammi e audio. Video Combine 🎥🅥🅗🅢 (#15) salva un H.264 MP4 con suono sincronizzato.

I2V: anima un fermo immagine

Carica un fermo immagine con LoadImage (#98) e ridimensiona con ResizeImageMaskNode (#99). All'interno del sottografo T2V, LTX LTXV Img To Video Inplace inietta il primo fotogramma nella sequenza latente in modo che il movimento si sviluppi dal tuo fermo immagine piuttosto che dal rumore puro. Mantieni il tuo prompt testuale focalizzato su movimento, camera e atmosfera; il contenuto proviene dall'immagine.

Profondità a video: movimento consapevole della struttura da mappe di profondità

Usa il preprocessore “Image to Depth Map (Lotus)” per trasformare un input in un'immagine di profondità, decodificata da VAEDecode e opzionalmente invertita per la polarità corretta. Il percorso “Depth to Video (LTX 2.0)” quindi alimenta la guida di profondità tramite LTX LTXV Add Guide in modo che il modello rispetti la struttura globale della scena mentre anima. Il percorso riutilizza gli stessi stadi di scheduler, sampler e upscaler e termina con la decodifica in piastrelle in immagini e audio muxato per l'esportazione.

Posa a video: guida il movimento dalla posa umana

Importa una clip con VHS_LoadVideo (#198); DWPreprocessor (#158) stima la posa umana in modo affidabile tra i fotogrammi. Il sottografo “Pose to Video (LTX 2.0)” combina il tuo prompt, il condizionamento della posa e un opzionale Pose Control LoRA per mantenere arti, orientamento e battiti coerenti permettendo allo stile e allo sfondo di fluire dal testo. Usalo per danza, acrobazie semplici o riprese parlate dove il tempismo del corpo è importante.

Canny a video: animazione fedele ai bordi e modalità di velocità distillata

Fornisci fotogrammi a Canny (#169) per ottenere una mappa dei bordi stabile. Il ramo “Canny to Video (LTX 2.0)” accetta i bordi più un opzionale Canny Control LoRA per alta fedeltà alle silhouette, mentre “Canny to Video (LTX 2.0 Distilled)” offre un checkpoint distillato più veloce per iterazioni rapide. Entrambe le varianti ti permettono di iniettare opzionalmente il primo fotogramma e scegliere la forza dell'immagine, quindi esportare tramite CreateVideo o VHS_VideoCombine.

Impostazioni video ed esportazione

Imposta larghezza e altezza tramite Width (#175) e height (#173), i fotogrammi totali con Frame Count (#176), e attiva Enable First Frame (#177) se vuoi bloccare un riferimento iniziale. Usa i nodi VHS_VideoCombine alla fine di ciascun percorso per controllare crf, frame_rate, pix_fmt e il salvataggio dei metadati. È previsto un SaveVideo (#180) dedicato per il percorso canny distillato quando preferisci l'output VIDEO diretto.

Prestazioni e multi-GPU

Il grafo applica LTXVSequenceParallelMultiGPUPatcher (#44) con torch_compile abilitato per dividere le sequenze tra GPU per una latenza inferiore. KSamplerSelect (#8) ti permette di scegliere tra sampler inclusi Euler e stili di stima del gradiente; conteggi di fotogrammi più piccoli e passi inferiori riducono i tempi di risposta, così puoi iterare rapidamente e scalare quando sei soddisfatto.

Nodi chiave nel workflow LTX-2 ComfyUI

LTX Multimodal Guider (#17). Coordina come il condizionamento del testo guida entrambi i rami video e audio. Regola cfg e modality nei LTX Guider Parameters collegati (#18 per VIDEO, #19 per AUDIO) per bilanciare fedeltà contro creatività; aumenta cfg per un'aderenza più stretta al prompt e aumenta modality_scale per enfatizzare un ramo specifico.
LTXVScheduler (#9). Costruisce un programma sigma su misura per lo spazio latente di LTX‑2. Usa steps per scambiare velocità per qualità; quando si prototipa, meno passi riducono la latenza, poi aumenta i passi per i rendering finali.
SamplerCustomAdvanced (#41). Il denoiser che lega insieme RandomNoise, il sampler scelto da KSamplerSelect (#8), i sigma dello scheduler e il latente AV. Cambia sampler per diverse texture di movimento e comportamento di convergenza.
LTX LTXV Img To Video Inplace (vedi rami I2V, ad es., #107). Inietta un'immagine in un latente video in modo che il primo fotogramma ancoraggio il contenuto mentre il modello sintetizza il movimento. Regola strength per quanto rigorosamente viene preservato il primo fotogramma.
LTX LTXV Add Guide (in percorsi guidati, ad es., profondità/posa/canny). Aggiunge una guida strutturale (immagine, posa o bordi) direttamente nello spazio latente. Usa strength per bilanciare la fedeltà della guida con la libertà generativa e abilita il primo fotogramma solo quando vuoi un ancoraggio temporale.
Video Combine 🎥🅥🅗🅢 (#15 e fratelli). Confeziona fotogrammi decodificati e l'audio generato in MP4. Per le anteprime, aumenta crf (più compressione); per i finali, abbassa crf e conferma che frame_rate corrisponde a ciò che hai impostato nel condizionamento.
LTXVSequenceParallelMultiGPUPatcher (#44). Abilita l'inferenza sequenziale-parallela con ottimizzazioni di compilazione. Lascialo attivo per la massima produttività; disabilitalo solo quando esegui il debug del posizionamento del dispositivo.

Extra opzionali

Suggerimenti per il prompting per LTX-2 ComfyUI
- Descrivi le azioni principali nel tempo, non solo l'aspetto statico.
- Specifica i dettagli visivi importanti che devi vedere nel video.
- Scrivi la colonna sonora: ambiente, foley, musica e qualsiasi dialogo.
Regole di dimensionamento e frame rate
- Usa larghezza e altezza che sono multipli di 32 (ad esempio 1280×720).
- Usa conteggi di fotogrammi che sono multipli di 8 (121 in questo modello è una buona lunghezza).
- Mantieni il frame rate coerente dove appare; il grafo include caselle float e int e devono corrispondere.
Guida LoRA
- Le LoRAs per camera, profondità, posa e canny sono integrate; inizia con forza 1 per i movimenti della camera, poi aggiungi un secondo LoRA solo quando necessario. Sfoglia la collezione ufficiale su Lightricks/LTX‑2.
Iterazioni più veloci
- Riduci il conteggio dei fotogrammi, riduci i passi in LTXVScheduler, e prova il checkpoint distillato per il percorso canny. Quando il movimento funziona, scala risoluzione e passi per i finali.
Riproducibilità
- Blocca noise_seed nei nodi Random Noise per ottenere risultati ripetibili mentre perfezioni prompt, dimensioni e LoRAs.

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo Lightricks per il modello di generazione video multimodale LTX-2 e il codice di ricerca LTX-Video, e Comfy Org per i nodi partner ComfyUI LTX-2/l'integrazione, per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

Comfy Org/LTX-2 Ora Disponibile in ComfyUI!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 Ora Disponibile in ComfyUI!

Nota: L'uso dei modelli, dataset e codice menzionati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

PuLID Flux II | Generazione Coerente di Personaggi

Genera immagini con un controllo preciso dei personaggi preservando lo stile artistico.

CogvideoX Fun | Modello Video-a-Video

CogVideoX Fun: Modello avanzato video-a-video per la generazione di video di alta qualità.

Wan 2.1 Fun | I2V + T2V

Potenzia i tuoi video AI con Wan 2.1 Fun.

Wan 2.2 | Leader Open-Source nella Generazione Video

Disponibile ora! Maggiore precisione + movimento più fluido.

Stile Argilla con Unsampling

Converti il tuo video in stile argilla usando il metodo Unsampling.

LayerDiffuse | Da testo a immagine trasparente

Utilizza LayerDiffuse per generare immagini trasparenti o fondere sfondi e primi piani l'uno con l'altro.

UNO | Generazione Coerente di Soggetti e Oggetti

Crea immagini stabili e coerenti a partire da riferimenti di soggetti e oggetti.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LTX-2 ComfyUI | Generatore Video in Tempo Reale

LTX-2 ComfyUI: testo, immagine, profondità e posa in tempo reale con audio sincronizzato

Modelli chiave nel workflow LTX-2 ComfyUI

Come usare il workflow LTX-2 ComfyUI

T2V: genera video e audio da un prompt

I2V: anima un fermo immagine

Profondità a video: movimento consapevole della struttura da mappe di profondità

Posa a video: guida il movimento dalla posa umana

Canny a video: animazione fedele ai bordi e modalità di velocità distillata

Impostazioni video ed esportazione

Prestazioni e multi-GPU

Nodi chiave nel workflow LTX-2 ComfyUI

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

PuLID Flux II | Generazione Coerente di Personaggi

CogvideoX Fun | Modello Video-a-Video

Wan 2.1 Fun | I2V + T2V

Wan 2.2 | Leader Open-Source nella Generazione Video

Stile Argilla con Unsampling

LayerDiffuse | Da testo a immagine trasparente

UNO | Generazione Coerente di Soggetti e Oggetti