LTX-2 ControlNet in ComfyUI | Workflow Video Controllato dalla Profondità

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: generazione video guidata dalla struttura e sincronizzata con l'audio in ComfyUI#

LTX-2 ControlNet è un workflow ComfyUI basato sul controllo per l'estensione ComfyUI-LTXVideo che ti permette di guidare la generazione di video LTX-2 con guida di profondità, bordi canny e pose mantenendo audio e video in sincronia. Funziona in uno spazio latente audio-visivo unificato, quindi discorsi, effetti sonori e movimenti sono generati insieme e rimangono allineati dal primo all'ultimo frame.

Progettato per testo a video, immagine a video e video a video, il workflow aggiunge il condizionamento ControlNet basato su IC LoRA per un controllo preciso del layout e del movimento, l'inizializzazione del primo frame per la continuità della scena e una pipeline a due stadi con ingrandimento latente per risultati nitidi senza sovraccaricare il VRAM. LTX-2 ControlNet è completamente aperto, veloce da iterare e orientato alla produzione per i creatori che necessitano di output ripetibili e di alta qualità.

Modelli chiave nel workflow Comfyui LTX-2 ControlNet#

LTX-2 19B (dev FP8 e distillato). Modello generativo audio-visivo principale utilizzato per campionare video e audio in un unico spazio latente. Model family
Gemma 3 12B IT text encoder. Fornisce una robusta comprensione del linguaggio per prompt e negativi tramite l'encoder confezionato utilizzato da LTX-2. Encoder file
LTX-2 Spatial Upscaler x2. Modello di ingrandimento latente utilizzato nella seconda fase per affinare i dettagli spaziali. Upscaler
LTX-2 Audio VAE. Decodificatore-encoder audio specializzato che mantiene il suono generato allineato con i frame. Incluso con i checkpoint LTX-2. Checkpoints
IC LoRA control family for LTX-2. Aggiunge condizionamento in stile ControlNet:
- Depth control LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Canny control LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Pose control LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- Distilled LoRA per compromessi qualità/efficienza: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1. Stimatore di profondità utilizzato nel percorso di controllo della profondità. Model
SD VAE FT MSE (Stability AI). VAE immagine utilizzato per precomputare la profondità e decodificare a mosaico. VAE
ComfyUI-LTXVideo extension. Fornisce i campionatori LTX-2, latenti AV, VAE audio e nodi guida utilizzati in tutto il processo. Repository

Come utilizzare il workflow Comfyui LTX-2 ControlNet#

A un livello alto, LTX-2 ControlNet prende il tuo prompt e riferimenti opzionali, costruisce un latente audio-visivo con guida in stile ControlNet, campiona un primo passaggio, quindi ingrandisce il latente per video nitido e audio sincronizzato. Scegli uno dei tre percorsi guidati (Profondità, Canny, Pose) o usali indipendentemente, quindi imposta lunghezza e dimensioni prima di esportare.

Pre-elaborazione Immagine/Video
- Se stai facendo immagine a video o video a video, usa i loader per portare i tuoi media di riferimento. VHS_LoadVideo (#196, #197, #198) divide i frame per l'analisi, mentre LoadImage (#189) gestisce le immagini fisse. Il gruppo fornisce un ridimensionamento conveniente in modo che le guide a valle vedano dimensioni dei frame coerenti.
- Un'immagine del "primo frame" può essere inoltrata per l'inizializzazione della scena; la abiliterai più tardi nel gruppo di generazione.
Pre-elaborazione Profondità Immagine
- Per la guida di profondità, il sottografo "Image to Depth Map (Lotus)" converte il tuo input in una mappa di profondità normalizzata utilizzando Lotus Depth. Questo prepara una rappresentazione di profondità a singolo frame o multi-frame che LTX-2 può seguire.
- Il percorso include ridimensionamento opzionale e controlli di intensità in modo che la guida codifichi una struttura ampia senza adattarsi eccessivamente a piccoli artefatti.
Pre-elaborazione Pose Video
- Per la guida delle pose, DWPreprocessor (#158) rileva i punti chiave del corpo intero dal video di input e li scala per un condizionamento stabile. Questo produce una sequenza di immagini di pose pulite che enfatizza l'orientamento dello scheletro e degli arti.
- I nodi di anteprima ti aiutano a verificare rapidamente che le rilevazioni e i rapporti d'aspetto siano corretti prima della generazione.
Da Canny a video
- Questo percorso di controllo estrae i bordi con Canny (#169), quindi costruisce un latente AV con la sequenza di immagini di controllo. Usalo quando vuoi preservare silhouette, contorni principali o bordi di tipografia da un riferimento.
- È disponibile un input di immagine del primo frame per un'inizializzazione coerente; abilitalo solo quando vuoi che il frame di apertura corrisponda a un'immagine fissa specifica.
Da Profondità a video
- Questo percorso alimenta le mappe di profondità Lotus come immagini di controllo. Il controllo della profondità è ideale per imporre geometria della telecamera, layout su larga scala e distanza del soggetto lasciando al generatore la scelta di texture e illuminazione.
- Puoi fornire un primo frame per bloccare la composizione iniziale e poi lasciare che il movimento evolva guidato da indizi di profondità.
Da Pose a video
- Il percorso della pose utilizza il rendering dei punti chiave dal preprocessore, guidando l'orientamento del corpo e la tempistica del movimento. È particolarmente efficace per il blocco dei personaggi, la tempistica del sollevamento delle mani e i cicli di camminata.
- Come con altre modalità, puoi combinare la tempistica del prompt con il condizionamento opzionale del primo frame per la continuità.
Impostazioni video e lunghezza
- Imposta la larghezza, altezza e il numero di frame nel gruppo "Video Settings" e "video length". Il workflow regola automaticamente i valori non validi alle dimensioni compatibili più vicine per la griglia latente e la cadenza di LTX-2 in modo da poter iterare in sicurezza.
- Mantieni il tuo frame rate di destinazione coerente tra i nodi; i nodi di condizionamento e il mux finale lo rispettano per una sincronizzazione audio-visiva fluida.
Generazione, ingrandimento ed esportazione
- Durante il campionamento, LTXVAddGuide integra il tuo condizionamento positivo/negativo con le immagini di controllo scelte, quindi SamplerCustomAdvanced esegue il programma da LTXVScheduler sia per i latenti video che audio. Il primo frame opzionale è iniettato con LTXVImgToVideoInplace dove abilitato.
- La seconda fase esegue LTXVLatentUpsampler per affinare i dettagli con l'ingranditore latente x2. La decodifica finale avviene con VAEDecodeTiled a mosaico per i frame e LTXVAudioVAEDecode per l'audio, quindi il video è scritto con VHS_VideoCombine o CreateVideo a seconda del ramo selezionato.

Nodi chiave nel workflow Comfyui LTX-2 ControlNet#

LTXVAddGuide (#132)
- Unisce il condizionamento del testo e i controlli IC LoRA nel latente AV, agendo come il cuore della guida LTX-2 ControlNet. Regola solo i pochi controlli che contano: scegli il controllo LoRA che corrisponde al tuo percorso (profondità, canny o pose) e, quando disponibile, la image_strength che regola quanto strettamente il modello segue le guide. Implementazione di riferimento e comportamento del nodo sono forniti dall'estensione LTXVideo. Docs/Code
LTXVImgToVideoInplace (#149, #155)
- Inietta un'immagine del primo frame nel latente AV per un'inizializzazione coerente della scena. Usa strength per bilanciare la fedeltà al primo frame rispetto alla libertà di evolversi; mantienilo più basso per più movimento e più alto per ancore più strette. Bypassalo quando vuoi aperture guidate solo da testo o controllo. Docs/Code
LTXVScheduler (#95)
- Guida la traiettoria di denoising per il latente unificato in modo che sia audio che video convergano insieme. Aumenta i passaggi per scene complesse e dettagli fini; accorciali per bozze e iterazioni rapide. Le impostazioni del programma interagiscono con la forza della guida, quindi evita valori estremi quando la guida è forte. Docs/Code
LTXVLatentUpsampler (#112)
- Esegue l'ingrandimento latente di seconda fase con l'ingranditore spaziale x2 di LTX-2, migliorando la nitidezza con una crescita minima del VRAM. Usalo dopo il primo passaggio anziché aumentare la risoluzione di base per mantenere le iterazioni reattive. Upscaler model
DWPreprocessor (#158)
- Genera punti chiave di pose umane pulite per il percorso di controllo delle pose. Verifica le rilevazioni con l'anteprima; se mani o arti piccoli sono rumorosi, scala gli input a una dimensione massima moderata prima della pre-elaborazione. Fornito dalla suite ausiliaria ControlNet. Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- Muxa frame decodificati e audio in un MP4 con il frame rate e il formato pixel selezionati. Usali solo dopo aver confermato che la decodifica audio appare allineata nell'anteprima. Fornito da Video Helper Suite. Repo

Extra opzionali#

Prompting per LTX-2 ControlNet
- Descrivi le azioni nel tempo, non solo attributi statici.
- Includi i segnali sonori o i dialoghi necessari affinché l'audio sia generato a tempo.
- Usa un prompt negativo conciso per sopprimere gli artefatti che vedi ripetutamente.
Dimensioni e lunghezze
- Usa dimensioni delle immagini della forma 32k + 1 per larghezza/altezza; il grafico corregge automaticamente se sbagli, ma valori esatti velocizzano l'iterazione.
- I conteggi di frame della forma 8k + 1 tendono ad essere i più stabili per la programmazione.
Coerenza del primo frame
- Abilita il primo frame solo quando hai bisogno di una composizione di apertura bloccata; abbinalo a un image_strength moderato per evitare sovra vincoli.
VRAM e throughput
- Il workflow include opzioni di sequenza parallela e compilazione torch nel patcher LTXVideo per configurazioni multi-GPU o con memoria limitata. Tienili attivi per clip lunghi, disattivali quando esegui il debug del comportamento del nodo. Extension

Riconoscimenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo Lightricks per ComfyUI-LTXVideo per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

ComfyUI-LTXVideo GitHub Repository: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Pyramid Flow | Generazione Video

Include sia la modalità testo-a-video che immagine-a-video.

CogvideoX Fun | Modello Video-a-Video

CogVideoX Fun: Modello avanzato video-a-video per la generazione di video di alta qualità.

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

Mochi 1 | Genmo Testo-a-Video

Demo Testo a Video Utilizzando il Modello Genmo Mochi 1

Mochi Edit UnSampling | Video-a-Video

Mochi Edit: Modifica Video Utilizzando Prompt Basati su Testo e Unsampling.

Nvidia Cosmos | Creazione da Testo e Immagine a Video

Genera video da prompt testuali o crea interpolazione di fotogrammi tra due immagini con il Cosmos di Nvidia.

Hunyuan Video 1.5 | Generatore di Video AI Rapido

Trasforma testo o immagini in video fluidi a 1080p rapidamente e facilmente.

Flux TTP Upscale | Ripristino Volto 4K

Ripara volti distorti e ingrandisci le immagini alla risoluzione 4K.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LTX-2 ControlNet | Generatore Video di Precisione