LTX 2.3 VBVR in ComfyUI | Flusso di Lavoro per il Ragionamento Video Basato su Logica

ComfyUI LTX 2.3 VBVR Workflow

LTX 2.3 VBVR in ComfyUI | Logic-Based Video Reasoning Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 VBVR Examples

Flusso di Lavoro LTX 2.3 VBVR ComfyUI: immagine‑a‑video con dialogo consapevole del ragionamento#

Questo flusso di lavoro trasforma un'unica immagine di riferimento in una sequenza video coerente guidata da testo e discorso opzionale, alimentato da LTX‑2.3 e LTX 2.3 VBVR LoRA. VBVR sta per ragionamento visivo basato su video: aiuta il modello a mantenere coerenti identità, relazioni spaziali e causa‑ed‑effetto tra i fotogrammi, in modo che le scene risultino intenzionali piuttosto che casuali. Il grafico include suggerimenti consapevoli del discorso, campionamento LTX a due stadi, levigatura del movimento e ingrandimento/esportazione finale in MP4.

I creatori che necessitano di continuità narrativa, movimento credibile o tempistica del dialogo troveranno il flusso di lavoro LTX 2.3 VBVR particolarmente utile. Fornisci un forte fotogramma di riferimento, descrivi l'azione e le interazioni e inserisci facoltativamente una linea parlata che viene trascritta automaticamente e inserita nel prompt per un migliore allineamento delle labbra e della tempistica.

Modelli chiave nel flusso di lavoro Comfyui LTX 2.3 VBVR#

Modello di generazione video LTX‑2.3 22B di Lightricks, la principale base di diffusione per la decodifica condizionata da immagine‑a‑video e audio. Hugging Face: Lightricks/LTX-2.3
LTX‑2.3 Video VAE per la codifica/decodifica dei latenti video, abbinato al checkpoint base per una decodifica segmentata efficiente. Hugging Face: Lightricks/LTX-2.3
Modello latente LTX‑2.3 Spatial Upscaler x2 per migliorare i dettagli spaziali dopo il primo passaggio. Hugging Face: Lightricks/LTX-2.3
Codificatore di testo Gemma 3 12B confezionato per LTX‑2, usato qui per analizzare istruzioni complesse e token di dialogo. Hugging Face: Comfy-Org/ltx-2
LTX 2.3 VBVR LoRA per la struttura della scena centrata sul ragionamento, interazione tra oggetti e continuità nel tempo. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
Modello di interpolazione dei fotogrammi RIFE per levigare il movimento tra i fotogrammi generati. GitHub: hzwer/Practical-RIFE
Modello di riconoscimento vocale Whisper per l'infusione opzionale di audio‑a‑testo nel prompt. GitHub: openai/whisper

Come usare il flusso di lavoro Comfyui LTX 2.3 VBVR#

Il grafico è organizzato in gruppi chiari. Configuri gli input, lo stack del modello e le impostazioni video, quindi i campionatori LTX generano fotogrammi che sono opzionalmente interpolati e ingranditi prima dell'esportazione.

Carica Immagine di Riferimento#

Usa Load Image (Input) (#5525) per scegliere un forte fotogramma di riferimento in stile. L'immagine viene ridimensionata da ImageResizeKJv2 (#5280) alla larghezza e altezza scelte preservando la composizione. Un nodo di anteprima conferma ciò che il modello vedrà effettivamente. Buone immagini di riferimento con soggetti e illuminazione chiari danno allo stack LTX 2.3 VBVR un ancoraggio affidabile per identità e stile.

Impostazione Video#

Imposta Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573) e Frame Rate base (#5289). Il grafico calcola automaticamente il conteggio dei fotogrammi in modo che la tempistica rimanga coerente quando cambi durata o fps. Se prevedi di abilitare l'interpolazione più tardi, puoi scegliere un fps base modesto per risparmiare tempo e lasciare che RIFE aggiunga fluidità. Queste impostazioni informano anche il nodo di condizionamento in modo che il movimento e il ritmo rimangano coerenti.

Modello#

CheckpointLoaderSimple (#5493) carica LTX‑2.3. Il grafico collega il LTX 2.3 VBVR LoRA tramite LoraLoaderModelOnly (#5616) e può opzionalmente applicare un LoRA distillato e un LoRA detailer per maggiore fedeltà. LTXAVTextEncoderLoader (#5494) introduce il codificatore di testo basato su Gemma, mentre VAELoader (#5629) e LTXVAudioVAELoader (#5492) forniscono i VAE video e audio. Due nodi ReservedVRAMSetter bilanciano l'uso della memoria in modo che le esecuzioni lunghe rimangano stabili.

Prompt di Testo Video#

Scrivi la tua scena in Text Prompt (Input) (#5620). Per iniettare dialogo allineato con l'audio, includi un segnaposto come: The woman says "<Transcript1>". Inserisci la linea effettiva in Speech Line (Input) (#5524) o lascia che Whisper la produca dall'audio; StringReplace (#5226) e JoinStringMulti (#5602) sostituiscono <Transcript1> con la trascrizione. TextGenerateLTX2Prompt (#5488) poi compone un'istruzione raffinata, che Enhanced Prompt (Positive) (#5174) codifica prima che LTXVConditioning (#5173) prepari la guida finale. Verbi chiari, riferimenti a soggetti e segnali spaziali danno al LTX 2.3 VBVR LoRA il contesto di cui ha bisogno per ragionare nel tempo.

Preprocesso Audio#

Porta una traccia vocale con Load Audio (Input) (#5590) o collega TTS. AudioAdjustVolume (#5601) normalizza i livelli. Se vuoi dialogo consapevole del prompt, usa Whisper tramite Load Whisper (mtb) (#5606) e Audio To Text (mtb) (#5607) per generare la trascrizione usata nel prompt. Lo stesso audio viene anche codificato come latente e in seguito mixato nel video finale in modo che le labbra e i segnali temporali possano influenzare la generazione.

Campionamento LTX#

LTXVPreprocess (#5240) e LTXVImgToVideoInplace (#5245) convertono il tuo fotogramma di riferimento in una sequenza latente iniziale, preservando l'identità di base permettendo il movimento. Il sottografico Samplers (#5278) esegue un processo a due stadi con guidatori CFG e un pianificatore, producendo latenti spatio-temporali che rispettano sia il tuo prompt che il ragionamento del LTX 2.3 VBVR LoRA. I latenti audio sono concatenati con i latenti video in modo che la tempistica del discorso possa informare il movimento. LTXVSpatioTemporalTiledVAEDecode (#5237) decodifica i fotogrammi, e LTXVAudioVAEDecode (#5103) ripristina la traccia audio.

Interpolazione dei Fotogrammi e Ingrandimento#

RIFE VFI (#5554) interpola tra i fotogrammi per creare un movimento più fluido e raggiungere il tuo tasso di riproduzione target quando combinato con l'fps base. RTXVideoSuperResolution (#5631) migliora i dettagli e riduce gli artefatti di compressione, migliorando la leggibilità di volti, bordi e piccoli oggetti di scena. Usa questa fase per bilanciare velocità e qualità: interpola per la fluidità, poi ingrandisci per la nitidezza.

Esportazione#

Scegli tra CreateVideo (#5599) per un semplice mix o VHS_VideoCombine (#5618) per un maggiore controllo su formato, metadati e taglio. La pipeline scrive un H.264 MP4 tramite SaveVideo (#5597). Il tasso di fotogrammi è derivato dalle tue impostazioni e dalla fase di interpolazione in modo che la riproduzione corrisponda all'intento di movimento che hai creato all'inizio.

Nodi chiave nel flusso di lavoro Comfyui LTX 2.3 VBVR#

`LoraLoaderModelOnly` (#5616)#

Carica il LTX 2.3 VBVR LoRA che migliora la continuità logica, l'interazione tra oggetti e il movimento consapevole della telecamera. Regola il peso del LoRA per bilanciare l'influenza del ragionamento con lo stile del modello base e di altri LoRA. Questo nodo è centrale per l'aspetto distintivo e la coerenza che definiscono il flusso di lavoro LTX 2.3 VBVR. Per i nodi LTX e l'uso di LoRA, vedi Lightricks/ComfyUI-LTXVideo e la scheda VBVR LoRA sopra.

`TextGenerateLTX2Prompt` (#5488)#

Assembla il prompt positivo finale unendo la tua descrizione di base, l'immagine di riferimento e il token di dialogo sostituito da <Transcript1>. Mantieni le istruzioni concise, esplicite e coerenti su soggetti e azioni in modo che il modello possa ragionare nel tempo. Qui è dove codifichi l'intento che il LTX 2.3 VBVR LoRA rafforzerà durante il campionamento.

`LTXVConditioning` (#5173)#

Confeziona il condizionamento positivo e negativo e inoltra le informazioni temporali in modo che il movimento e il ritmo si allineino con la tua scelta di fps. Se cambi il tasso di fotogrammi nelle impostazioni, aggiornalo qui per mantenere costanti le dinamiche del movimento. Negativi forti aiutano a prevenire fotogrammi fissi, filigrane o sovrapposizioni indesiderate dal penetrare nella sequenza.

`Samplers` (#5278)#

Il blocco di campionamento a due stadi coordina rumore, guida e pianificazione per trasformare i latenti immagine e audio in un video coerente. Gli aggiustamenti più impattanti sono i passi totali, la forza immagine della fase iniziale I2V e il noise_seed per la riproducibilità. Regola questi con cura per bilanciare la fedeltà al fotogramma di riferimento contro la disponibilità a seguire nuovi movimenti e azioni.

`RIFE VFI` (#5554)#

Interpola i fotogrammi per un movimento più fluido o per raggiungere un fps effettivo più alto senza rigenerare la sequenza. Aumenta l'interpolazione quando il tuo fps base è basso o quando il movimento sembra scattoso; diminuiscila per preservare il ritmo generativo originale. Il modello è ampiamente usato per VFI di alta qualità; vedi il progetto RIFE su GitHub.

Extra opzionali#

Trucco del dialogo con LTX 2.3 VBVR: scrivi una frase naturale con il segnaposto, ad esempio The woman says "<Transcript1>", quindi fornisci la linea in Speech Line o lascia che Whisper trascriva l'audio in modo che il prompt e le labbra si allineino.
Prompting per il ragionamento: indica chi fa cosa, dove e perché. Usa nomi di soggetti coerenti e segnali temporali come poi, mentre e mentre la telecamera si muove per sfruttare i punti di forza di VBVR.
Iterazioni più veloci: inizia con una durata più breve o un fps base inferiore, conferma i battiti del movimento, quindi aumenta l'interpolazione o i secondi per finire.
Consigli di stabilità: se vedi un'alterazione dell'identità, abbassa leggermente la forza immagine‑a‑video o aumenta il peso del VBVR LoRA; se vedi un eccesso di vincoli, fai il contrario.

Ringraziamenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sentitamente @Benji’s AI Playground per il 2.3 VBVR Workflow Source per i loro contributi e la loro manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

LTX/2.3 VBVR Workflow Source
- Documenti / Note di Rilascio: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground

Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

LTX Video | Immagine+Testo a Video

Genera video da prompt immagine+testo.

ComfyUI F5 TTS | Motore di Clonazione Vocale Naturale

Trasforma il testo in voci ricche ed espressive con controllo naturale del tono.

LTX 2.3 Da Immagine a Video | Creatore di Movimento Cinematografico

Trasforma le immagini in video realistici e cinematografici con un movimento fluido e coerente.

LTX-2 ControlNet | Generatore Video di Precisione

Controllo nitido, sincronizzazione perfetta, creazione video AI super chiara.

LTX 2.3 LoRA Inferenza | AI Toolkit ComfyUI

Esegui il tuo LTX 2.3 LoRA addestrato con AI Toolkit in ComfyUI con un comportamento corrispondente all'addestramento utilizzando un singolo nodo personalizzato RunComfy RC.

LTX 2.3 Movie Builder Workflow | Generatore di Film AI

Trasforma i prompt in storie cinematografiche complete con totale controllo creativo.

CogVideoX-5B | Modello Avanzato da Testo a Video

CogVideoX-5B: Modello avanzato da testo a video per la generazione di video di alta qualità.

FLUX.2 Klein 9B LoRA Inferenza | AI Toolkit ComfyUI

Genera output FLUX.2 Klein 9B LoRA corrispondenti all'addestramento in ComfyUI attraverso i nodi di inferenza allineati alla pipeline dell'AI Toolkit.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LTX 2.3 VBVR | Generatore Video Consapevole del Contesto