logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Workflow>LTX 2.3 VBVR | Generatore Video Consapevole del Contesto

LTX 2.3 VBVR | Generatore Video Consapevole del Contesto

Workflow Name: RunComfy/LTX-2.3-VBVR
Workflow ID: 0000...1394
Con il modello di ragionamento video LTX, puoi creare scene in cui la logica visiva prende vita. Consente un movimento naturale, effetti causali realistici e transizioni di scena coerenti in ogni sequenza. Perfetto per visuali guidate dalla storia, simulazioni di addestramento o interazioni multi-oggetto. Questo strumento ti aiuta a progettare video in cui ogni fotogramma si collega in modo significativo al successivo. Porta coerenza, profondità e struttura a output video complessi, migliorando il controllo creativo e il realismo.

Flusso di Lavoro LTX 2.3 VBVR ComfyUI: immagine‑a‑video con dialogo consapevole del ragionamento

Questo flusso di lavoro trasforma un'unica immagine di riferimento in una sequenza video coerente guidata da testo e discorso opzionale, alimentato da LTX‑2.3 e LTX 2.3 VBVR LoRA. VBVR sta per ragionamento visivo basato su video: aiuta il modello a mantenere coerenti identità, relazioni spaziali e causa‑ed‑effetto tra i fotogrammi, in modo che le scene risultino intenzionali piuttosto che casuali. Il grafico include suggerimenti consapevoli del discorso, campionamento LTX a due stadi, levigatura del movimento e ingrandimento/esportazione finale in MP4.

I creatori che necessitano di continuità narrativa, movimento credibile o tempistica del dialogo troveranno il flusso di lavoro LTX 2.3 VBVR particolarmente utile. Fornisci un forte fotogramma di riferimento, descrivi l'azione e le interazioni e inserisci facoltativamente una linea parlata che viene trascritta automaticamente e inserita nel prompt per un migliore allineamento delle labbra e della tempistica.

Modelli chiave nel flusso di lavoro Comfyui LTX 2.3 VBVR

  • Modello di generazione video LTX‑2.3 22B di Lightricks, la principale base di diffusione per la decodifica condizionata da immagine‑a‑video e audio. Hugging Face: Lightricks/LTX-2.3
  • LTX‑2.3 Video VAE per la codifica/decodifica dei latenti video, abbinato al checkpoint base per una decodifica segmentata efficiente. Hugging Face: Lightricks/LTX-2.3
  • Modello latente LTX‑2.3 Spatial Upscaler x2 per migliorare i dettagli spaziali dopo il primo passaggio. Hugging Face: Lightricks/LTX-2.3
  • Codificatore di testo Gemma 3 12B confezionato per LTX‑2, usato qui per analizzare istruzioni complesse e token di dialogo. Hugging Face: Comfy-Org/ltx-2
  • LTX 2.3 VBVR LoRA per la struttura della scena centrata sul ragionamento, interazione tra oggetti e continuità nel tempo. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
  • Modello di interpolazione dei fotogrammi RIFE per levigare il movimento tra i fotogrammi generati. GitHub: hzwer/Practical-RIFE
  • Modello di riconoscimento vocale Whisper per l'infusione opzionale di audio‑a‑testo nel prompt. GitHub: openai/whisper

Come usare il flusso di lavoro Comfyui LTX 2.3 VBVR

Il grafico è organizzato in gruppi chiari. Configuri gli input, lo stack del modello e le impostazioni video, quindi i campionatori LTX generano fotogrammi che sono opzionalmente interpolati e ingranditi prima dell'esportazione.

Carica Immagine di Riferimento

Usa Load Image (Input) (#5525) per scegliere un forte fotogramma di riferimento in stile. L'immagine viene ridimensionata da ImageResizeKJv2 (#5280) alla larghezza e altezza scelte preservando la composizione. Un nodo di anteprima conferma ciò che il modello vedrà effettivamente. Buone immagini di riferimento con soggetti e illuminazione chiari danno allo stack LTX 2.3 VBVR un ancoraggio affidabile per identità e stile.

Impostazione Video

Imposta Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573) e Frame Rate base (#5289). Il grafico calcola automaticamente il conteggio dei fotogrammi in modo che la tempistica rimanga coerente quando cambi durata o fps. Se prevedi di abilitare l'interpolazione più tardi, puoi scegliere un fps base modesto per risparmiare tempo e lasciare che RIFE aggiunga fluidità. Queste impostazioni informano anche il nodo di condizionamento in modo che il movimento e il ritmo rimangano coerenti.

Modello

CheckpointLoaderSimple (#5493) carica LTX‑2.3. Il grafico collega il LTX 2.3 VBVR LoRA tramite LoraLoaderModelOnly (#5616) e può opzionalmente applicare un LoRA distillato e un LoRA detailer per maggiore fedeltà. LTXAVTextEncoderLoader (#5494) introduce il codificatore di testo basato su Gemma, mentre VAELoader (#5629) e LTXVAudioVAELoader (#5492) forniscono i VAE video e audio. Due nodi ReservedVRAMSetter bilanciano l'uso della memoria in modo che le esecuzioni lunghe rimangano stabili.

Prompt di Testo Video

Scrivi la tua scena in Text Prompt (Input) (#5620). Per iniettare dialogo allineato con l'audio, includi un segnaposto come: The woman says "<Transcript1>". Inserisci la linea effettiva in Speech Line (Input) (#5524) o lascia che Whisper la produca dall'audio; StringReplace (#5226) e JoinStringMulti (#5602) sostituiscono <Transcript1> con la trascrizione. TextGenerateLTX2Prompt (#5488) poi compone un'istruzione raffinata, che Enhanced Prompt (Positive) (#5174) codifica prima che LTXVConditioning (#5173) prepari la guida finale. Verbi chiari, riferimenti a soggetti e segnali spaziali danno al LTX 2.3 VBVR LoRA il contesto di cui ha bisogno per ragionare nel tempo.

Preprocesso Audio

Porta una traccia vocale con Load Audio (Input) (#5590) o collega TTS. AudioAdjustVolume (#5601) normalizza i livelli. Se vuoi dialogo consapevole del prompt, usa Whisper tramite Load Whisper (mtb) (#5606) e Audio To Text (mtb) (#5607) per generare la trascrizione usata nel prompt. Lo stesso audio viene anche codificato come latente e in seguito mixato nel video finale in modo che le labbra e i segnali temporali possano influenzare la generazione.

Campionamento LTX

LTXVPreprocess (#5240) e LTXVImgToVideoInplace (#5245) convertono il tuo fotogramma di riferimento in una sequenza latente iniziale, preservando l'identità di base permettendo il movimento. Il sottografico Samplers (#5278) esegue un processo a due stadi con guidatori CFG e un pianificatore, producendo latenti spatio-temporali che rispettano sia il tuo prompt che il ragionamento del LTX 2.3 VBVR LoRA. I latenti audio sono concatenati con i latenti video in modo che la tempistica del discorso possa informare il movimento. LTXVSpatioTemporalTiledVAEDecode (#5237) decodifica i fotogrammi, e LTXVAudioVAEDecode (#5103) ripristina la traccia audio.

Interpolazione dei Fotogrammi e Ingrandimento

RIFE VFI (#5554) interpola tra i fotogrammi per creare un movimento più fluido e raggiungere il tuo tasso di riproduzione target quando combinato con l'fps base. RTXVideoSuperResolution (#5631) migliora i dettagli e riduce gli artefatti di compressione, migliorando la leggibilità di volti, bordi e piccoli oggetti di scena. Usa questa fase per bilanciare velocità e qualità: interpola per la fluidità, poi ingrandisci per la nitidezza.

Esportazione

Scegli tra CreateVideo (#5599) per un semplice mix o VHS_VideoCombine (#5618) per un maggiore controllo su formato, metadati e taglio. La pipeline scrive un H.264 MP4 tramite SaveVideo (#5597). Il tasso di fotogrammi è derivato dalle tue impostazioni e dalla fase di interpolazione in modo che la riproduzione corrisponda all'intento di movimento che hai creato all'inizio.

Nodi chiave nel flusso di lavoro Comfyui LTX 2.3 VBVR

LoraLoaderModelOnly (#5616)

Carica il LTX 2.3 VBVR LoRA che migliora la continuità logica, l'interazione tra oggetti e il movimento consapevole della telecamera. Regola il peso del LoRA per bilanciare l'influenza del ragionamento con lo stile del modello base e di altri LoRA. Questo nodo è centrale per l'aspetto distintivo e la coerenza che definiscono il flusso di lavoro LTX 2.3 VBVR. Per i nodi LTX e l'uso di LoRA, vedi Lightricks/ComfyUI-LTXVideo e la scheda VBVR LoRA sopra.

TextGenerateLTX2Prompt (#5488)

Assembla il prompt positivo finale unendo la tua descrizione di base, l'immagine di riferimento e il token di dialogo sostituito da <Transcript1>. Mantieni le istruzioni concise, esplicite e coerenti su soggetti e azioni in modo che il modello possa ragionare nel tempo. Qui è dove codifichi l'intento che il LTX 2.3 VBVR LoRA rafforzerà durante il campionamento.

LTXVConditioning (#5173)

Confeziona il condizionamento positivo e negativo e inoltra le informazioni temporali in modo che il movimento e il ritmo si allineino con la tua scelta di fps. Se cambi il tasso di fotogrammi nelle impostazioni, aggiornalo qui per mantenere costanti le dinamiche del movimento. Negativi forti aiutano a prevenire fotogrammi fissi, filigrane o sovrapposizioni indesiderate dal penetrare nella sequenza.

Samplers (#5278)

Il blocco di campionamento a due stadi coordina rumore, guida e pianificazione per trasformare i latenti immagine e audio in un video coerente. Gli aggiustamenti più impattanti sono i passi totali, la forza immagine della fase iniziale I2V e il noise_seed per la riproducibilità. Regola questi con cura per bilanciare la fedeltà al fotogramma di riferimento contro la disponibilità a seguire nuovi movimenti e azioni.

RIFE VFI (#5554)

Interpola i fotogrammi per un movimento più fluido o per raggiungere un fps effettivo più alto senza rigenerare la sequenza. Aumenta l'interpolazione quando il tuo fps base è basso o quando il movimento sembra scattoso; diminuiscila per preservare il ritmo generativo originale. Il modello è ampiamente usato per VFI di alta qualità; vedi il progetto RIFE su GitHub.

Extra opzionali

  • Trucco del dialogo con LTX 2.3 VBVR: scrivi una frase naturale con il segnaposto, ad esempio The woman says "<Transcript1>", quindi fornisci la linea in Speech Line o lascia che Whisper trascriva l'audio in modo che il prompt e le labbra si allineino.
  • Prompting per il ragionamento: indica chi fa cosa, dove e perché. Usa nomi di soggetti coerenti e segnali temporali come poi, mentre e mentre la telecamera si muove per sfruttare i punti di forza di VBVR.
  • Iterazioni più veloci: inizia con una durata più breve o un fps base inferiore, conferma i battiti del movimento, quindi aumenta l'interpolazione o i secondi per finire.
  • Consigli di stabilità: se vedi un'alterazione dell'identità, abbassa leggermente la forza immagine‑a‑video o aumenta il peso del VBVR LoRA; se vedi un eccesso di vincoli, fai il contrario.

Ringraziamenti

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sentitamente @Benji’s AI Playground per il 2.3 VBVR Workflow Source per i loro contributi e la loro manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

  • LTX/2.3 VBVR Workflow Source
    • Documenti / Note di Rilascio: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground

Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

LTX Video | Immagine+Testo a Video

Genera video da prompt immagine+testo.

ComfyUI F5 TTS | Motore di Clonazione Vocale Naturale

Trasforma il testo in voci ricche ed espressive con controllo naturale del tono.

LTX 2.3 Da Immagine a Video | Creatore di Movimento Cinematografico

Trasforma le immagini in video realistici e cinematografici con un movimento fluido e coerente.

LTX-2 ControlNet | Generatore Video di Precisione

Controllo nitido, sincronizzazione perfetta, creazione video AI super chiara.

LTX 2.3 LoRA Inferenza | AI Toolkit ComfyUI

Esegui il tuo LTX 2.3 LoRA addestrato con AI Toolkit in ComfyUI con un comportamento corrispondente all'addestramento utilizzando un singolo nodo personalizzato RunComfy RC.

IPAdapter Plus (V2) | Cambia Vestiti

IPAdapter Plus (V2) | Cambia Vestiti

Usa IPAdapter Plus per la creazione dei tuoi modelli di moda, cambiando facilmente outfit e stili

Wan 2.1 Fun | Controllo del Movimento Traiettoria

Progetta percorsi di movimento per animare foto statiche in video.

AnimateDiff + QR Code ControlNet | Effetti visivi (VFX)

Crea effetti visivi accattivanti con AnimateDiff e ControlNet (con QRCode Monster e Lineart).

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.