LTX 2.3 Sulphur image to video workflow in ComfyUI | Creatore di Movimento Cinematico

ComfyUI LTX 2.3 Sulphur image to video workflow Workflow

LTX 2.3 Sulphur image to video workflow in ComfyUI | Cinematic Motion Creator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Sulphur image to video workflow Examples

LTX 2.3 Sulphur image to video workflow: immagine a video cinematografico con movimento controllabile#

Questo LTX 2.3 Sulphur image to video workflow trasforma un singolo fermo in uno scatto cinematografico pronto per la pubblicazione con micro-espressioni naturali, movimento credibile dei personaggi e continuità atmosferica stabile. È progettato per scatti narrativi in cui desideri controllo sul feeling della telecamera, l'atmosfera e le dinamiche della scena senza perdersi nei dettagli di configurazione.

Il workflow esegue una pipeline di diffusione a due fasi attorno a LTX-2.3: un passaggio a bassa risoluzione per stabilire movimento e tempistica, seguito da un upscale latente e un passaggio di raffinamento ad alta risoluzione per i dettagli finali. Un Sulphur style LoRA guida l'aspetto e i toni della pelle, mentre la segmentazione dei prompt supporta l'evoluzione dei ritmi lungo lo scatto. Attiva un singolo interruttore per eseguire il classico image-to-video o puro text-to-video secondo le necessità.

Modelli chiave nel Comfyui LTX 2.3 Sulphur image to video workflow#

Lightricks LTX-2.3-22B dev FP8. Il checkpoint di diffusione video di base che guida generazione e decodifica mantenendo l'uso della memoria pratico. Model card
LTX-2.3 Spatial Upscaler x2. Un modello di super-risoluzione latente usato tra i passaggi per preservare il movimento aggiungendo fedeltà spaziale. Model page
Gemma 3 12B instruction-tuned text encoder confezionato per LTX-2. Abilita un conditioning ricco e fondato per prompt globali e segmentati. Repository
Sulphur style LoRA e LTX-2.3 distilled LoRA 1.1. LoRA accoppiati che stabilizzano il realismo facciale e il tono cinematografico mantenendo il controllo dei prompt.

Come usare Comfyui LTX 2.3 Sulphur image to video workflow#

Flusso generale: imposta dimensioni e lunghezza dello scatto, prepara la tua immagine statica, definisci un prompt globale più eventuali ritmi di prompt locali, quindi esegui il rendering. La fase a bassa risoluzione costruisce movimento e tempistica, l'upscaler latente solleva i dettagli, e la fase ad alta risoluzione finalizza texture e illuminazione prima della decodifica in MP4.

Impostazioni Video#

Scegli il tuo Width, Height, Length (fotogrammi) e Frame Rate target. Le dimensioni sono impostate per essere divisibili per le dimensioni della griglia di diffusione comuni per evitare artefatti. Un singolo booleano, Switch to Text to Video? (#28), controlla se l'immagine statica viene iniettata o bypassata. Mantieni il rapporto d'aspetto coerente con l'immagine di input per l'inquadratura più pulita, specialmente per volti e mani.

Preprocesso Immagine#

La tua immagine sorgente è caricata, ridimensionata e leggermente compressa per la prontezza alla diffusione usando ImageResizeKJv2 (#75) e LTXVPreprocess (#76). Una versione scalata è alimentata al passaggio a bassa risoluzione per un movimento stabile, mentre la versione a maggiore dettaglio è disponibile per il passaggio ad alta risoluzione. Usa questa sezione per allineare inquadratura e spazio extra prima della generazione. Sottile regolazioni pre-crop qui ripagano in linee degli occhi più coerenti e continuità dello sfondo.

Latente Vuoto#

EmptyLTXVLatentVideo (#21) e LTXVEmptyLatentAudio (#33) costruiscono latenti video e audio sincronizzati usando le impostazioni del tuo scatto. Sono uniti da LTXVConcatAVLatent (#32) per stabilire una struttura temporale che i nodi a valle affineranno. Il ramo audio crea una traccia silenziosa e valida in modo che l'MP4 finale venga riprodotto affidabilmente ovunque. Questi latenti ancorano anche i segmenti di prompt in modo che i cambiamenti di movimento avvengano dove previsto.

Prompt#

Scrivi la descrizione del tuo scatto in PromptRelayEncode (#80). Usa un prompt globale conciso per l'aspetto complessivo, quindi aggiungi righe specifiche per ritmo come prompt locali, separati dal carattere |, per evolvere micro-azioni lungo il clip. L'encoder di testo LTX da LTXAVTextEncoderLoader (#5) gestisce la semantica, mentre CLIPTextEncode (#41) fornisce un forte prompt negativo orientato al realismo. LTXVConditioning (#31) mescola il conditioning positivo e negativo e li sincronizza con il frame rate.

Modello#

CheckpointLoaderSimple (#44) carica la base LTX-2.3. PathchSageAttentionKJ (#67) ottimizza l'attenzione per immagini grandi. Una breve catena di LoRA applica lo stile Sulphur e una LoRA di stabilità distillata prima di ogni fase di campionamento. Questo design bilancia la coerenza dell'aspetto con la reattività del prompt in modo che l'identità del personaggio e l'illuminazione rimangano coerenti tra i passaggi.

Genera Bassa Risoluzione#

Questo primo passaggio di diffusione stabilisce il movimento. LTXVImgToVideoInplace (#22) inietta il tuo fermo preprocessato nella timeline; se Switch to Text to Video? è abilitato, il suo input bypass disabilita pulitamente l'iniezione di immagini per T2V puro. LTXVScheduler (#47) modella il programma sigma per controllare l'ampiezza del movimento e la fluidità temporale. SamplerCustomAdvanced (#9), guidato da CFGGuider (#42) e KSamplerSelect (#17), sintetizza un latente A/V coerente a bassa risoluzione. LTXVSeparateAVLatent (#35) poi divide i percorsi video e audio e inoltra le informazioni di inquadratura a LTXVCropGuides (#10) per una composizione consapevole delle guide.

Upscale Latente#

LTXVLatentUpsampler (#13) con il LTX-2.3 Spatial Upscaler solleva i dettagli spaziali nello spazio latente preservando il movimento appreso dal primo passaggio. L'upscaling qui evita di reinventare la tempistica e riduce lo sfarfallio spesso visto con la rigenerazione ingenua del secondo passaggio. Consegna un latente più nitido e coerente nel movimento alla fase finale di raffinamento.

Genera Alta Risoluzione#

La fase raffinata ricombina il latente video upscalato e il latente audio tramite LTXVConcatAVLatent (#3). CFGGuider (#8) e KSamplerSelect (#6) guidano un campionatore veloce e orientato ai dettagli in SamplerCustomAdvanced (#36) usando un programma sigma ottimizzato per la finitura. Se hai lasciato abilitata l'iniezione di immagini, un secondo LTXVImgToVideoInplace (#14) aiuta il modello a rispettare il fermo ad alta risoluzione senza perdere il movimento già stabilito. Il risultato è una sequenza cinematografica stabile con dinamiche naturali di occhi e bocca.

Output#

VAEDecode (#68) trasforma il latente video finale in fotogrammi mentre LTXVAudioVAEDecode (#23) ricostruisce la traccia audio silenziosa. CreateVideo (#38) muxa fotogrammi e audio al tuo frame rate selezionato, e SaveVideo (#45) scrive un MP4 H.264 per una revisione e condivisione immediata. Usa un prefisso di nome file descrittivo per scatto per mantenere organizzate le iterazioni.

Conversione Numerica#

Un piccolo blocco utility calcola dimensioni a metà scala per la costruzione latente per gestire VRAM e velocità. Di solito non è necessario toccarli, ma assicurano che larghezza e altezza a monte guidino tutto in modo coerente. Se cambi la risoluzione di base, questi si adattano automaticamente.

Nodi chiave nel Comfyui LTX 2.3 Sulphur image to video workflow#

PromptRelayEncode (#80). Centralizza un prompt globale e prompt locali ritmo per ritmo allineati alla timeline. Usalo per sceneggiare micro-espressioni e piccole rivelazioni di telecamera lungo lo scatto. Mantieni i prompt locali brevi e specifici in modo che completino piuttosto che combattano l'aspetto globale.
LTXVImgToVideoInplace (#22, #14). Inietta l'immagine ferma nei latenti a bassa e alta risoluzione. Aumenta strength quando vuoi che il finale aderisca strettamente al fotogramma di riferimento; riducilo per maggiore libertà. L'input bypass è collegato all'interruttore Text-to-Video in modo da poter disabilitare l'iniezione di immagini pulitamente per le esecuzioni T2V.
LTXVScheduler (#47). Controlla come i livelli di rumore evolvono durante il passaggio a bassa risoluzione, che influisce direttamente sull'intensità e fluidità del movimento. Usalo per domare scatti eccessivamente attivi o per aggiungere una spinta sottile quando le cose sembrano statiche. Le regolazioni qui sono più evidenti su volti, capelli ed energia della telecamera simile a quella a mano libera.
LTXVLatentUpsampler (#13). Esegue un upscaling latente x2 con l'upscaler spaziale di LTX, preservando i segnali di movimento appresi nel primo passaggio. Usalo per aggiungere texture nitide e definizione dei bordi prima della raffinazione ad alta risoluzione senza riavvolgere la tempistica.
CFGGuider (#42, #8). Bilancia quanto fortemente il modello segue i tuoi prompt rispetto ai suoi priors appresi. Se i volti si spostano o lo stile si indebolisce, aumenta la guida; se i dettagli sembrano forzati o plastici, riducila. Abbina le modifiche a uno sguardo rapido al prompt negativo per mantenere il realismo.
KSamplerSelect (#17, #6). Ti consente di scegliere l'algoritmo di campionamento per fase. Favorisci un campionatore robusto ed espressivo per il passaggio a bassa risoluzione e un'opzione veloce e orientata ai dettagli per il passaggio finale. Mantieni la scelta coerente tra le iterazioni quando confronti gli aspetti.

Extra opzionali#

Per un comportamento deliberato della telecamera, puoi aggiungere una LoRA di controllo della telecamera come Dolly-Left dalla famiglia LTX alla tua catena di caricamento LoRA quando desideri una spinta laterale coerente. Model page
Mantieni larghezza e altezza divisibili per 32 per evitare disallineamenti nelle operazioni latenti e mantenere l'efficienza VRAM.
Usa verbi brevi e attivi nei prompt locali per coreografare i ritmi, ad esempio stringi la presa, guarda altrove, ammorbidisci il sorriso.
Se miri a dimensioni di output molto elevate, considera la possibilità di sostituire VAEDecode con VAEDecodeTiled (#43) per decodificare i fotogrammi in modo più efficiente in termini di memoria.
Quando i volti sono più importanti, itera modificando solo il testo del prompt e CFGGuider prima di cambiare campionatore o risoluzione. Questo mantiene i confronti significativi e fa emergere la migliore formulazione per il LTX 2.3 Sulphur image to video workflow.

Ringraziamenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine RunningHub per il riferimento al workflow, Lightricks per la famiglia LTX 2.3 (modello, upscaler spaziale e LoRA di controllo della telecamera), e Comfy-Org per l'encoder di testo LTX per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

RunningHub/RunningHub workflow reference
- Docs / Release Notes: runninghub.ai post
Lightricks/LTX 2.3 model source
- Hugging Face: Lightricks/LTX-2.3-fp8
Lightricks/LTX 2.3 spatial upscaler source
- Hugging Face: Lightricks/LTX-2.3
Lightricks/LTX camera-control LoRA source
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
Comfy-Org/LTX text encoder source
- Hugging Face: Comfy-Org/ltx-2

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

LTX 2.3 Da Immagine a Video | Creatore di Movimento Cinematografico

Trasforma le immagini in video realistici e cinematografici con un movimento fluido e coerente.

SteadyDancer | Generatore Realistico da Immagine a Video

Trasforma i ritratti in video di movimento fluidi e realistici istantaneamente.

Mappe di profondità Z | Animazioni simili a quelle di Houdini

Crea sorprendenti animazioni simili a quelle di Houdini con le mappe di profondità Z utilizzando solo immagini 2D.

Wan2.2 Fun Inp | Generatore di Video Cinematografici

Da 2 immagini a video mozzafiato con transizioni fluide e controllabili.

Hunyuan Image to Video | Creatore di Movimento Mozzafiato

Crea filmati magnifici a partire da immagini statiche attraverso movimenti cinematografici ed effetti personalizzabili.

Inserisci Qualsiasi Cosa | Editing di Immagini Basato su Riferimento

Inserisci qualsiasi soggetto nelle immagini con guida tramite maschera o testo.

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

IPAdapter Plus (V2) | Trasferimento di Stile con Una Sola Immagine

Usa IPAdapter Plus e ControlNet per un trasferimento di stile preciso con una singola immagine di riferimento.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

LTX 2.3 Sulphur image to video workflow | Generatore Cinematico