ComfyUI>Workflow>LTX 2.3 Sulphur 2 testo a video workflow | Generatore Cinematico

LTX 2.3 Sulphur 2 testo a video workflow | Generatore Cinematico

Workflow Name: RunComfy/LTX-2.3-Sulphur-2
Workflow ID: 0000...1430
Con la configurazione LTX 2.3 Sulphur 2, puoi trasformare i prompt di testo in animazioni cinematografiche di personaggi con audio e movimento sincronizzati. Integra il conditioning LTXV e il modeling Sulphur 2 per movimenti umani più fluidi e rendering visivi dettagliati. Gli utenti possono ottenere risultati di alta qualità per concetti di cortometraggi, test di animazione o prototipi di narrazione. Questo workflow combina testo, audio e decodifica video latente per una creazione senza soluzione di continuità da un capo all'altro. È adatto ai creatori che necessitano di una generazione video rapida, controllabile ed espressiva.

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Workflow

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Examples

LTX 2.3 Sulphur 2 testo a video workflow per animazione di personaggi cinematografici#

Questa pipeline ComfyUI trasforma i prompt in linguaggio naturale in brevi video cinematografici, incentrati sui personaggi, con audio opzionale, costruiti attorno ai componenti Lightricks LTX‑2.3 e Sulphur 2. Genera in bassa risoluzione per la pianificazione del movimento, scala la sequenza latente, quindi affina ad alta risoluzione prima di decodificare in frame e muxare una traccia audio sincronizzata.

Il workflow LTX 2.3 Sulphur 2 testo a video è ideale per test rapidi di animazione di personaggi, concetti di movimento in stile D‑Human, ed esperimenti di testo a video raffinati. Non si basa su input immagine a video o relè di prompt; tutto parte dal testo, con il conditioning LTXV che guida sia i latenti video che audio da un capo all'altro.

Modelli chiave nel workflow Comfyui LTX 2.3 Sulphur 2 testo a video#

  • Lightricks LTX‑2.3. Generatore di testo a video principale utilizzato per la sintesi spaziotemporale e latenti AV multimodali. Vedere il repository ufficiale del modello per i pesi e le note su capacità e limitazioni. Hugging Face: Lightricks/LTX-2.3
  • Lightricks LTX‑2.3 FP8 checkpoint. Variante a memoria efficiente di LTX‑2.3 che accelera l'inferenza e consente clip più lunghe o risoluzioni più alte su GPU limitate. Hugging Face: Lightricks/LTX-2.3-fp8
  • Modello base Sulphur 2. Fornisce priorità di stile e dettagli dei personaggi tramite LoRA in questo workflow, aiutando a ottenere volti nitidi e tonalità cinematografiche. Hugging Face: SulphurAI/Sulphur-2-base
  • LTX‑2.3 Spatial Upscaler x2 1.1. Upscaler nello spazio latente che aumenta i dettagli spaziali prima del passaggio di affinamento ad alta risoluzione. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
  • Codificatore di testo LTX (Gemma 3 12B IT confezionato per LTX). Fornisce lo spazio di embedding del testo abbinato al conditioning LTX‑2.3 per un fedele seguito del prompt. Hugging Face: Comfy-Org/ltx-2
  • LTX Audio VAE. Decodifica il latente audio generato insieme al video in modo che il render finale possa includere una colonna sonora sincronizzata. Hugging Face: Lightricks/LTX-2.3

Come utilizzare il workflow Comfyui LTX 2.3 Sulphur 2 testo a video#

Logica generale La pipeline si svolge in tre atti: generazione a bassa risoluzione per stabilire movimento e composizione, upscaling latente per aumentare i dettagli spaziali, e un passaggio di affinamento ad alta risoluzione che produce anche l'audio finale. I latenti vengono decodificati in frame e forma d'onda, quindi muxati in un contenitore MP4 pronto per la consegna.

Impostazioni video Usa il gruppo "Video Settings" per definire larghezza, altezza, frame rate e durata. Il conteggio dei frame è calcolato automaticamente dalla tua durata e fps in modo che tempi e cadenza rimangano coerenti. Questi valori guidano l'allocazione e la decodifica dei latenti, quindi impostali prima in modo che corrispondano al tuo rapporto d'aspetto e runtime di destinazione. Regolare l'fps qui informa anche il conditioning in modo che la fluidità del movimento e l'allineamento audio utilizzino lo stesso orologio.

Prompt In "Prompt", carica il codificatore di testo LTX con LTXAVTextEncoderLoader (#316), quindi scrivi la tua descrizione positiva in CLIPTextEncode (#303) e qualsiasi tratto indesiderato in CLIPTextEncode (#312). Il nodo LTXVConditioning (#304) unisce il conditioning positivo e negativo e aggiunge il frame rate scelto in modo che la guida temporale corrisponda al tuo fps. Tratta il prompt positivo come un brief di ripresa: soggetto, fotocamera, illuminazione, umore e suggerimenti di stile. Mantieni la lista negativa focalizzata sugli artefatti che vedi regolarmente e vuoi rimuovere.

Modello Il gruppo "Model" carica il checkpoint principale tramite CheckpointLoaderSimple (#315) e applica un Sulphur 2 LoRA con LoraLoaderModelOnly (#285) per infondere texture cinematografiche e fedeltà del personaggio. Qui puoi scambiare checkpoint o LoRA per cambiare l'aspetto complessivo e le priorità di movimento. L'output del modello è instradato sia ai guidatori iniziali che di affinamento in modo che stile e identità siano coerenti tra i passaggi. L'abbinamento di LTX‑2.3 con Sulphur 2 produce contrasti vivaci e volti dettagliati che si leggono bene in movimento.

Conversione numerica Espressioni di utilità convertono il tuo fps e i secondi nel conteggio dei frame interi utilizzato a valle. Questo mantiene le linee temporali audio e video allineate senza calcoli manuali. Se in seguito modifichi fps o durata, il grafico aggiorna automaticamente i nodi dipendenti.

Latente Vuoto "Empty Latent" crea contenitori allineati per la generazione: EmptyLTXVLatentVideo (#295) definisce la dimensione spaziale e la lunghezza del latente video, LTXVEmptyLatentAudio (#305) assegna il latente audio allo stesso frame rate, e LTXVConcatAVLatent (#321) li unisce in un singolo latente AV. Partire da latenti vuoti assicura che il passaggio di diffusione rifletta completamente il tuo prompt e conditioning piuttosto che qualsiasi contenuto preesistente.

Genera Bassa Risoluzione La prima fase di campionamento stabilisce movimento e composizione a costo inferiore. CFGGuider (#313), KSamplerSelect (#291), e ManualSigmas (#306) governano quanto fortemente il prompt guida la generazione e il programma di rumore complessivo. SamplerCustomAdvanced (#283) quindi denoises il latente AV in un clip coerente. Il risultato è suddiviso da LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) affina l'attenzione spaziale in modo che l'inquadratura del soggetto che desideri sia preservata durante l'upscaling successivo.

Upscale Latente LTXVLatentUpsampler (#287) utilizza l'upscaler LTX‑2.3 x2 per sollevare i dettagli spaziali rimanendo nello spazio latente per velocità e stabilità. Alimentare il latente video upscalato in avanti migliora la texture e la leggibilità prima dell'affinamento ad alta risoluzione. Questo preserva il movimento che hai apprezzato dal primo passaggio aprendo spazio per bordi più nitidi e materiali più ricchi.

Genera Alta Risoluzione Il latente video upscalato è riunito con il latente audio in LTXVConcatAVLatent (#278) e guidato nuovamente per la qualità finale. CFGGuider (#282), KSamplerSelect (#280), e ManualSigmas (#281) danno l'ultima parola su forza del prompt, dettaglio, e coerenza temporale, con SamplerCustomAdvanced (#308) che produce il latente AV raffinato. LTXVSeparateAVLatent (#309) consegna il video a VAEDecodeTiled (#314) per la decodifica dei frame a memoria amica e l'audio a LTXVAudioVAEDecode (#297) per la ricostruzione della forma d'onda. CreateVideo (#310) muxa frame e audio al tuo fps di destinazione, e SaveVideo (#75) scrive un file MP4/H.264.

Preprocess Immagine Quest'area instrada i modelli base VAE e upscaler in modo che il tiling e l'upscaling latente funzionino entro i limiti del tuo budget VRAM. Se si verifica una pressione di memoria, preferisci i pesi FP8 LTX‑2.3 e mantieni abilitata la decodifica tiling per mantenere throughput e qualità.

Nodi chiave nel workflow Comfyui LTX 2.3 Sulphur 2 testo a video#

LTXVConditioning (#304) Unisce il conditioning positivo e negativo del testo e attacca il frame rate di lavoro in modo che la guida temporale corrisponda al tuo render. Un linguaggio di scena forte e specifico migliora la struttura della ripresa; negativi concisi riducono gli artefatti. Vedi la scheda modello LTX‑2.3 per le note di conditioning. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) Guida dolcemente la composizione per mantenere il soggetto principale inquadrato come previsto. Usalo per proteggere la dimensione del viso, il posizionamento dell'orizzonte o un soggetto centrato prima dell'upscaling e dell'affinamento. È particolarmente utile per riprese in stile dialogo e primi piani medi.

CFGGuider (#313, #282) Controlla quanto aggressivamente il prompt influenza la traiettoria di diffusione in entrambi i passaggi. Usa il primo guidatore per fissare movimento e messa in scena, quindi il secondo per aggiungere nitidezza senza allontanarsi dalla ripresa stabilita.

ManualSigmas (#306, #281) Definisce il programma di rumore. Caricare più rumore incoraggia un'esplorazione di movimento più ampia; un programma più dolce enfatizza la coerenza temporale. Mantieni i programmi a bassa e alta risoluzione complementari piuttosto che identici.

LTXVLatentUpsampler (#287) Esegue l'upscaling latente x2 utilizzando l'upscaler ufficiale LTX in modo da guadagnare dettagli prima del sampler di affinamento. Passare a un'altra variante di upscaler LTX‑2.3 può cambiare leggermente nitidezza e grana. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) Decodifica clip lunghe o grandi in tile gestibili per evitare picchi di VRAM. Se cambi dimensione spaziale o lunghezza del clip, regola il tiling per bilanciare spazio di memoria e velocità di decodifica.

LoraLoaderModelOnly (#285) Applica il Sulphur 2 LoRA al percorso del modello base in modo che fedeltà del personaggio e suggerimenti di stile si trasferiscano in entrambe le fasi di campionamento. Usa questo per cambiare rapidamente l'aspetto mantenendo lo stesso backbone LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base

Extra opzionali#

  • Controllo del seed: imposta valori fissi in entrambi i nodi RandomNoise in modo che i take siano riproducibili; cambia un seed per esplorare alternative.
  • Prompting: scrivi i prompt come direzioni di ripresa (soggetto, fotocamera, illuminazione, umore). Mantieni la lista negativa focalizzata e breve.
  • Prestazioni: se la VRAM è limitata, preferisci i pesi FP8 LTX‑2.3 e mantieni abilitata la decodifica tiling.
  • Output: il grafico scrive MP4/H.264; cambia contenitore o codec in SaveVideo se hai bisogno di workflow proxy ProRes.

Questo workflow LTX 2.3 Sulphur 2 testo a video offre un percorso pulito e senza soluzione di continuità dal prompt al video raffinato con audio sincronizzato, costruito per iterazioni rapide sull'animazione di personaggi cinematografici.

Riconoscimenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine RunningHub per il Sulphur2 Basic Workflow for Video Production, SulphurAI per il modello Sulphur-2-base, Lightricks per i modelli LTX-2.3 e LTX-2.3-fp8, e Comfy-Org per il codificatore di testo LTX-2 per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Nota: L'uso dei modelli, dataset e codice citati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.