LTX 2.3 Sulphur 2 testo a video workflow per animazione di personaggi cinematografici#
Questa pipeline ComfyUI trasforma i prompt in linguaggio naturale in brevi video cinematografici, incentrati sui personaggi, con audio opzionale, costruiti attorno ai componenti Lightricks LTX‑2.3 e Sulphur 2. Genera in bassa risoluzione per la pianificazione del movimento, scala la sequenza latente, quindi affina ad alta risoluzione prima di decodificare in frame e muxare una traccia audio sincronizzata.
Il workflow LTX 2.3 Sulphur 2 testo a video è ideale per test rapidi di animazione di personaggi, concetti di movimento in stile D‑Human, ed esperimenti di testo a video raffinati. Non si basa su input immagine a video o relè di prompt; tutto parte dal testo, con il conditioning LTXV che guida sia i latenti video che audio da un capo all'altro.
Modelli chiave nel workflow Comfyui LTX 2.3 Sulphur 2 testo a video#
- Lightricks LTX‑2.3. Generatore di testo a video principale utilizzato per la sintesi spaziotemporale e latenti AV multimodali. Vedere il repository ufficiale del modello per i pesi e le note su capacità e limitazioni. Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 checkpoint. Variante a memoria efficiente di LTX‑2.3 che accelera l'inferenza e consente clip più lunghe o risoluzioni più alte su GPU limitate. Hugging Face: Lightricks/LTX-2.3-fp8
- Modello base Sulphur 2. Fornisce priorità di stile e dettagli dei personaggi tramite LoRA in questo workflow, aiutando a ottenere volti nitidi e tonalità cinematografiche. Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 Spatial Upscaler x2 1.1. Upscaler nello spazio latente che aumenta i dettagli spaziali prima del passaggio di affinamento ad alta risoluzione. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- Codificatore di testo LTX (Gemma 3 12B IT confezionato per LTX). Fornisce lo spazio di embedding del testo abbinato al conditioning LTX‑2.3 per un fedele seguito del prompt. Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE. Decodifica il latente audio generato insieme al video in modo che il render finale possa includere una colonna sonora sincronizzata. Hugging Face: Lightricks/LTX-2.3
Come utilizzare il workflow Comfyui LTX 2.3 Sulphur 2 testo a video#
Logica generale La pipeline si svolge in tre atti: generazione a bassa risoluzione per stabilire movimento e composizione, upscaling latente per aumentare i dettagli spaziali, e un passaggio di affinamento ad alta risoluzione che produce anche l'audio finale. I latenti vengono decodificati in frame e forma d'onda, quindi muxati in un contenitore MP4 pronto per la consegna.
Impostazioni video Usa il gruppo "Video Settings" per definire larghezza, altezza, frame rate e durata. Il conteggio dei frame è calcolato automaticamente dalla tua durata e fps in modo che tempi e cadenza rimangano coerenti. Questi valori guidano l'allocazione e la decodifica dei latenti, quindi impostali prima in modo che corrispondano al tuo rapporto d'aspetto e runtime di destinazione. Regolare l'fps qui informa anche il conditioning in modo che la fluidità del movimento e l'allineamento audio utilizzino lo stesso orologio.
Prompt In "Prompt", carica il codificatore di testo LTX con LTXAVTextEncoderLoader (#316), quindi scrivi la tua descrizione positiva in CLIPTextEncode (#303) e qualsiasi tratto indesiderato in CLIPTextEncode (#312). Il nodo LTXVConditioning (#304) unisce il conditioning positivo e negativo e aggiunge il frame rate scelto in modo che la guida temporale corrisponda al tuo fps. Tratta il prompt positivo come un brief di ripresa: soggetto, fotocamera, illuminazione, umore e suggerimenti di stile. Mantieni la lista negativa focalizzata sugli artefatti che vedi regolarmente e vuoi rimuovere.
Modello Il gruppo "Model" carica il checkpoint principale tramite CheckpointLoaderSimple (#315) e applica un Sulphur 2 LoRA con LoraLoaderModelOnly (#285) per infondere texture cinematografiche e fedeltà del personaggio. Qui puoi scambiare checkpoint o LoRA per cambiare l'aspetto complessivo e le priorità di movimento. L'output del modello è instradato sia ai guidatori iniziali che di affinamento in modo che stile e identità siano coerenti tra i passaggi. L'abbinamento di LTX‑2.3 con Sulphur 2 produce contrasti vivaci e volti dettagliati che si leggono bene in movimento.
Conversione numerica Espressioni di utilità convertono il tuo fps e i secondi nel conteggio dei frame interi utilizzato a valle. Questo mantiene le linee temporali audio e video allineate senza calcoli manuali. Se in seguito modifichi fps o durata, il grafico aggiorna automaticamente i nodi dipendenti.
Latente Vuoto "Empty Latent" crea contenitori allineati per la generazione: EmptyLTXVLatentVideo (#295) definisce la dimensione spaziale e la lunghezza del latente video, LTXVEmptyLatentAudio (#305) assegna il latente audio allo stesso frame rate, e LTXVConcatAVLatent (#321) li unisce in un singolo latente AV. Partire da latenti vuoti assicura che il passaggio di diffusione rifletta completamente il tuo prompt e conditioning piuttosto che qualsiasi contenuto preesistente.
Genera Bassa Risoluzione La prima fase di campionamento stabilisce movimento e composizione a costo inferiore. CFGGuider (#313), KSamplerSelect (#291), e ManualSigmas (#306) governano quanto fortemente il prompt guida la generazione e il programma di rumore complessivo. SamplerCustomAdvanced (#283) quindi denoises il latente AV in un clip coerente. Il risultato è suddiviso da LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) affina l'attenzione spaziale in modo che l'inquadratura del soggetto che desideri sia preservata durante l'upscaling successivo.
Upscale Latente LTXVLatentUpsampler (#287) utilizza l'upscaler LTX‑2.3 x2 per sollevare i dettagli spaziali rimanendo nello spazio latente per velocità e stabilità. Alimentare il latente video upscalato in avanti migliora la texture e la leggibilità prima dell'affinamento ad alta risoluzione. Questo preserva il movimento che hai apprezzato dal primo passaggio aprendo spazio per bordi più nitidi e materiali più ricchi.
Genera Alta Risoluzione Il latente video upscalato è riunito con il latente audio in LTXVConcatAVLatent (#278) e guidato nuovamente per la qualità finale. CFGGuider (#282), KSamplerSelect (#280), e ManualSigmas (#281) danno l'ultima parola su forza del prompt, dettaglio, e coerenza temporale, con SamplerCustomAdvanced (#308) che produce il latente AV raffinato. LTXVSeparateAVLatent (#309) consegna il video a VAEDecodeTiled (#314) per la decodifica dei frame a memoria amica e l'audio a LTXVAudioVAEDecode (#297) per la ricostruzione della forma d'onda. CreateVideo (#310) muxa frame e audio al tuo fps di destinazione, e SaveVideo (#75) scrive un file MP4/H.264.
Preprocess Immagine Quest'area instrada i modelli base VAE e upscaler in modo che il tiling e l'upscaling latente funzionino entro i limiti del tuo budget VRAM. Se si verifica una pressione di memoria, preferisci i pesi FP8 LTX‑2.3 e mantieni abilitata la decodifica tiling per mantenere throughput e qualità.
Nodi chiave nel workflow Comfyui LTX 2.3 Sulphur 2 testo a video#
LTXVConditioning (#304) Unisce il conditioning positivo e negativo del testo e attacca il frame rate di lavoro in modo che la guida temporale corrisponda al tuo render. Un linguaggio di scena forte e specifico migliora la struttura della ripresa; negativi concisi riducono gli artefatti. Vedi la scheda modello LTX‑2.3 per le note di conditioning. Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) Guida dolcemente la composizione per mantenere il soggetto principale inquadrato come previsto. Usalo per proteggere la dimensione del viso, il posizionamento dell'orizzonte o un soggetto centrato prima dell'upscaling e dell'affinamento. È particolarmente utile per riprese in stile dialogo e primi piani medi.
CFGGuider (#313, #282) Controlla quanto aggressivamente il prompt influenza la traiettoria di diffusione in entrambi i passaggi. Usa il primo guidatore per fissare movimento e messa in scena, quindi il secondo per aggiungere nitidezza senza allontanarsi dalla ripresa stabilita.
ManualSigmas (#306, #281) Definisce il programma di rumore. Caricare più rumore incoraggia un'esplorazione di movimento più ampia; un programma più dolce enfatizza la coerenza temporale. Mantieni i programmi a bassa e alta risoluzione complementari piuttosto che identici.
LTXVLatentUpsampler (#287) Esegue l'upscaling latente x2 utilizzando l'upscaler ufficiale LTX in modo da guadagnare dettagli prima del sampler di affinamento. Passare a un'altra variante di upscaler LTX‑2.3 può cambiare leggermente nitidezza e grana. Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) Decodifica clip lunghe o grandi in tile gestibili per evitare picchi di VRAM. Se cambi dimensione spaziale o lunghezza del clip, regola il tiling per bilanciare spazio di memoria e velocità di decodifica.
LoraLoaderModelOnly (#285) Applica il Sulphur 2 LoRA al percorso del modello base in modo che fedeltà del personaggio e suggerimenti di stile si trasferiscano in entrambe le fasi di campionamento. Usa questo per cambiare rapidamente l'aspetto mantenendo lo stesso backbone LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base
Extra opzionali#
- Controllo del seed: imposta valori fissi in entrambi i nodi
RandomNoisein modo che i take siano riproducibili; cambia un seed per esplorare alternative. - Prompting: scrivi i prompt come direzioni di ripresa (soggetto, fotocamera, illuminazione, umore). Mantieni la lista negativa focalizzata e breve.
- Prestazioni: se la VRAM è limitata, preferisci i pesi FP8 LTX‑2.3 e mantieni abilitata la decodifica tiling.
- Output: il grafico scrive MP4/H.264; cambia contenitore o codec in
SaveVideose hai bisogno di workflow proxy ProRes.
Questo workflow LTX 2.3 Sulphur 2 testo a video offre un percorso pulito e senza soluzione di continuità dal prompt al video raffinato con audio sincronizzato, costruito per iterazioni rapide sull'animazione di personaggi cinematografici.
Riconoscimenti#
Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine RunningHub per il Sulphur2 Basic Workflow for Video Production, SulphurAI per il modello Sulphur-2-base, Lightricks per i modelli LTX-2.3 e LTX-2.3-fp8, e Comfy-Org per il codificatore di testo LTX-2 per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- Documenti / Note di rilascio: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Nota: L'uso dei modelli, dataset e codice citati è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.


