LTX 2.3 Sulphur T2V workflow: prompt‑a‑cine con microexpresiones, ambiente y cámara guiada#
El flujo de trabajo LTX 2.3 Sulphur T2V convierte indicaciones bien escritas en clips cinematográficos que enfatizan microexpresiones creíbles, detalle atmosférico de la escena y movimiento impulsado por la historia. Combina un pase de generación destilado LTX 2.3 con orientación de estilo Sulphur, orientación opcional de control de cámara y una ruta de decodificación estable en mosaico para resultados de texto a video confiables.
Construido para creadores que quieren ritmos de actuación fundamentados y movimiento de cámara controlable, esta configuración ComfyUI equilibra la fidelidad narrativa con la estabilidad temporal. Puedes ejecutar texto puro a video o comenzar desde una imagen fija, luego decodificar el latente estable de primer pase en una secuencia limpia y amigable para el editor con una pista de audio de marcador de posición para una edición fácil.
Modelos clave en el flujo de trabajo Comfyui LTX 2.3 Sulphur T2V#
- Lightricks LTX‑2.3 22B FP8 checkpoint. El modelo base de texto a video que impulsa la generación y decodificación. Repositorio del modelo
- LTX‑2.3 destilado LoRA. Un adaptador destilado que mantiene la calidad mientras permite un muestreo más rápido, de menor paso y movimiento estable. Familia de modelos
- LTX‑2.3 ampliador espacial x2. Incluido en el gráfico para experimentación, mientras que la ruta de exportación predeterminada utiliza la decodificación estable de primer pase para obtener resultados más limpios en esta configuración. Ampliador
- LTX‑2 19B LoRA Camera Control Dolly Left. Orientación opcional para movimiento dolly‑in estable y parallax suave cuando tu escena lo requiera. LoRA
- Codificador de texto LTX (Gemma 3 12B variantes). El modelo de tokenización y embedding que interpreta tu indicación y notas de ritmo. Codificadores de texto
- LTX audio VAE. Empaqueta una transmisión de audio en silencio para que el video resultante se cargue limpiamente en NLEs. Repositorio del modelo
- Sulphur LoRA (incluido). Un adaptador de ritmo de actuación y estilo curado para microexpresiones expresivas pero contenidas y armonía de color cinematográfica.
Cómo usar el flujo de trabajo Comfyui LTX 2.3 Sulphur T2V#
Este flujo de trabajo predetermina una ruta de texto a video de primer pase estable. Genera un latente de video coherente, separa las pistas de video y audio, decodifica el latente de video de primer pase con decodificación VAE en mosaico, luego empaqueta los fotogramas y el audio en silencio en un archivo de video listo para editar. Los nodos de ampliación y refinamiento latente permanecen en el gráfico para experimentación avanzada, pero la salida predeterminada omite esa rama por fiabilidad.
Modelo#
El grupo Modelo carga el checkpoint LTX‑2.3 FP8, el codificador de texto LTX, el audio VAE y los adaptadores utilizados a lo largo. Se aplican LoRAs destiladas y Sulphur al modelo base para que la escena se adhiera estrechamente a tus ritmos e intención facial. Si deseas movimiento dolly, habilita el LoRA de control de cámara en los nodos LoraLoader proporcionados. La ruta predeterminada alimenta al muestreador primario a través de CFGGuider (#42), mientras que la rama de refinamiento se mantiene disponible para experimentación manual.
Indicaciones#
Escribe tu escena en el campo Prompt (#29) como líneas de ritmo cortas más notas de cámara breves. El texto positivo es codificado por CLIPTextEncode (#30), mientras que una lista negativa curada en CLIPTextEncode (#41) suprime el brillo CGI, artefactos, temblores y parpadeos fuertes. Mantén la dirección de actuación concisa y específica para ojos, hombros y respiración para desbloquear las microexpresiones para las que este flujo de trabajo está afinado. El lenguaje de cámara como “dolly‑in manual lento” y “parallax suave” se mapea bien al scheduler y al LoRA de cámara opcional.
Configuración de Video#
Elige la Width, Height, Frame Rate, y Length de salida en el grupo de Configuración de Video (#40, #25, #26, #27). Internamente, el flujo de trabajo deriva un latente de media resolución para el pase de generación para mejorar la coherencia temporal, luego decodifica ese latente estable directamente. Usa Switch to Text to Video? (#28) para ejecutar T2V puro, o apágalo y alimenta una imagen inicial a través de la ruta de Preprocesamiento de Imagen para un I2V controlado. Las dimensiones deben mantenerse en múltiplos comunes para una decodificación rápida y amigable con mosaicos.
Latente Vacío#
EmptyLTXVLatentVideo (#21) crea un latente de video en blanco según tus configuraciones, y LTXVEmptyLatentAudio (#33) crea un latente de audio coincidente para que la multiplexación del contenedor sea amigable para el editor. Si deseas comenzar desde una imagen, LTXVImgToVideoInplace (#22) puede inyectarla en la línea de tiempo de latente a una strength controlable. Cuando bypass está activo, el nodo produce un inicio impulsado por texto puro.
Generar Baja Resolución#
Los latentes de audio y video se fusionan por LTXVConcatAVLatent (#32) y se cronometran por LTXVScheduler (#47), que establece un programa sigma consciente de video para un movimiento suave y viaje de cámara. CFGGuider (#42) combina tu condicionamiento positivo y negativo con la pila del modelo, y SamplerCustomAdvanced (#9) ejecuta el pase de generación primario. LTXVSeparateAVLatent (#35) luego divide el clip nuevamente en latentes de video y audio; la salida predeterminada utiliza este latente de video estable para la decodificación en mosaico.
Ampliación Latente Opcional#
LTXVLatentUpsampler (#13) aplica el ampliador espacial LTX x2 de LatentUpscaleModelLoader (#39) mientras mantiene intacta la estructura temporal. LTXVImgToVideoInplace (#14) envuelve nuevamente el latente de video ampliado junto con la pista de audio existente. Esta rama permanece disponible si deseas experimentar con refinamiento de mayor resolución, pero no está conectada a la salida final predeterminada.
Refinamiento Opcional#
La rama de refinamiento utiliza CFGGuider (#8) y SamplerCustomAdvanced (#36) con un programa sigma corto y manual. Es útil para usuarios avanzados que desean probar la ruta de alta resolución, pero la salida del flujo de trabajo predeterminada omite esta rama porque la decodificación en mosaico de primer pase estable ofrece resultados más limpios en la configuración RunComfy proporcionada.
Salida#
VAEDecodeTiled (#43) decodifica el latente de video estable de LTXVSeparateAVLatent (#35), y LTXVAudioVAEDecode (#23) produce una pista silenciosa que mantiene contentos a los editores. CreateVideo (#38) ensambla la secuencia a tu fps elegido, y SaveVideo (#45) la escribe en el disco. Obtienes un video listo para compartir con movimiento estable, degradados limpios y flujo de cámara controlado.
Nodos clave en el flujo de trabajo Comfyui LTX 2.3 Sulphur T2V#
LTXVScheduler (#47)#
Orquesta la secuencia sigma consciente de video para el primer pase. Sus controles de cambio influyen en cuán fuertemente se acumula el movimiento entre fotogramas; cambios más altos enfatizan el viaje de la cámara y el movimiento del sujeto más rápido, mientras que valores más bajos favorecen un encuadre más estable. Si habilitas un LoRA de control de cámara, los cambios modestos se combinan mejor para evitar un deslizamiento exagerado.
LTXVCropGuides (#10)#
Genera canales de condicionamiento conscientes del recorte a partir de tu texto para que las regiones importantes, especialmente las caras, se resuelvan con mayor fidelidad. Úsalo para dirigir microexpresiones y detalle de ojos sin sobrecargar el muestreador global. Si los primeros planos se ven suaves, ajusta tus ritmos de actuación y deja que Crop Guides haga el ajuste fino.
LTXVImgToVideoInplace (#22, #14)#
Transforma una imagen fija en un latente temporalmente consistente o envuelve nuevamente un latente ampliado para refinamiento opcional. El control strength establece cuánto de la imagen fuente se preserva a lo largo de la línea de tiempo; valores más bajos permiten más adaptación generativa, valores más altos mantienen el encuadre y la identidad bloqueados. Alterna bypass para cambiar limpiamente entre I2V y T2V puro.
LTXVLatentUpsampler (#13)#
Aplica el ampliador espacial LTX x2 en latente para levantar textura y bordes para experimentos de refinamiento opcional. La ruta de exportación predeterminada no depende de este nodo, por lo que puedes comparar la salida de primer pase estable contra la rama de refinamiento sin cambiar la cadena de salida principal.
CFGGuider (#42, #8) y KSamplerSelect (#17, #6)#
Estos pares definen cuán estrictamente el modelo sigue tu texto y cuán agresivamente muestrea. Mantén la guía conservadora para el realismo del video; elevarla puede aumentar la adherencia a la indicación pero puede endurecer el movimiento o añadir parpadeo. La exportación predeterminada depende del muestreador primario para un movimiento estable, mientras que el muestreador secundario se reserva para pruebas de refinamiento opcional.
Extras opcionales#
- Escribe de 3 a 6 ritmos que describan intención y lenguaje corporal en lugar de trama; las microexpresiones emergen de indicaciones específicas como “ojos suavizan” o “hombros se relajan.”
- Mantén el lenguaje de cámara compacto: un verbo de movimiento más un sujeto, por ejemplo “dolly‑in lento en su rostro” o “parallax suave desde coches estacionados.”
- Si deseas un encuadre estático, desactiva el LoRA de control de cámara y reduce ligeramente los cambios del scheduler; para más recorrido, habilita el LoRA y aumenta el cambio modestamente.
- Usa ancho y alto que sean múltiplos limpios de 32 para una decodificación predecible en mosaico.
- Para reproducibilidad, bloquea semillas en
RandomNoise(#2, #1); cambia solo una semilla al explorar variaciones. - La indicación negativa ya suprime artefactos CGI y parpadeo; mantenla enfocada y deja que tu texto positivo lleve estilo e intención.
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a RunningHub por la referencia del flujo de trabajo, a Lightricks por el modelo LTX 2.3, LoRA destilado y ampliador espacial, y LoRA de control de cámara, y a Comfy-Org por el codificador de texto LTX por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos#
- RunningHub/Referencia de Flujo de Trabajo
- Documentos / Notas de Lanzamiento: Publicación
- Lightricks/LTX-2.3-fp8
- Hugging Face: Lightricks/LTX-2.3-fp8
- Lightricks/LTX-2.3
- Hugging Face: Lightricks/LTX-2.3
- Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.


