LTX 2.3 Sulphur 2 flujo de trabajo de texto a video en ComfyUI

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Workflow

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Examples

LTX 2.3 Sulphur 2 flujo de trabajo de texto a video para animación de personajes cinematográficos#

Esta tubería de ComfyUI convierte indicaciones de lenguaje natural en videos cortos, cinematográficos y centrados en personajes con audio opcional, construido alrededor de los componentes Lightricks LTX-2.3 y Sulphur 2. Genera en baja resolución para la planificación del movimiento, escala la secuencia latente, luego refina en alta resolución antes de decodificar a fotogramas y mezclar una pista de audio sincronizada.

El flujo de trabajo de texto a video LTX 2.3 Sulphur 2 es ideal para pruebas rápidas de animación de personajes, conceptos de movimiento estilo D-Human y experimentos de texto a video pulidos. No depende de entradas de imagen a video o relés de indicaciones; todo comienza desde el texto, con el condicionamiento LTXV guiando tanto los latentes de video como de audio de principio a fin.

Modelos clave en el flujo de trabajo de texto a video LTX 2.3 Sulphur 2 de Comfyui#

Lightricks LTX-2.3. Generador de texto a video central utilizado para síntesis espaciotemporal y latentes AV multimodales. Consulta el repositorio oficial del modelo para obtener pesos y notas sobre capacidades y limitaciones. Hugging Face: Lightricks/LTX-2.3
Punto de control Lightricks LTX-2.3 FP8. Variante eficiente en memoria de LTX-2.3 que acelera la inferencia y permite clips más largos o resoluciones más altas en GPUs con limitaciones. Hugging Face: Lightricks/LTX-2.3-fp8
Modelo base Sulphur 2. Proporciona priors de estilo y detalle de personajes a través de LoRA en este flujo de trabajo, ayudando a lograr rostros nítidos y tonalidad cinematográfica. Hugging Face: SulphurAI/Sulphur-2-base
LTX-2.3 Aumentador Espacial x2 1.1. Aumentador de espacio latente que incrementa el detalle espacial antes del paso de refinamiento de alta resolución. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
Codificador de texto LTX (Gemma 3 12B IT empaquetado para LTX). Suministra el espacio de incrustación de texto emparejado con el condicionamiento LTX-2.3 para un seguimiento fiel de las indicaciones. Hugging Face: Comfy-Org/ltx-2
LTX Audio VAE. Decodifica el latente de audio generado junto con el video para que el render final pueda incluir una banda sonora sincronizada. Hugging Face: Lightricks/LTX-2.3

Cómo usar el flujo de trabajo de texto a video LTX 2.3 Sulphur 2 de Comfyui#

Lógica general La tubería se ejecuta en tres actos: generación de baja resolución para establecer movimiento y composición, aumento de latentes para incrementar el detalle espacial, y un paso de refinamiento de alta resolución que también produce el audio final. Los latentes se decodifican en fotogramas y forma de onda, luego se mezclan en un contenedor MP4 listo para entrega.

Configuración de Video Usa el grupo “Configuración de Video” para definir ancho, altura, tasa de fotogramas y duración. El recuento de fotogramas se calcula automáticamente a partir de tu duración y fps para que el tiempo y el ritmo se mantengan consistentes. Estos valores impulsan la asignación y decodificación de latentes, así que configúralos primero para que coincidan con tu relación de aspecto y tiempo de ejecución objetivo. Ajustar fps aquí también informa al condicionamiento para que la suavidad del movimiento y la alineación del audio usen el mismo reloj.

Indicaciones En “Indicaciones,” carga el codificador de texto LTX con LTXAVTextEncoderLoader (#316), luego escribe tu descripción positiva en CLIPTextEncode (#303) y cualquier rasgo no deseado en CLIPTextEncode (#312). El nodo LTXVConditioning (#304) fusiona el condicionamiento positivo y negativo y agrega la tasa de fotogramas elegida para que la guía temporal coincida con tu fps. Trata la indicación positiva como un breve de toma: sujeto, cámara, iluminación, estado de ánimo y estilo. Mantén la lista negativa enfocada en artefactos que veas regularmente y quieras eliminar.

Modelo El grupo “Modelo” carga el punto de control principal a través de CheckpointLoaderSimple (#315) y aplica un LoRA Sulphur 2 con LoraLoaderModelOnly (#285) para infundir textura cinematográfica y fidelidad de personajes. Aquí es donde puedes cambiar puntos de control o LoRAs para cambiar el aspecto general y los priors de movimiento. La salida del modelo se enruta tanto a los guías iniciales como de refinamiento para que el estilo y la identidad sean consistentes en todos los pasos. Emparejar LTX-2.3 con Sulphur 2 produce un contraste contundente y rostros detallados que se leen bien en movimiento.

Conversión de números Las expresiones utilitarias convierten tu fps y segundos en el recuento de fotogramas enteros utilizado aguas abajo. Esto mantiene las líneas de tiempo de audio y video alineadas sin matemáticas manuales. Si revisas fps o duración más tarde, el gráfico actualiza automáticamente los nodos dependientes.

Latente Vacío “Latente Vacío” crea contenedores alineados para la generación: EmptyLTXVLatentVideo (#295) define el tamaño espacial y la longitud del latente de video, LTXVEmptyLatentAudio (#305) asigna el latente de audio a la misma tasa de fotogramas, y LTXVConcatAVLatent (#321) los fusiona en un solo latente AV. Comenzar desde latentes vacíos asegura que el paso de difusión refleje completamente tu indicación y condicionamiento en lugar de cualquier contenido preexistente.

Generar Baja Resolución La primera etapa de muestreo establece movimiento y composición a menor costo. CFGGuider (#313), KSamplerSelect (#291), y ManualSigmas (#306) gobiernan qué tan fuertemente la indicación dirige la generación y el programa de ruido general. SamplerCustomAdvanced (#283) luego desruida el latente AV a un clip coherente. El resultado se divide por LTXVSeparateAVLatent (#307), y LTXVCropGuides (#284) refina la atención espacial para que el encuadre del sujeto que deseas se preserve durante la ampliación posterior.

Ampliación Latente LTXVLatentUpsampler (#287) usa el aumentador x2 LTX-2.3 para elevar el detalle espacial mientras permanece en el espacio latente para velocidad y estabilidad. Alimentar el latente de video ampliado hacia adelante mejora la textura y la legibilidad antes del refinamiento de alta resolución. Esto preserva el movimiento que te gustó del primer paso mientras abre espacio para bordes más nítidos y materiales más ricos.

Generar Alta Resolución El latente de video ampliado se reúne con el latente de audio en LTXVConcatAVLatent (#278) y se guía nuevamente para calidad final. CFGGuider (#282), KSamplerSelect (#280), y ManualSigmas (#281) dan la última palabra sobre la fuerza de la indicación, el detalle y la coherencia temporal, con SamplerCustomAdvanced (#308) produciendo el latente AV refinado. LTXVSeparateAVLatent (#309) entrega el video a VAEDecodeTiled (#314) para decodificación de fotogramas compatible con la memoria y el audio a LTXVAudioVAEDecode (#297) para reconstrucción de forma de onda. CreateVideo (#310) mezcla fotogramas y audio a tu fps objetivo, y SaveVideo (#75) escribe un archivo MP4/H.264.

Preprocesamiento de Imagen Esta área enruta los modelos base VAE y aumentador para que el mosaico y la ampliación latente funcionen dentro de tu presupuesto de VRAM. Si experimentas presión de memoria, favorece los pesos FP8 LTX-2.3 y mantén habilitada la decodificación en mosaico para mantener el rendimiento y la calidad.

Nodos clave en el flujo de trabajo de texto a video LTX 2.3 Sulphur 2 de Comfyui#

LTXVConditioning (#304) Fusiona el condicionamiento de texto positivo y negativo y adjunta la tasa de fotogramas de trabajo para que la guía temporal coincida con tu render. Un lenguaje de escena fuerte y específico mejora la estructura de la toma; negativos concisos reducen los artefactos. Consulta la tarjeta del modelo LTX-2.3 para notas de condicionamiento. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) Dirige suavemente la composición para mantener al sujeto principal encuadrado como se pretende. Úsalo para proteger el tamaño del rostro, la colocación del horizonte o un sujeto centrado antes de la ampliación y el refinamiento. Es especialmente útil para tomas estilo diálogo y primeros planos medios.

CFGGuider (#313, #282) Controla qué tan agresivamente la indicación influye en la trayectoria de difusión en ambos pasos. Usa el primer guía para bloquear el movimiento y la puesta en escena, luego el segundo para agregar nitidez sin alejarse de la toma establecida.

ManualSigmas (#306, #281) Define el programa de ruido. Cargar más ruido al principio fomenta una mayor exploración de movimiento; un programa más suave enfatiza la consistencia temporal. Mantén los programas de baja y alta resolución complementarios en lugar de idénticos.

LTXVLatentUpsampler (#287) Realiza una ampliación latente x2 usando el aumentador oficial LTX para que ganes detalle antes del muestreador de refinamiento. Cambiar a otra variante de aumentador LTX-2.3 puede cambiar ligeramente la nitidez y el grano. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) Decodifica clips largos o grandes en mosaicos manejables para evitar picos de VRAM. Si cambias el tamaño espacial o la longitud del clip, ajusta el mosaico para equilibrar el margen de memoria y la velocidad de decodificación.

LoraLoaderModelOnly (#285) Aplica el LoRA Sulphur 2 a la ruta del modelo base para que la fidelidad de los personajes y las pistas de estilo se transfieran a ambas etapas de muestreo. Usa esto para cambiar rápidamente de aspecto manteniendo la misma base LTX-2.3. Hugging Face: SulphurAI/Sulphur-2-base

Extras opcionales#

Control de semillas: establece valores fijos en ambos nodos RandomNoise para que las tomas sean reproducibles; cambia una semilla para explorar alternativas.
Indicaciones: escribe indicaciones como direcciones de toma (sujeto, cámara, iluminación, estado de ánimo). Mantén la lista negativa enfocada y corta.
Rendimiento: si el VRAM es limitado, prefiere los pesos FP8 LTX-2.3 y mantén habilitada la decodificación en mosaico.
Salida: el gráfico escribe MP4/H.264; cambia el contenedor o códec en SaveVideo si necesitas flujos de trabajo de proxy ProRes.

Este flujo de trabajo de texto a video LTX 2.3 Sulphur 2 ofrece un camino limpio y de extremo a extremo desde la indicación hasta el video pulido con audio sincronizado, construido para iteración rápida en animación de personajes cinematográficos.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a RunningHub por el Flujo de Trabajo Básico Sulphur2 para Producción de Video, SulphurAI por el modelo Sulphur-2-base, Lightricks por los modelos LTX-2.3 y LTX-2.3-fp8, y Comfy-Org por el codificador de texto LTX-2 por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

RunningHub/Sulphur2 Basic Workflow for Video Production
- Documentos / Notas de Lanzamiento: Sulphur2 Basic Workflow for Video Production
SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

LTX 2.3 Sulphur 2 Prompt Relay Workflow | Creador de Videos Cinematográficos

Convierte imágenes fijas en videos cinematográficos controlados por movimiento al instante.

LTX-2 ControlNet | Generador de Video de Precisión

Control agudo, sincronización perfecta, creación de video AI super clara.

LTX-2 Primer Último Fotograma | Generador de Video de Fotogramas Clave

Convierte fotogramas estáticos en transiciones de video y sonido sin interrupciones rápidamente.

Flujo de Trabajo de LTX 2.3 Movie Builder | Generador de Películas con IA

Convierte indicaciones en historias cinematográficas completas con control creativo total.

LTX 2.3 Imagen a Video | Creador de Movimiento Cinematográfico

Convierte imágenes en videos realistas y cinematográficos con un movimiento suave y consistente.

Dilatación de Máscara Audioreactiva | Animaciones Impresionantes

Transforma tus sujetos y dales auras pulsantes impulsadas por la música que bailan al ritmo.

Cosmos-Predict2 | Text2Image & Video2World

¡Rápido y real! NVIDIA Cosmos con física verdadera.

Hallo2 | Animación de Retrato de Sincronización Labial

Sincronización labial impulsada por audio para animación de retratos en 4K.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

LTX 2.3 Sulphur 2 flujo de trabajo de texto a video | Generador Cinematográfico