Flujo de trabajo LTX 2.3 Sulphur 2 Prompt Relay: secuenciación de micro‑acciones de imagen a video en ComfyUI#
Este flujo de trabajo de ComfyUI convierte una sola imagen de referencia más una indicación de movimiento segmentada en un clip corto cinematográfico. Combina la generación de video destilado LTX‑2.3 con un LoRA de movimiento Sulphur 2 y codificación inteligente de Prompt Relay, para que puedas describir micro‑acciones como una secuencia en lugar de depender de una sola indicación plana. El gráfico está precableado para latentes de audio sincronizados, un ejemplo validado de imagen a video en una calle lluviosa, y entradas/salidas normalizadas para reproducción directa en la nube.
Usa este flujo de trabajo LTX 2.3 Sulphur 2 Prompt Relay cuando quieras un anclaje visual fuerte a un marco de referencia y un movimiento controlado que se despliega paso a paso. Cineastas, editores y diseñadores de movimiento pueden organizar "beats" como "camina bajo la lluvia | se cepilla el cabello | gira y saluda | sale" y obtener movimiento coherente y encuadre en todo el tiro.
Modelos clave en el flujo de trabajo LTX 2.3 Sulphur 2 Prompt Relay de ComfyUI#
- Modelo de fundación audio‑visual LTX‑2.3 (destilado, solo transformador). Genera video y tokens de audio sincronizados en un solo paso de difusión; este flujo de trabajo utiliza la variante destilada 22B empaquetada para ComfyUI. Pesos: Lightricks/LTX‑2.3 y nodos/utilidades: Lightricks/ComfyUI‑LTXVideo. Ver también el trasfondo de investigación en LTX‑Video y el artículo LTX‑Video: Realtime Video Latent Diffusion.
- Par VAE de video LTX‑Video (VAE de video + VAE de audio). Codifica/decodifica cuadros de video latentes y la secuencia de audio utilizada para la alineación temporal. Archivos VAE preconstruidos adecuados para ComfyUI están disponibles en los paquetes LTX‑2.3, por ejemplo, Kijai/LTX2.3_comfy y el repositorio oficial ComfyUI‑LTXVideo.
- Codificador de texto basado en Gemma y proyección de texto LTX. Proporciona comprensión de indicaciones de contexto largo para LTX‑2.3 a través de codificadores estilo CLIP y una capa de proyección específica del modelo empaquetada con la integración LTX. Ver codificador y configuraciones en ComfyUI‑LTXVideo.
- LoRA de movimiento Sulphur 2 (opcional). Un ajuste fino cargado como un LoRA para sesgar el ritmo del movimiento y la continuidad para imagen a video. Se combina bien con Prompt Relay cuando se desea un control explícito de beat a beat.
Cómo usar el flujo de trabajo LTX 2.3 Sulphur 2 Prompt Relay de ComfyUI#
El flujo de trabajo sigue un camino claro desde la imagen de referencia hasta la configuración latente, el modelo y los LoRAs, la secuenciación de indicaciones, el muestreo, luego decodificar y exportar. Reemplaza las entradas de demostración con las tuyas y concéntrate en los pocos controles destacados a continuación.
- Imagen de referencia y dimensionamiento
LoadImage(#620) te permite elegir la imagen ancla. El siguiente nodo,ImageScaleByAspectRatio V2(#621), la ajusta al lienzo de trabajo mientras mantiene la composición estable.LTXVPreprocess(#586) aplica preprocesamiento amigable con LTX para que el primer cuadro fije el sujeto, la iluminación y la paleta. Usa una referencia limpia y bien iluminada que ya coincida con el encuadre deseado.
- Configuración latente (video + audio)
EmptyLTXVLatentVideo(#577) define el tamaño del lienzo y la longitud del tiro.Get_video_vae(#583) yLTXVImgToVideoInplaceKJ(#617) inyectan la imagen fija de referencia directamente en el video latente para que la apariencia se mantenga consistente desde el primer cuadro. En paralelo,Get_audio_vae(#576) conLTXVEmptyLatentAudio(#547) crea un latente de audio sincronizado (silencioso por defecto) para mantener la alineación temporal.LTXVConcatAVLatent(#548) fusiona ambas secuencias para una difusión unificada.
- Carga de modelos y control de movimiento
UNETLoader(#632) carga el transformador destilado LTX‑2.3. La pila LoRA agrega comportamiento:LoraLoaderModelOnly(#630) aplica un ayudante LTX destilado,LoraLoaderModelOnly(#628) carga el LoRA de movimiento Sulphur 2, yLoraLoaderModelOnly(#606) puede agregar un estabilizador I2V.PathchSageAttentionKJ(#542) parchea la atención para rendimiento/consistencia. Juntos, estos nodos determinan cuán fuertemente tus indicaciones dirigen el movimiento versus preservar la referencia.
- Secuenciación de indicaciones con Prompt Relay
DualCLIPLoader(#416) carga el codificador de texto.PromptRelaySmartEncode(#610) acepta unglobal_promptpara detalles persistentes y unsmart_promptpara la secuencia de acción. Usa segmentos separados por tuberías como “mujer camina bajo la lluvia | se cepilla el cabello | gira y saluda | camina hacia la distancia,” o usa encabezados de bloque como “Escena 1: … Escena 2: …” para ponderar el tiempo en pantalla. El nodo distribuye automáticamente el tiempo a través de los segmentos, para que puedas escribir beats en lugar de contar cuadros. Ver referencia de sintaxis en ComfyUI‑PromptRelay.
- Condicionamiento y velocidad de fotogramas
LTXVConditioning(#164) recibe la salida de Prompt Relay para guía positiva y una línea base negativa mínima (ConditioningZeroOut, #420). También establece la velocidad de fotogramas objetivo para el tiro, que los nodos posteriores usan para mantener la sincronización con el peso de tus segmentos.
- Muestreador y vista previa
BasicScheduler(#514) da forma al programa de ruido;KSamplerSelect(#154) elige el muestreador.VisualizeSigmasKJ(#358) previsualiza el programa para que puedas ver cómo progresará la curva de desruido.LTX2SamplingPreviewOverride(#588) permite vistas previas receptivas mientras se difunde.SamplerCustom(#561) ejecuta la difusión unificada de audio-video utilizando tu latente AV, indicaciones, LoRAs y programa.
- Decodificar y exportar
LTXVSeparateAVLatent(#549) divide el latente AV final.VAEDecode(#471) produce cuadros;LTXVAudioVAEDecode(#550) decodifica el latente de audio.VHS_VideoCombine(#604) mezcla cuadros y audio en un MP4 H.264 con formato estándar yuv420p, listo para reproducción y edición.
Nodos clave en el flujo de trabajo LTX 2.3 Sulphur 2 Prompt Relay de ComfyUI#
PromptRelaySmartEncode(#610)- Propósito: Traduce tu "smart prompt" beat‑por‑beat en un condicionamiento de texto con el momento adecuado para todo el clip. Usa
global_promptpara detalles inmutables (estilo, sujeto, iluminación) ysmart_promptpara la secuencia de acción. Se admiten dos estilos de autoría: segmentos en línea separados por|con etiquetas proporcionales opcionales como[0-50], o encabezados de bloque como “Escena 1:” que ponderan los segmentos por rango. Mantén una sintaxis por indicación para evitar ambigüedades. Referencia: ComfyUI‑PromptRelay.
- Propósito: Traduce tu "smart prompt" beat‑por‑beat en un condicionamiento de texto con el momento adecuado para todo el clip. Usa
LTXVImgToVideoInplaceKJ(#617)- Propósito: Bloquea la apariencia del primer cuadro y la propaga suavemente a través del movimiento. Si la identidad o el vestuario se desvía, aumenta su adherencia a la imagen; si el movimiento parece restringido, redúcelo para permitir más dinámica. Equilibra esto con la fuerza de tu LoRA Sulphur 2 para que la referencia permanezca estable sin congelar demasiado el movimiento.
LoraLoaderModelOnly(#628) — LoRA de movimiento Sulphur 2- Propósito: Inyecta el ajuste fino Sulphur 2 para sesgar la continuidad del movimiento, la suavidad de la trayectoria y la puesta en escena de la acción. Aumenta
strength_modelpara enfatizar el movimiento guiado a través de los segmentos; redúcelo si ves exceso de restricción o patrones repetidos. Ajusta en conjunto con la fuerza deImgToVideoInplacepara mantener la fidelidad del sujeto y la energía del movimiento en armonía.
- Propósito: Inyecta el ajuste fino Sulphur 2 para sesgar la continuidad del movimiento, la suavidad de la trayectoria y la puesta en escena de la acción. Aumenta
LTXVConditioning(#164)- Propósito: Consolida el condicionamiento positivo/negativo para LTX‑2.3 y establece la velocidad de fotogramas del clip. Si alargas el tiro, revisa tus pesos de segmento de Prompt Relay para que la sincronización relativa aún coincida con los beats previstos.
SamplerCustom(#561)- Propósito: Ejecuta el paso de desruido utilizando tu muestreador y programa elegidos. Si el movimiento es inestable, prueba un programa ligeramente más suave o un muestreador conocido por la estabilidad temporal; si las indicaciones son insuficientes, aumenta modestamente la guía mientras observas por saturación excesiva. Usa
VisualizeSigmasKJpara verificar la forma del programa antes de ejecuciones largas.
- Propósito: Ejecuta el paso de desruido utilizando tu muestreador y programa elegidos. Si el movimiento es inestable, prueba un programa ligeramente más suave o un muestreador conocido por la estabilidad temporal; si las indicaciones son insuficientes, aumenta modestamente la guía mientras observas por saturación excesiva. Usa
Extras opcionales#
- Escribir micro‑acciones efectivas con Prompt Relay
- Estilo en línea: “camina bajo la lluvia | se cepilla el cabello | gira y saluda | sale.” Para dar más tiempo a una acción, agrega una etiqueta de peso como “[0-200]” vs “[200-260]”; solo importa el intervalo.
- Estilo de bloque: Usa encabezados como “Escena 1:” y “Escena 2-4:” en sus propias líneas. El rango en el encabezado establece la duración relativa, y los encabezados se eliminan antes de la tokenización.
- Solución rápida de problemas
- Desviación de identidad: aumenta la adherencia a la imagen en
LTXVImgToVideoInplaceKJo reducestrength_modelde Sulphur 2. - Movimiento demasiado lento/rápido: reajusta los intervalos de segmentos en la indicación inteligente para que los beats importantes tengan más o menos tiempo.
- Parpadeo o artefactos: prueba un muestreador y programa más estables, o aumenta ligeramente la guía; mantén un ojo en el exceso de nitidez.
- Desviación de identidad: aumenta la adherencia a la imagen en
- Referencias útiles
- Pesos y documentos del modelo LTX‑2.3: Hugging Face: Lightricks/LTX‑2.3
- Nodos y flujos de ejemplo de ComfyUI: Lightricks/ComfyUI‑LTXVideo
- Sintaxis y ejemplos de Prompt Relay: kijai/ComfyUI‑PromptRelay
- Ayudantes amigables con LTX utilizados en este gráfico: kijai/ComfyUI‑KJNodes
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Lightricks por LTX-Video, a Kijai por el nodo ComfyUI-PromptRelay y los ayudantes ComfyUI-KJNodes, y a RunningHub y RunComfy por las referencias de flujo de trabajo y la configuración de Cloud Save por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos#
- Referencia de flujo de trabajo de RunningHub
- Documentos / Notas de lanzamiento: Referencia de flujo de trabajo de RunningHub
- Configuración de Cloud Save de RunComfy
- Documentos / Notas de lanzamiento: Configuración de Cloud Save de RunComfy
- Lightricks/LTX-Video
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-0.9.7-dev
- arXiv: arXiv:2501.00103
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- kijai/ComfyUI-KJNodes
- GitHub: kijai/ComfyUI-KJNodes
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

