LTX 2.3 Prompt Relay en ComfyUI | Flujo de trabajo de imagen a video

ComfyUI LTX 2.3 Prompt Relay Workflow

LTX 2.3 Prompt Relay in ComfyUI | Image-to-Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Prompt Relay Examples

LTX 2.3 Prompt Relay: generación de imagen a video de múltiples ritmos en ComfyUI#

LTX 2.3 Prompt Relay es un flujo de trabajo de ComfyUI para dirigir de imagen a video con enrutamiento de prompt segmentado a través de múltiples ritmos en un solo clip. Utiliza PromptRelayEncode como un controlador sin entrenamiento en tiempo de inferencia para asignar diferentes instrucciones de texto a diferentes periodos de tiempo, de modo que puedas guionar movimientos de cámara y acciones por ritmo mientras preservas la continuidad del sujeto y transiciones suaves. Un asistente Qwen VLM puede redactar automáticamente o refinar los ritmos de la historia a partir de una imagen de referencia antes de la generación.

Este flujo de trabajo ComfyUI LTX 2.3 Prompt Relay es ideal para cortos cinematográficos, tomas de productos y teasers narrativos donde deseas control escena por escena sin ajuste fino. Produce un video sincronizado con audio decodificado y escribe un H.264 MP4 con los metadatos preservados.

Modelos clave en el flujo de trabajo ComfyUI LTX 2.3 Prompt Relay#

LTX‑Video 2.3 punto de control base. La columna vertebral generativa que sintetiza video temporalmente consistente a partir de texto y un marco de referencia opcional. Ve la construcción comunitaria y el contexto de pesos en Hugging Face para usuarios de ComfyUI. Kijai/LTX2.3_comfy
LTX‑Video 2.3 Video VAE y Audio VAE. Decodificadores que convierten el video latente y el audio latente del modelo en fotogramas RGB y una forma de onda para multiplexación, utilizados aquí para exportar un MP4. Kijai/LTX2.3_comfy
Qwen VLM (Instruct). Un modelo de visión-lenguaje que lee la imagen de referencia y redacta líneas de acción de múltiples ritmos que el flujo de trabajo usa como prompts locales. Integrado a través de la extensión ComfyUI-QwenVL. 1038lab/ComfyUI-QwenVL
LTX 2.3 LoRAs opcionales. Adaptadores de estilo o eficiencia como un LoRA destilado y un LoRA de mejora nítida están preconfigurados para un fácil cambio para cambiar la textura y la nitidez sin alterar tus prompts. Kijai/LTX2.3_comfy

Cómo usar el flujo de trabajo ComfyUI LTX 2.3 Prompt Relay#

Flujo general#

El flujo de trabajo lee una sola imagen como el marco de apertura, reúne un prompt global más prompts locales específicos del ritmo, los codifica con Prompt Relay, muestrea un latente conjunto de audio-video, luego decodifica y combina fotogramas y audio en un MP4. Los grupos están organizados como Modelos, Configuración de Video de Entrada, VLM, Condicionamiento, Crear Latente, Muestreo y Decodificación.

Modelos#

El punto de control base LTX‑Video 2.3 se carga primero, luego se aplican dos LoRAs opcionales en secuencia para ajustar la nitidez y la eficiencia. El parche de atención está habilitado para mejorar la fidelidad bajo prompts largos. Puedes mantener ambos LoRAs, deshabilitar uno o evitarlos por completo si prefieres un aspecto neutral de base.

Configuración de Video de Entrada#

Elige ancho, altura, segundos totales y FPS para el clip. El flujo de trabajo calcula automáticamente el conteo de fotogramas como un producto de segundos y FPS, manteniendo las longitudes de imagen y audio sincronizadas. Establece estos antes de escribir prompts para saber cuántos ritmos cabrán cómodamente.

VLM#

Carga o deja caer una imagen de referencia. La imagen se preprocesa y se envía a un Qwen VLM que sigue una plantilla de instrucciones cortas para proponer cuatro líneas de ritmo concisas separadas por el carácter de tubería "|". Puedes revisar y editar el texto generado en el visor en pantalla antes de que avance, o saltarte el VLM y escribir tus propias líneas.

Condicionamiento con Prompt Relay#

PromptRelayEncode toma un prompt global para estilo y configuración más tus prompts locales para acciones por ritmo. Separa los ritmos con "|" en los prompts locales; el codificador enruta cada segmento a su periodo de tiempo y mezcla entre ellos para transiciones fluidas. El nodo produce condicionamiento de prompt y un modelo parcheado para que el muestreador siga fielmente tu guion de ritmos. La referencia y el uso son proporcionados por el proyecto ComfyUI-PromptRelay. kijai/ComfyUI-PromptRelay

Crear Latente#

Se inicializa un video latente vacío a tu resolución y longitud elegidas. La imagen de referencia preprocesada se escribe en el primer fotograma de la línea de tiempo para anclar identidad, pose e iluminación. Se crea un audio latente vacío con duración coincidente para que la decodificación produzca una forma de onda lista para multiplexar junto con los fotogramas.

Muestreo#

Un programador crea el calendario de ruido, un visualizador lo previsualiza, y el muestreador se ejecuta en el latente de audio-video concatenado usando el modelo LTX 2.3 parcheado y el condicionamiento de Prompt Relay. Puedes cambiar el tipo de muestreador si prefieres un intercambio diferente entre nitidez y estabilidad. El resultado es un solo latente que ya codifica tanto video como audio.

Decodificación y exportación#

El latente se divide en ramas de video y audio, luego se decodifica por el LTX 2.3 Video VAE y Audio VAE. VideoHelperSuite combina los fotogramas y la forma de onda en un H.264 MP4 con un formato de píxel estándar para una amplia compatibilidad con reproductores y guarda los metadatos para la reproducibilidad. ComfyUI-VideoHelperSuite

Nodos clave en el flujo de trabajo ComfyUI LTX 2.3 Prompt Relay#

`PromptRelayEncode` (#605)#

El controlador principal que aplica el enrutamiento de prompt segmentado en tiempo de inferencia. Usa global_prompt para el estilo, la configuración, el sujeto y el lenguaje de lente que deben persistir, y usa local_prompts para acciones específicas del ritmo separadas por |. Mantén los ritmos concisos y enfocados; 3 a 6 ritmos generalmente se leen claramente. Si deseas temporizar manualmente las transiciones, mantén los ritmos adyacentes semánticamente compatibles para que la mezcla sea natural. Referencia: kijai/ComfyUI-PromptRelay

`AILab_QwenVL_Advanced` (#610)#

Un asistente VLM que lee la imagen de referencia y expande tu idea en líneas de ritmo usando un prompt de instrucción corto. Edita el texto de instrucción para ajustar el tono o el vocabulario de la cámara, luego revisa los ritmos generados en el visor. La salida alimenta directamente a local_prompts, y puedes anularlo con tu propia escritura en cualquier momento. Referencia: 1038lab/ComfyUI-QwenVL

`LTXVImgToVideoInplaceKJ` (#582)#

Inicia el primer fotograma del video latente con tu imagen de entrada, promoviendo la estabilidad de identidad e iluminación a través de los ritmos. Para texto puro a video, evita este nodo y comienza desde un video latente vacío. Para una mayor adherencia al fotograma semilla, mantén tu prompt global consistente con el contenido de la imagen.

`BasicScheduler` (#514) y `VisualizeSigmasKJ` (#358)#

Controla y previsualiza el calendario de desruido utilizado por el muestreador. Usa el visualizador para verificar la forma de la curva al cambiar muestreadores o cuentas de pasos. Un calendario más suave a menudo produce un movimiento más estable, mientras que calendarios más agresivos empujan el detalle.

`VHS_VideoCombine` (#604)#

Multiplexa los fotogramas decodificados y el audio en un solo MP4 con un formato de píxel ampliamente compatible. Asegúrate de que su tasa de fotogramas coincida con tu grupo de Configuración de Video de Entrada para una sincronización precisa. Desconecta la entrada de audio aquí si deseas una exportación silenciosa. Referencia: ComfyUI-VideoHelperSuite

Extras opcionales#

Consejos para escribir ritmos: escribe en tiempo presente, mantén cada ritmo en una acción, agrega diálogo corto solo cuando avance el ritmo, y comienza con un verbo de cámara como "acercar," "panorámica a la derecha," o "deriva a mano alzada."
Usa el prompt global para dirección artística y óptica (iluminación, lente, ambiente); usa prompts locales para movimiento, gestos y cambios de encuadre.
Para iteraciones más rápidas, mantén la resolución modesta mientras redactas ritmos, luego súbela para el render final.
Si los LoRAs sobreafilán o cambian el color, baja sus pesos o deshabilita uno de ellos para recuperar la neutralidad.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a gordonchen19 por Prompt-Relay, kijai por ComfyUI-PromptRelay, Kijai por LTX2.3_comfy (contexto del modelo ComfyUI), 1038lab por ComfyUI-QwenVL, y al autor del post de Patreon (Innovate Futures @ Benji) por la fuente del flujo de trabajo, por sus contribuciones y mantenimiento. Para detalles autorizados, por favor refiérase a la documentación original y repositorios enlazados a continuación.

Recursos#

Patreon/Fuente del flujo de trabajo
- Documentos / Notas de Lanzamiento: post @Benji
gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Documentos / Notas de Lanzamiento: sitio
kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Documentos / Notas de Lanzamiento: discusión #51
1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

AnimateDiff + Batch Prompt Schedule | Texto a Video

Utilice Prompts Travel con Animatediff para un control preciso sobre fotogramas específicos dentro de la animación.

AnimateDiff + Programación de indicaciones por lotes | Texto a video

La programación de indicaciones por lotes con AnimateDiff ofrece un control preciso sobre la narrativa y los elementos visuales en la creación de animaciones.

LTX 2.3 First Last Frame | Generador de Video Sin Costuras

Transforma fotogramas clave en transiciones de video ultrafluidas y realistas rápidamente.

Wan2.2 Fun Inp | Generador de Video Cinematográfico

De 2 imágenes a videos impresionantes con transiciones suaves y controlables.

CogVideoX-5B | Modelo Avanzado de Texto a Video

CogVideoX-5B: Modelo avanzado de texto a video para la generación de videos de alta calidad.

IPAdapter Plus (V2) | Cambiar ropa

Use IPAdapter Plus para la creación de sus modelos de moda, cambiando fácilmente de atuendos y estilos

DiffuEraser | Pintado de Video

Elimine objetos de videos con auto-mascaramiento y reconstrucción realista.

Z Image ControlNet | Generador de Imágenes de Precisión

Control total sobre las poses de las imágenes, bordes y disposiciones de profundidad.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

LTX 2.3 Prompt Relay | Creador de Video Controlado por Escenas