LTX 2.3 First Last Frame en ComfyUI | Fotograma Clave a Video Suave

ComfyUI LTX 2.3 First Last Frame Flujo de trabajo

LTX 2.3 First Last Frame in ComfyUI | Keyframe to Smooth Video

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

ComfyUI LTX 2.3 First Last Frame Ejemplos

LTX 2.3 First Last Frame a Video#

LTX 2.3 First Last Frame a Video es un flujo de trabajo de ComfyUI que convierte dos imágenes fijas en un video suave y continuo con audio sincronizado. Proporcionas un primer fotograma, un último fotograma y un mensaje en lenguaje natural que describe el movimiento, los detalles de la escena y el sonido. Impulsado por el LTX-2.3 22B distilled FP8 checkpoint, la canalización interpola entre las imágenes manteniendo una apariencia y sincronización consistentes. Es ideal para editores, diseñadores de movimiento y artistas de storyboard que necesitan una transición sin costuras o un clip corto en bucle creado directamente dentro de ComfyUI.

Este flujo de trabajo LTX 2.3 First Last Frame enfatiza la inferencia eficiente y la alta fidelidad del mensaje. Los pesos FP8 mantienen el uso de VRAM bajo control, mientras que un codificador de texto Gemma 3 12B mejora la comprensión semántica de las instrucciones visuales y de audio. El resultado es un pasaje visual coherente del primer al último fotograma que honra tu mensaje y se mantiene sincronizado con el audio generado.

Modelos clave en el flujo de trabajo Comfyui LTX 2.3 First Last Frame#

LTX-2.3 22B Distilled FP8 checkpoint por Lightricks. Modelo central de generación de video destilado para inferencia eficiente, utilizado aquí para sintetizar fotogramas temporalmente consistentes mientras se condiciona a las dos guías de imagen y el mensaje de texto. Model card
Gemma 3 12B IT text encoder. Proporciona un entendimiento robusto del lenguaje para ambos aspectos visuales y de audio del mensaje, permitiendo un movimiento preciso, atributos de escena y pistas de banda sonora. Model card
LTX-2.3 latent VAEs para video y audio. Estos componentes mapean imágenes y audio de forma de onda a latentes compactos y de regreso durante la decodificación, preservando la calidad mientras se mantiene un muestreo eficiente. Incluido con la versión LTX-2.3 FP8. Model card

Cómo usar el flujo de trabajo Comfyui LTX 2.3 First Last Frame#

Este flujo de trabajo toma dos imágenes de referencia y un mensaje, construye el condicionamiento con guías de primer y último fotograma, muestrea un video latente con audio sincronizado y decodifica todo en un archivo reproducible.

Configuración

Establece tu resolución objetivo, cantidad de fotogramas y tasa de fotogramas en el grupo de Configuración. El ancho y la altura definen el lienzo de trabajo; los fotogramas de entrada se redimensionan para coincidir para que el modelo pueda interpolar limpiamente. La cantidad de fotogramas controla cuánto dura la transición, y la tasa de fotogramas establece la velocidad de reproducción. Elige una relación de aspecto que coincida con tus fuentes para evitar recortes no deseados. Los nodos WIDTH (#113), HEIGHT (#98), Length (#102) y Frame Rate(int) (#114) anclan estas elecciones.

Primer Fotograma

Carga tu imagen inicial en Load First Frame (#31). Se redimensiona mediante ResizeImageMaskNode (#124) a las dimensiones objetivo y se normaliza mediante LTXVPreprocess (#104). Esto prepara el primer fotograma para actuar como una guía fuerte de estructura y color al comienzo del clip. Usa una imagen nítida y bien iluminada para obtener los mejores resultados.

Último Fotograma

Carga tu imagen final en Load Last Frame (#39). La imagen se adapta al mismo tamaño con ResizeImageMaskNode (#125) y se normaliza mediante LTXVPreprocess (#99). Esto asegura el aspecto final y el diseño que deseas al final de la transición. Para bucles, haz que el último fotograma sea visualmente compatible con el primero.

Mensaje

El LTXAVTextEncoderLoader (#103) proporciona el codificador de texto, y dos nodos CLIPTextEncode capturan tus mensajes positivos y negativos. En el mensaje positivo (CLIPTextEncode (#128)), describe el movimiento de la cámara, los sujetos, la iluminación e incluye también pistas de audio como “Music: ambient pads with soft percussion” o “Dialogue: brief whisper.” El mensaje negativo (CLIPTextEncode (#112)) puede enumerar artefactos o rasgos que deseas suprimir.

Condicionamiento

LTXVConditioning (#109) fusiona el condicionamiento de texto con la información de tiempo para que el movimiento y el audio se alineen con tu tasa de fotogramas elegida. EmptyLTXVLatentVideo (#108) crea un video latente en tu resolución y duración. Dos pasadas de LTXVAddGuide primero adjuntan el primer fotograma (LTXVAddGuide (#115)) y luego el último fotograma (LTXVAddGuide (#111)) para que el modelo sepa dónde comenzar y dónde terminar. LTXVEmptyLatentAudio (#101) inicializa un audio latente de duración coincidente, y LTXVConcatAVLatent (#119) agrupa los latentes de audio y video para el muestreo.

Modelo

CheckpointLoaderSimple (#127) carga los pesos LTX-2.3 22B distilled FP8 y el video VAE, mientras que LTXVAudioVAELoader (#126) proporciona el audio VAE. Estos están preconfigurados para que puedas centrarte en entradas creativas en lugar de detalles de configuración.

Muestreo

CFGGuider (#116) equilibra la adherencia a tu texto y guías de fotograma contra la libertad creativa. RandomNoise (#100) establece una semilla para la reproducibilidad. El muestreador utiliza SamplerEulerAncestral (#117) con un cronograma personalizado de ManualSigmas (#118), orquestado por SamplerCustomAdvanced (#120), para refinar progresivamente el latente en una secuencia coherente que sigue tus instrucciones de movimiento y audio.

Decodificación

Después del muestreo, LTXVSeparateAVLatent (#121) divide el latente combinado nuevamente en video y audio. LTXVCropGuides (#106) refina la guía espacial para reducir artefactos de borde antes de la decodificación de la imagen. VAEDecodeTiled (#105) produce la secuencia de fotogramas, y LTXVAudioVAEDecode (#107) genera la forma de onda de audio. CreateVideo (#122) mezcla fotogramas y sonido a tu fps seleccionado y SaveVideo (#68) escribe el archivo final en tu salida de ComfyUI.

Nodos clave en el flujo de trabajo Comfyui LTX 2.3 First Last Frame#

EmptyLTXVLatentVideo (#108)

Define la resolución y duración de trabajo de tu clip. Ajusta el ancho, la altura y la longitud aquí para establecer la escala visual y el tiempo de transición. Las duraciones más largas necesitan pistas de movimiento más fuertes en el mensaje para evitar estancamiento.

LTXVAddGuide (#115)

Inyecta el primer fotograma como un ancla estructural y de color al inicio de la secuencia. Si la apertura se desvía de tu fuente, aumenta la influencia de esta guía; si se siente demasiado restringido, redúcelo ligeramente para permitir más movimiento.

LTXVAddGuide (#111)

Ancla el aspecto objetivo al final del clip usando el último fotograma. Si la transición se pasa o nunca llega a tu último fotograma, aumenta la influencia de la guía; si se ajusta demasiado al final, bájala.

CFGGuider (#116)

Controla cuán fuertemente el modelo sigue el condicionamiento de texto e imagen. Una guía más alta enfatiza tu mensaje y guías, pero puede reducir la suavidad; valores más bajos se sienten más libres, pero pueden desviarse del aspecto deseado. Ajusta en pequeños pasos y reutiliza la misma semilla al comparar.

SamplerCustomAdvanced (#120) con SamplerEulerAncestral (#117) y ManualSigmas (#118)

Impulsa la eliminación de ruido con un cronograma consistente para un movimiento estable. Cronogramas más cortos renderizan más rápido pero pueden ser bruscos; cronogramas más largos o suaves mejoran la consistencia a un costo computacional adicional. Mantén el cronograma consistente al probar otros parámetros.

CreateVideo (#122)

Mezcla los fotogramas decodificados y el audio en un clip final a tu tasa de fotogramas elegida. Usa el mismo fps con el que condicionaste para que las formas de labios, pasos o pulsos de música permanezcan alineados.

Extras opcionales#

Escribe mensajes con verbos y tiempos: “la cámara avanza,” “las luces se atenúan a medida que nos acercamos,” “Música: piano esparcido con reverberación suave.” Los verbos claros ayudan a que la canalización LTX 2.3 First Last Frame infiera movimiento y ritmo.
Haz coincidir la relación de aspecto y la orientación de tus dos imágenes. Grandes desajustes pueden introducir recortes o estiramientos no deseados.
Para bucles sin costuras, haz que el último fotograma sea una coincidencia cercana al primero y mantén el movimiento de la cámara cíclico.
Reutiliza una semilla en RandomNoise para reproducir un aspecto mientras iteras sobre mensajes o fortalezas de guía; cambia la semilla para explorar variaciones frescas.
Si necesitas detalles de implementación o referencias de nodos personalizados, consulta las integraciones y utilidades de LTX de ComfyUI como ComfyUI-LTXTricks. Repository

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Lightricks por LTX-2.3 22B Distilled FP8 Checkpoint, Google por Gemma 3 12B IT FP4 Text Encoder, logtd por ComfyUI-LTXTricks Custom Nodes y Comfy.org por Comfy.org Official Workflow por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación y repositorios originales enlazados a continuación.

Recursos#

Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
- Hugging Face: Lightricks/LTX-2.3-fp8
Google/Gemma 3 12B IT FP4 Text Encoder
- Hugging Face: google/gemma-3-12b-it
logtd/ComfyUI-LTXTricks Custom Nodes
- GitHub: logtd/ComfyUI-LTXTricks
Comfy.org/Comfy.org Official Workflow
- Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v

Nota: El uso de los modelos, conjuntos de datos y código referidos está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.1 FLF2V | Video de Primer-Ultimo Fotograma

Genera videos fluidos a partir de un fotograma inicial y final usando Wan 2.1 FLF2V.

Wan2.2 Fun Inp | Generador de Video Cinematográfico

De 2 imágenes a videos impresionantes con transiciones suaves y controlables.

LTX-2 Primer Último Fotograma | Generador de Video de Fotogramas Clave

Convierte fotogramas estáticos en transiciones de video y sonido sin interrupciones rápidamente.

Qwen Image Edit Plus 2509 LoRA Inferencia | AI Toolkit ComfyUI

Aplica los Qwen Image Edit Plus 2509 LoRAs entrenados con AI Toolkit en ComfyUI con ediciones alineadas con la vista previa usando un único nodo personalizado RCQwenImageEditPlus.

MV-Adapter | Generador Multivista de Alta Resolución

Genera vistas de 360 grados de cualquier cosa a partir de una sola imagen o descripción.

Qwen Image Edit | Edición de Fotos AI Precisa

Edita fotos rápidamente con estilo, relighting y precisión en el control de objetos.

LongCat Image | Texto a Imagen

Genera imágenes cuadradas de alta calidad a partir de texto con LongCat Image.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

LTX 2.3 First Last Frame | Generador de Video Sin Costuras