LTX 2.3 VBVR ComfyUI Workflow: imagen a video con razonamiento y diálogo
Este flujo de trabajo convierte una sola imagen de referencia en una secuencia de video coherente guiada por texto y discurso opcional, impulsada por LTX-2.3 y LTX 2.3 VBVR LoRA. VBVR significa razonamiento visual basado en video: ayuda al modelo a mantener identidades, relaciones espaciales y causa-efecto consistentes entre cuadros para que tus escenas se sientan intencionadas en lugar de aleatorias. El gráfico incluye aviso consciente del discurso, muestreo LTX en dos etapas, suavizado de movimiento y ampliación/exportación final a MP4.
Los creadores que necesitan continuidad narrativa, movimiento creíble o sincronización de diálogos encontrarán especialmente útil el flujo de trabajo LTX 2.3 VBVR. Proporciona un marco de referencia sólido, describe la acción e interacciones, y opcionalmente inserta una línea hablada que se transcribe automáticamente y se teje en el aviso para una mejor alineación de labios y tiempo.
Modelos clave en el flujo de trabajo Comfyui LTX 2.3 VBVR
- LTX-2.3 22B modelo de generación de video de Lightricks, la columna vertebral principal de difusión para imagen a video y decodificación condicionada por audio. Hugging Face: Lightricks/LTX-2.3
- LTX-2.3 Video VAE para codificación/decodificación de latentes de video, emparejado con el punto de control base para una decodificación en mosaico eficiente. Hugging Face: Lightricks/LTX-2.3
- LTX-2.3 Spatial Upscaler x2 modelo latente para mejorar el detalle espacial después del primer paso. Hugging Face: Lightricks/LTX-2.3
- Gemma 3 12B codificador de texto empaquetado para LTX-2, utilizado aquí para analizar instrucciones complejas y tokens de diálogo. Hugging Face: Comfy-Org/ltx-2
- LTX 2.3 VBVR LoRA para estructura de escena centrada en el razonamiento, interacción de objetos y continuidad en el tiempo. Hugging Face: LiconStudio/Ltx2.3-VBVR-lora-I2V
- Modelo de interpolación de cuadros RIFE para suavizar el movimiento entre cuadros generados. GitHub: hzwer/Practical-RIFE
- Modelo de reconocimiento de voz Whisper para infusión opcional de audio a texto. GitHub: openai/whisper
Cómo usar el flujo de trabajo Comfyui LTX 2.3 VBVR
El gráfico está organizado en grupos claros. Configuras entradas, la pila de modelos y configuraciones de video, luego los muestreadores LTX generan cuadros que opcionalmente se interpolan y amplían antes de exportar.
Cargar referencia de imagen
Usa Load Image (Input) (#5525) para elegir un marco de referencia fuerte y con estilo. La imagen se redimensiona con ImageResizeKJv2 (#5280) a tu ancho y alto elegidos mientras se preserva la composición. Un nodo de vista previa confirma lo que el modelo realmente verá. Buenas imágenes de referencia con sujetos claros e iluminación proporcionan al conjunto LTX 2.3 VBVR un ancla confiable para identidad y estilo.
Configuración de video
Configura Width (Input) (#5284), Height (Input) (#5286), Seconds (Input) (#5573), y la base Frame Rate (#5289). El gráfico calcula automáticamente el conteo de cuadros para que el tiempo se mantenga consistente cuando cambias la duración o fps. Si planeas habilitar la interpolación más tarde, puedes elegir un fps base modesto para ahorrar tiempo y dejar que RIFE añada suavidad. Estas configuraciones también informan al nodo de acondicionamiento para que el movimiento y el ritmo permanezcan coherentes.
Modelo
CheckpointLoaderSimple (#5493) carga LTX-2.3. El gráfico adjunta el LTX 2.3 VBVR LoRA a través de LoraLoaderModelOnly (#5616) y puede aplicar opcionalmente un LoRA destilado y un LoRA detallador para mayor fidelidad. LTXAVTextEncoderLoader (#5494) trae el codificador de texto basado en Gemma, mientras que VAELoader (#5629) y LTXVAudioVAELoader (#5492) proporcionan los VAEs de video y audio. Dos nodos ReservedVRAMSetter equilibran el uso de memoria para que las ejecuciones largas permanezcan estables.
Aviso de texto de video
Escribe tu escena en Text Prompt (Input) (#5620). Para inyectar diálogo alineado con audio, incluye un marcador como: La mujer dice "<Transcript1>". Alimenta la línea real en Speech Line (Input) (#5524) o deja que Whisper la produzca a partir del audio; StringReplace (#5226) y JoinStringMulti (#5602) reemplazan <Transcript1> con la transcripción. TextGenerateLTX2Prompt (#5488) luego compone una instrucción refinada, que Enhanced Prompt (Positive) (#5174) codifica antes de que LTXVConditioning (#5173) prepare la guía final. Verbos claros, referencias a sujetos y señales espaciales dan al LTX 2.3 VBVR LoRA el contexto que necesita para razonar en el tiempo.
Preprocesamiento de audio
Trae una pista de voz con Load Audio (Input) (#5590) o conecta TTS. AudioAdjustVolume (#5601) normaliza los niveles. Si deseas diálogo consciente del aviso, usa Whisper a través de Load Whisper (mtb) (#5606) y Audio To Text (mtb) (#5607) para generar la transcripción utilizada en el aviso. El mismo audio también se codifica como un latente y luego se combina de nuevo en el video final para que las señales de labios y tiempo puedan influir en la generación.
Muestreo LTX
LTXVPreprocess (#5240) y LTXVImgToVideoInplace (#5245) convierten tu marco de referencia en una secuencia latente inicial, preservando la identidad central mientras permite el movimiento. El subgráfico Samplers (#5278) ejecuta un proceso de dos etapas con guías CFG y un programador, produciendo latentes espacio-temporales que respetan tanto tu aviso como el razonamiento LTX 2.3 VBVR LoRA. Los latentes de audio se concatenan con los latentes de video para que el tiempo de discurso pueda informar el movimiento. LTXVSpatioTemporalTiledVAEDecode (#5237) decodifica cuadros, y LTXVAudioVAEDecode (#5103) restaura la pista de audio.
Interpolación de cuadros y ampliación
RIFE VFI (#5554) interpola entre cuadros para crear un movimiento más suave y para alcanzar tu tasa de reproducción objetivo cuando se combina con el fps base. RTXVideoSuperResolution (#5631) mejora el detalle y reduce los artefactos de compresión, mejorando la legibilidad de caras, bordes y pequeños accesorios. Usa esta etapa para equilibrar velocidad y calidad: interpola para suavidad, luego amplía para nitidez.
Exportación
Elige entre CreateVideo (#5599) para una mezcla simple o VHS_VideoCombine (#5618) para más control sobre formato, metadatos y recorte. La canalización escribe un H.264 MP4 a través de SaveVideo (#5597). La tasa de cuadros se deriva de tus configuraciones y la etapa de interpolación para que la reproducción coincida con la intención de movimiento que diseñaste al inicio.
Nodos clave en el flujo de trabajo Comfyui LTX 2.3 VBVR
LoraLoaderModelOnly (#5616)
Carga el LTX 2.3 VBVR LoRA que mejora la continuidad lógica, la interacción de objetos y el movimiento consciente de la cámara. Ajusta el peso del LoRA para equilibrar la influencia del razonamiento con el estilo del modelo base y otros LoRAs. Este nodo es central para el aspecto distintivo y la coherencia que definen el flujo de trabajo LTX 2.3 VBVR. Para el uso de nodos LTX y LoRA, consulta Lightricks/ComfyUI-LTXVideo y la tarjeta VBVR LoRA arriba.
TextGenerateLTX2Prompt (#5488)
Assemble el aviso positivo final fusionando tu descripción base, la referencia de imagen y el token de diálogo reemplazado de <Transcript1>. Mantén las instrucciones concisas, explícitas y consistentes sobre sujetos y acciones para que el modelo pueda razonar en el tiempo. Aquí es donde codificas la intención que el LTX 2.3 VBVR LoRA reforzará durante el muestreo.
LTXVConditioning (#5173)
Empaqueta el acondicionamiento positivo y negativo y reenvía información de tiempo para que el movimiento y el ritmo se alineen con tu elección de fps. Si cambias la tasa de cuadros en las configuraciones, actualízala aquí para mantener consistentes las dinámicas de movimiento. Negativos fuertes ayudan a prevenir cuadros fijos, marcas de agua o superposiciones no deseadas de entrar en la secuencia.
Samplers (#5278)
El bloque de muestreo de dos etapas coordina el ruido, la guía y la programación para transformar los latentes de imagen y audio en un video coherente. Los ajustes más impactantes son los steps totales, la image strength de la etapa inicial I2V y el noise_seed para reproducibilidad. Ajusta estos cuidadosamente para equilibrar la fidelidad al marco de referencia contra la disposición a seguir nuevo movimiento y acciones.
RIFE VFI (#5554)
Interpola cuadros para un movimiento más suave o para alcanzar un fps efectivo más alto sin regenerar la secuencia. Aumenta la interpolación cuando tu fps base es bajo o cuando el movimiento se siente entrecortado; disminúyelo para preservar el ritmo generativo original. El modelo se utiliza ampliamente para VFI de alta calidad; consulta el proyecto RIFE en GitHub.
Extras opcionales
- Truco de diálogo con LTX 2.3 VBVR: escribe una oración natural con el marcador, por ejemplo, La mujer dice "<Transcript1>", luego proporciona la línea en Speech Line o deja que Whisper transcriba el audio para que el aviso y los labios se alineen.
- Aviso para razonamiento: menciona quién hace qué, dónde y por qué. Usa nombres de sujetos consistentes y señales temporales como entonces, mientras, y a medida que la cámara se mueve para aprovechar las fortalezas de VBVR.
- Iteraciones más rápidas: comienza con una duración más corta o un fps base más bajo, confirma los ritmos de movimiento, luego aumenta la interpolación o los segundos para terminar.
- Consejos de estabilidad: si ves deriva de identidad, baja ligeramente la fuerza de imagen a video o aumenta el peso de VBVR LoRA; si ves sobre-restricción, haz lo contrario.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a @Benji’s AI Playground por el 2.3 VBVR Workflow Source por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- LTX/2.3 VBVR Workflow Source
- Documentos / Notas de lanzamiento: LTX 2.3 VBVR Workflow Source @Benji’s AI Playground
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

