LTX-2 ControlNet: generación de video guiada por estructura y sincronizada con audio en ComfyUI
LTX-2 ControlNet es un flujo de trabajo impulsado por control para la extensión ComfyUI-LTXVideo que te permite dirigir la generación de video LTX-2 con guía de profundidad, borde canny y pose mientras mantiene el audio y los visuales sincronizados. Funciona en un espacio latente audiovisual unificado, por lo que el habla, los efectos de sonido y el movimiento se generan juntos y permanecen alineados desde el primer cuadro hasta el último.
Construido para texto a video, imagen a video y video a video, el flujo de trabajo agrega acondicionamiento ControlNet basado en IC LoRA para un control preciso de diseño y movimiento, inicialización del primer cuadro para continuidad de escena y una tubería de dos etapas con escalado latente para resultados nítidos sin explotar la VRAM. LTX-2 ControlNet es completamente abierto, rápido para iterar y orientado a producción para creadores que necesitan salidas repetibles y de alta calidad.
Modelos clave en el flujo de trabajo ComfyUI LTX-2 ControlNet
- LTX-2 19B (dev FP8 y destilado). Modelo generativo audiovisual central utilizado para muestrear video y audio en un solo espacio latente. Familia de modelos
- Codificador de texto Gemma 3 12B IT. Proporciona comprensión lingüística robusta para indicaciones y negativos a través del codificador empaquetado utilizado por LTX-2. Archivo del codificador
- Escalador Espacial LTX-2 x2. Modelo de escalado latente utilizado en la segunda etapa para refinar el detalle espacial. Escalador
- LTX-2 Audio VAE. Decodificador-codificador de audio especializado que mantiene el sonido generado alineado con los cuadros. Incluido con los puntos de control LTX-2. Puntos de control
- Familia de control IC LoRA para LTX-2. Agrega acondicionamiento estilo ControlNet:
- Control de profundidad LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Control canny LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Control de pose LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- LoRA destilado para compensaciones de calidad/eficiencia: ltx-2-19b-distilled-lora-384
- Lotus Depth D v1.1. Estimador de profundidad utilizado en la ruta de control de profundidad. Modelo
- SD VAE FT MSE (Stability AI). VAE de imagen utilizado para precomputación de profundidad y decodificación en mosaico. VAE
- Extensión ComfyUI-LTXVideo. Proporciona los muestreadores LTX-2, latentes AV, audio VAE y nodos guías utilizados en todo. Repositorio
Cómo usar el flujo de trabajo ComfyUI LTX-2 ControlNet
A un alto nivel, LTX-2 ControlNet toma tu indicación y referencias opcionales, construye un latente audiovisual con guía estilo ControlNet, muestrea una primera pasada, luego escala el latente para obtener video nítido y audio sincronizado. Elige uno de los tres caminos guiados (Profundidad, Canny, Pose) o úsalos independientemente, luego define la longitud y el tamaño antes de exportar.
- Preprocesamiento de Imagen/Video
- Si estás haciendo imagen a video o video a video, utiliza los cargadores para traer tu medio de referencia.
VHS_LoadVideo(#196, #197, #198) divide los cuadros para análisis, mientras queLoadImage(#189) maneja imágenes fijas. El grupo proporciona escalado conveniente para que las guías posteriores vean tamaños de cuadro consistentes. - Una imagen del “primer cuadro” puede pasar hacia adelante para la inicialización de la escena; la habilitarás más tarde en el grupo de generación.
- Si estás haciendo imagen a video o video a video, utiliza los cargadores para traer tu medio de referencia.
- Preprocesamiento de Profundidad de Imagen
- Para la guía de profundidad, el subgrafo “Image to Depth Map (Lotus)” convierte tu entrada en un mapa de profundidad normalizado usando Lotus Depth. Esto prepara una representación de profundidad de uno o varios cuadros que LTX-2 puede seguir.
- La ruta incluye redimensionamiento opcional y controles de intensidad para que la guía codifique una estructura amplia sin sobreajustarse a pequeños artefactos.
- Preprocesamiento de Pose de Video
- Para la guía de pose,
DWPreprocessor(#158) detecta puntos clave de cuerpo completo del video de entrada y los escala para un acondicionamiento estable. Esto produce una secuencia de imágenes de pose limpia que enfatiza la orientación del esqueleto y las extremidades. - Los nodos de vista previa te ayudan a verificar rápidamente que las detecciones y las proporciones de aspecto se vean correctas antes de la generación.
- Para la guía de pose,
- Canny a video
- Este camino de control extrae bordes con
Canny(#169), luego construye un latente AV con la secuencia de imágenes de control. Úsalo cuando quieras preservar siluetas, contornos principales o bordes de tipografía de una referencia. - Una entrada de imagen del primer cuadro está disponible para una inicialización consistente; habilítala solo cuando desees que el cuadro de apertura coincida con una imagen fija específica.
- Este camino de control extrae bordes con
- Profundidad a video
- Esta ruta alimenta los mapas de profundidad de Lotus como las imágenes de control. El control de profundidad es ideal para imponer geometría de cámara, diseño a gran escala y distancia del sujeto mientras se permite al generador elegir texturas e iluminación.
- Puedes suministrar un primer cuadro para bloquear la composición inicial y luego dejar que el movimiento evolucione guiado por las señales de profundidad.
- Pose a video
- La ruta de pose usa la representación de puntos clave del preprocesador, dirigiendo la orientación del cuerpo y el tiempo del movimiento. Es especialmente efectivo para el bloqueo de personajes, el tiempo de levantamiento de manos y los ciclos de caminata.
- Como con otros modos, puedes combinar el tiempo de la indicación con el acondicionamiento opcional del primer cuadro para continuidad.
- Configuraciones de video y longitud
- Define el ancho de trabajo, la altura y el conteo de cuadros en los grupos “Configuraciones de Video” y “longitud de video”. El flujo de trabajo ajusta automáticamente los valores inválidos a los tamaños compatibles más cercanos para la cuadrícula latente y el paso de LTX-2 para que puedas iterar con seguridad.
- Mantén tu tasa de cuadros objetivo consistente en todos los nodos; los nodos de acondicionamiento y la multiplexación final la respetan para una sincronización audiovisual suave.
- Generación, escalado y exportación
- Durante el muestreo,
LTXVAddGuideintegra tu acondicionamiento positivo/negativo con las imágenes de control elegidas, luegoSamplerCustomAdvancedejecuta el cronograma deLTXVSchedulerpara latentes de video y audio. El primer cuadro opcional se inyecta conLTXVImgToVideoInplacedonde está habilitado. - La segunda etapa ejecuta
LTXVLatentUpsamplerpara refinar el detalle con el escalador latente x2. La decodificación final ocurre conVAEDecodeTiledpara cuadros yLTXVAudioVAEDecodepara audio, luego el video se escribe conVHS_VideoCombineoCreateVideodependiendo de la rama seleccionada.
- Durante el muestreo,
Nodos clave en el flujo de trabajo ComfyUI LTX-2 ControlNet
LTXVAddGuide(#132)- Fusiona el acondicionamiento de texto y los controles IC LoRA en el latente AV, actuando como el corazón de la guía LTX-2 ControlNet. Ajusta solo los pocos controles que importan: elige el control LoRA que coincida con tu camino (profundidad, canny o pose) y, cuando esté disponible, la
image_strengthque ajusta cuán estrechamente sigue el modelo las guías. La implementación de referencia y el comportamiento del nodo son proporcionados por la extensión LTXVideo. Docs/Code
- Fusiona el acondicionamiento de texto y los controles IC LoRA en el latente AV, actuando como el corazón de la guía LTX-2 ControlNet. Ajusta solo los pocos controles que importan: elige el control LoRA que coincida con tu camino (profundidad, canny o pose) y, cuando esté disponible, la
LTXVImgToVideoInplace(#149, #155)- Inyecta una imagen del primer cuadro en el latente AV para una inicialización de escena consistente. Usa
strengthpara equilibrar la fidelidad al primer cuadro versus la libertad para evolucionar; mantenlo más bajo para más movimiento y más alto para anclajes más fuertes. Omítelo cuando desees aperturas puramente impulsadas por texto o control. Docs/Code
- Inyecta una imagen del primer cuadro en el latente AV para una inicialización de escena consistente. Usa
LTXVScheduler(#95)- Conduce la trayectoria de desruido para el latente unificado para que tanto el audio como el video converjan juntos. Aumenta los pasos para escenas complejas y detalle fino; acorta para borradores y iteración rápida. Las configuraciones de programación interactúan con la fuerza de la guía, por lo que evita valores extremos cuando la guía es fuerte. Docs/Code
LTXVLatentUpsampler(#112)- Realiza el escalado latente de segunda etapa con el escalador espacial x2 de LTX-2, mejorando la nitidez con un crecimiento mínimo de VRAM. Úsalo después de la primera pasada en lugar de aumentar la resolución base para mantener las iteraciones ágiles. Modelo de escalador
DWPreprocessor(#158)- Genera puntos clave de pose humana limpios para la ruta de control de pose. Verifica las detecciones con la vista previa; si las manos o extremidades pequeñas son ruidosas, escala las entradas a una dimensión máxima moderada antes de preprocesar. Proporcionado por la suite auxiliar ControlNet. Repo
VHS_VideoCombine/CreateVideo(#195, #106)- Multiplexa los cuadros decodificados y el audio en un MP4 con la tasa de cuadros y formato de píxeles seleccionados. Úsalos solo después de confirmar que tu decodificación de audio se ve alineada en la vista previa. Proporcionado por Video Helper Suite. Repo
Extras opcionales
- Indicaciones para LTX-2 ControlNet
- Describe acciones a lo largo del tiempo, no solo atributos estáticos.
- Incluye las señales de sonido o diálogos necesarios para que el audio se genere a tiempo.
- Usa una indicación negativa concisa para suprimir artefactos que ves repetidamente.
- Tamaños y longitudes
- Usa tamaños de imagen de la forma 32k + 1 para ancho/alto; el grafo corrige automáticamente si te equivocas, pero valores exactos aceleran la iteración.
- Los conteos de cuadros de la forma 8k + 1 tienden a ser los más estables para la programación.
- Consistencia del primer cuadro
- Habilita el primer cuadro solo cuando necesites una composición de apertura bloqueada; combínalo con
image_strengthmoderado para evitar sobreconstricciones.
- Habilita el primer cuadro solo cuando necesites una composición de apertura bloqueada; combínalo con
- VRAM y rendimiento
- El flujo de trabajo incluye opciones de secuencia paralela y compilación de torch en el parcheador LTXVideo para configuraciones con múltiples GPU o memoria limitada. Mantenlas activas para clips largos, desactívalas al depurar el comportamiento del nodo. Extensión
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Lightricks por ComfyUI-LTXVideo por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- Repositorio GitHub de ComfyUI-LTXVideo: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

