LTX-2 ControlNet en ComfyUI | Flujo de trabajo de video controlado por profundidad

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: generación de video guiada por estructura y sincronizada con audio en ComfyUI#

LTX-2 ControlNet es un flujo de trabajo impulsado por control para la extensión ComfyUI-LTXVideo que te permite dirigir la generación de video LTX-2 con guía de profundidad, borde canny y pose mientras mantiene el audio y los visuales sincronizados. Funciona en un espacio latente audiovisual unificado, por lo que el habla, los efectos de sonido y el movimiento se generan juntos y permanecen alineados desde el primer cuadro hasta el último.

Construido para texto a video, imagen a video y video a video, el flujo de trabajo agrega acondicionamiento ControlNet basado en IC LoRA para un control preciso de diseño y movimiento, inicialización del primer cuadro para continuidad de escena y una tubería de dos etapas con escalado latente para resultados nítidos sin explotar la VRAM. LTX-2 ControlNet es completamente abierto, rápido para iterar y orientado a producción para creadores que necesitan salidas repetibles y de alta calidad.

Modelos clave en el flujo de trabajo ComfyUI LTX-2 ControlNet#

LTX-2 19B (dev FP8 y destilado). Modelo generativo audiovisual central utilizado para muestrear video y audio en un solo espacio latente. Familia de modelos
Codificador de texto Gemma 3 12B IT. Proporciona comprensión lingüística robusta para indicaciones y negativos a través del codificador empaquetado utilizado por LTX-2. Archivo del codificador
Escalador Espacial LTX-2 x2. Modelo de escalado latente utilizado en la segunda etapa para refinar el detalle espacial. Escalador
LTX-2 Audio VAE. Decodificador-codificador de audio especializado que mantiene el sonido generado alineado con los cuadros. Incluido con los puntos de control LTX-2. Puntos de control
Familia de control IC LoRA para LTX-2. Agrega acondicionamiento estilo ControlNet:
- Control de profundidad LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Control canny LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Control de pose LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- LoRA destilado para compensaciones de calidad/eficiencia: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1. Estimador de profundidad utilizado en la ruta de control de profundidad. Modelo
SD VAE FT MSE (Stability AI). VAE de imagen utilizado para precomputación de profundidad y decodificación en mosaico. VAE
Extensión ComfyUI-LTXVideo. Proporciona los muestreadores LTX-2, latentes AV, audio VAE y nodos guías utilizados en todo. Repositorio

Cómo usar el flujo de trabajo ComfyUI LTX-2 ControlNet#

A un alto nivel, LTX-2 ControlNet toma tu indicación y referencias opcionales, construye un latente audiovisual con guía estilo ControlNet, muestrea una primera pasada, luego escala el latente para obtener video nítido y audio sincronizado. Elige uno de los tres caminos guiados (Profundidad, Canny, Pose) o úsalos independientemente, luego define la longitud y el tamaño antes de exportar.

Preprocesamiento de Imagen/Video
- Si estás haciendo imagen a video o video a video, utiliza los cargadores para traer tu medio de referencia. VHS_LoadVideo (#196, #197, #198) divide los cuadros para análisis, mientras que LoadImage (#189) maneja imágenes fijas. El grupo proporciona escalado conveniente para que las guías posteriores vean tamaños de cuadro consistentes.
- Una imagen del “primer cuadro” puede pasar hacia adelante para la inicialización de la escena; la habilitarás más tarde en el grupo de generación.
Preprocesamiento de Profundidad de Imagen
- Para la guía de profundidad, el subgrafo “Image to Depth Map (Lotus)” convierte tu entrada en un mapa de profundidad normalizado usando Lotus Depth. Esto prepara una representación de profundidad de uno o varios cuadros que LTX-2 puede seguir.
- La ruta incluye redimensionamiento opcional y controles de intensidad para que la guía codifique una estructura amplia sin sobreajustarse a pequeños artefactos.
Preprocesamiento de Pose de Video
- Para la guía de pose, DWPreprocessor (#158) detecta puntos clave de cuerpo completo del video de entrada y los escala para un acondicionamiento estable. Esto produce una secuencia de imágenes de pose limpia que enfatiza la orientación del esqueleto y las extremidades.
- Los nodos de vista previa te ayudan a verificar rápidamente que las detecciones y las proporciones de aspecto se vean correctas antes de la generación.
Canny a video
- Este camino de control extrae bordes con Canny (#169), luego construye un latente AV con la secuencia de imágenes de control. Úsalo cuando quieras preservar siluetas, contornos principales o bordes de tipografía de una referencia.
- Una entrada de imagen del primer cuadro está disponible para una inicialización consistente; habilítala solo cuando desees que el cuadro de apertura coincida con una imagen fija específica.
Profundidad a video
- Esta ruta alimenta los mapas de profundidad de Lotus como las imágenes de control. El control de profundidad es ideal para imponer geometría de cámara, diseño a gran escala y distancia del sujeto mientras se permite al generador elegir texturas e iluminación.
- Puedes suministrar un primer cuadro para bloquear la composición inicial y luego dejar que el movimiento evolucione guiado por las señales de profundidad.
Pose a video
- La ruta de pose usa la representación de puntos clave del preprocesador, dirigiendo la orientación del cuerpo y el tiempo del movimiento. Es especialmente efectivo para el bloqueo de personajes, el tiempo de levantamiento de manos y los ciclos de caminata.
- Como con otros modos, puedes combinar el tiempo de la indicación con el acondicionamiento opcional del primer cuadro para continuidad.
Configuraciones de video y longitud
- Define el ancho de trabajo, la altura y el conteo de cuadros en los grupos “Configuraciones de Video” y “longitud de video”. El flujo de trabajo ajusta automáticamente los valores inválidos a los tamaños compatibles más cercanos para la cuadrícula latente y el paso de LTX-2 para que puedas iterar con seguridad.
- Mantén tu tasa de cuadros objetivo consistente en todos los nodos; los nodos de acondicionamiento y la multiplexación final la respetan para una sincronización audiovisual suave.
Generación, escalado y exportación
- Durante el muestreo, LTXVAddGuide integra tu acondicionamiento positivo/negativo con las imágenes de control elegidas, luego SamplerCustomAdvanced ejecuta el cronograma de LTXVScheduler para latentes de video y audio. El primer cuadro opcional se inyecta con LTXVImgToVideoInplace donde está habilitado.
- La segunda etapa ejecuta LTXVLatentUpsampler para refinar el detalle con el escalador latente x2. La decodificación final ocurre con VAEDecodeTiled para cuadros y LTXVAudioVAEDecode para audio, luego el video se escribe con VHS_VideoCombine o CreateVideo dependiendo de la rama seleccionada.

Nodos clave en el flujo de trabajo ComfyUI LTX-2 ControlNet#

LTXVAddGuide (#132)
- Fusiona el acondicionamiento de texto y los controles IC LoRA en el latente AV, actuando como el corazón de la guía LTX-2 ControlNet. Ajusta solo los pocos controles que importan: elige el control LoRA que coincida con tu camino (profundidad, canny o pose) y, cuando esté disponible, la image_strength que ajusta cuán estrechamente sigue el modelo las guías. La implementación de referencia y el comportamiento del nodo son proporcionados por la extensión LTXVideo. Docs/Code
LTXVImgToVideoInplace (#149, #155)
- Inyecta una imagen del primer cuadro en el latente AV para una inicialización de escena consistente. Usa strength para equilibrar la fidelidad al primer cuadro versus la libertad para evolucionar; mantenlo más bajo para más movimiento y más alto para anclajes más fuertes. Omítelo cuando desees aperturas puramente impulsadas por texto o control. Docs/Code
LTXVScheduler (#95)
- Conduce la trayectoria de desruido para el latente unificado para que tanto el audio como el video converjan juntos. Aumenta los pasos para escenas complejas y detalle fino; acorta para borradores y iteración rápida. Las configuraciones de programación interactúan con la fuerza de la guía, por lo que evita valores extremos cuando la guía es fuerte. Docs/Code
LTXVLatentUpsampler (#112)
- Realiza el escalado latente de segunda etapa con el escalador espacial x2 de LTX-2, mejorando la nitidez con un crecimiento mínimo de VRAM. Úsalo después de la primera pasada en lugar de aumentar la resolución base para mantener las iteraciones ágiles. Modelo de escalador
DWPreprocessor (#158)
- Genera puntos clave de pose humana limpios para la ruta de control de pose. Verifica las detecciones con la vista previa; si las manos o extremidades pequeñas son ruidosas, escala las entradas a una dimensión máxima moderada antes de preprocesar. Proporcionado por la suite auxiliar ControlNet. Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- Multiplexa los cuadros decodificados y el audio en un MP4 con la tasa de cuadros y formato de píxeles seleccionados. Úsalos solo después de confirmar que tu decodificación de audio se ve alineada en la vista previa. Proporcionado por Video Helper Suite. Repo

Extras opcionales#

Indicaciones para LTX-2 ControlNet
- Describe acciones a lo largo del tiempo, no solo atributos estáticos.
- Incluye las señales de sonido o diálogos necesarios para que el audio se genere a tiempo.
- Usa una indicación negativa concisa para suprimir artefactos que ves repetidamente.
Tamaños y longitudes
- Usa tamaños de imagen de la forma 32k + 1 para ancho/alto; el grafo corrige automáticamente si te equivocas, pero valores exactos aceleran la iteración.
- Los conteos de cuadros de la forma 8k + 1 tienden a ser los más estables para la programación.
Consistencia del primer cuadro
- Habilita el primer cuadro solo cuando necesites una composición de apertura bloqueada; combínalo con image_strength moderado para evitar sobreconstricciones.
VRAM y rendimiento
- El flujo de trabajo incluye opciones de secuencia paralela y compilación de torch en el parcheador LTXVideo para configuraciones con múltiples GPU o memoria limitada. Mantenlas activas para clips largos, desactívalas al depurar el comportamiento del nodo. Extensión

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Lightricks por ComfyUI-LTXVideo por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

Repositorio GitHub de ComfyUI-LTXVideo: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Pyramid Flow | Generación de Video

Incluyendo tanto el modo de texto a video como de imagen a video.

CogvideoX Fun | Modelo de Video a Video

CogVideoX Fun: Modelo avanzado de video a video para generación de videos de alta calidad.

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

Mochi 1 | Genmo Texto a Video

Demostración de Texto a Video Usando el Modelo Genmo Mochi 1

Mochi Edit Supermuestreo | Video-a-Video

Mochi Edit: Modifica Videos Usando Indicaciones Basadas en Texto y Supermuestreo.

IC-Light | Reiluminación de Imágenes

Edite fondos, mejore la iluminación y regenere nuevas escenas fácilmente.

Z-Image I2I para Personajes | Realismo Fotográfico Definitivo

Convierte retratos en caras realistas, perfectamente detalladas, rápidamente.

Reemplazo de Personaje & Pose & Fondo V3 | Wan2.2 Animate + SAM3.1 + SDPose

Intercambia personajes, poses y escenas rápidamente con control creativo total.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

LTX-2 ControlNet | Generador de Video de Precisión