WAN 2.2 Flujo de Trabajo Suave v5.0: una canalización todo-en-uno para ComfyUI para videos suaves de 5 segundos#
WAN 2.2 Flujo de Trabajo Suave v5.0 es un lienzo único que cubre texto-a-video, imagen-a-video, animación de Primer-a-Último-Fotograma y audio-a-video. Está construido alrededor de la familia de modelos SmoothMix WAN 2.2 con Lightx2v LoRAs opcionales, operadores WanVideoWrapper para WAN 2.x, e interpolación de fotogramas RIFE, por lo que puedes generar clips cortos cinematográficos con movimiento consistente y rápida iteración.
Usa este WAN 2.2 Flujo de Trabajo Suave v5.0 cuando quieras un gráfico organizado que te permita cambiar entre T2V, I2V, F2LF y A2V sin reconfigurar nodos. El lienzo incluye conmutadores de modo, controles de duración y tamaño, vistas previas del último fotograma, y una rama de audio opcional que puede seguir el ritmo visual de tu clip.
Modelos clave en ComfyUI WAN 2.2 Flujo de Trabajo Suave v5.0#
- Puntos de control de Texto-a-Video e Imagen-a-Video SmoothMix WAN 2.2 (Alto y Bajo)
- Rol: espinas dorsales principales de difusión para síntesis de movimiento y refinamiento a través de las rutas T2V e I2V. Alto favorece la calidad y el detalle; Bajo favorece la velocidad y el margen de VRAM.
- Lightx2v WAN 2.2 Destilado LoRAs
- Rol: LoRAs opcionales destilados para WAN 2.2 que mejoran la suavidad del movimiento o la estilización mientras mantienen los avisos receptivos. Cargar según sea necesario para dirigir el aspecto y la dinámica. lightx2v/Wan2.2-Distill-Loras
- WAN 2.x VAE
- Rol: el VAE utilizado en todo el lienzo para codificar y decodificar latentes de video para que la calidad de la imagen y la respuesta de color permanezcan consistentes en todas las ramas.
- Codificador de texto WAN 2.x (familia uMT5 XXL)
- Rol: el codificador de texto especializado utilizado por WAN 2.x; el flujo de trabajo carga el tokenizador/modelo correspondiente para que los avisos condicionen adecuadamente el movimiento y la apariencia.
- Codificador de Visión CLIP (familia ViT‑H)
- Rol: extrae incrustaciones de fotogramas iniciales y finales robustas para la ruta de animación de Primer-a-Último-Fotograma, mejorando la coherencia temporal durante la interpolación.
- Rama de generación de audio
- Rol: síntesis de audio opcional consciente del fotograma que se condiciona en el tiempo visual y los avisos de texto para crear elementos de banda sonora alineados con el corte visual.
- Interpolación de video RIFE
- Rol: aumenta la suavidad temporal y la tasa de fotogramas aparente insertando fotogramas intermedios de alta calidad, ideal para bucles cinematográficos cortos. Utilizado a través de la integración ComfyUI VFI. GACLove/ComfyUI-VFI
Cómo usar ComfyUI WAN 2.2 Flujo de Trabajo Suave v5.0#
El lienzo está organizado en cuatro modos de producción que puedes habilitar desde los interruptores en el lienzo. A través de los modos verás grupos consistentes para Puntos de Control, CLIP/VAE, Avisos, Tamaño y Longitud del Video, Muestreo y Resultado del Video. Cada modo puede opcionalmente habilitar la generación de audio a través del interruptor de Habilitación de Audio.
Texto a Video (T2V)#
Ingresa tu descripción en el aviso Positivo y refina con un aviso Negativo. El texto del aviso se codifica en CLIPTextEncode (#90) y se combina con el VAE WAN 2.x. WanImageToVideo (#50) actúa como el punto de entrada T2V incluso sin una imagen de inicio, produciendo una secuencia latente inicial que pasa a los muestreadores y luego a la decodificación. La interpolación RIFE RIFEInterpolation (#160) suaviza la secuencia antes de que VHS_VideoCombine (#77) exporte tu MP4. Usa el Habilitador de Audio para generar una banda sonora a partir de tus fotogramas y aviso de audio.
Imagen a Video (I2V)#
Deja caer una sola imagen en el grupo IMAGE, luego establece tus dimensiones y duración del video. La imagen se redimensiona y envía a WanImageToVideo (#172) junto con tus avisos de texto, lo que produce un latente consciente del movimiento. Los muestreadores emparejados refinan el latente, luego el resultado se decodifica, amplía y se interpola para una salida suave. Habilita el grupo de Audio I2V si deseas sonido generado que coincida con el contenido animado.
Animación de Primer a Último Fotograma (F2LF)#
Proporciona un fotograma de inicio y uno de fin. El gráfico codifica ambos con Visión CLIP y los pasa a WanFirstLastFrameToVideo (#343), que planea una ruta entre las primeras y últimas imágenes respetando tus avisos de texto. Los muestreadores High y Low SmoothMix luego esculpen los fotogramas intermedios antes de la decodificación e interpolación. El resultado es exportado por VHS_VideoCombine (#332), y una rama de audio opcional puede sintetizar una banda sonora alineada con la transición visual.
Audio a Video (A2V)#
Carga un clip existente en VHS_LoadVideo (#145). El flujo de trabajo puede opcionalmente interpolarlo para mayor suavidad, luego la rama de audio crea sonido basado en los visuales y tu aviso de audio. VHS_VideoCombine (#148) mezcla la pista y exporta un nuevo archivo. Usa la vista previa del último fotograma en el lienzo para verificar rápidamente la consistencia visual antes de exportar.
Exportaciones y vistas previas de último fotograma#
Cada modo termina con un grupo de Resultado de Video que escribe un MP4 a través de los nodos VHS_VideoCombine de VideoHelperSuite. Un panel de Último Fotograma dedicado guarda y muestra una vista previa del fotograma final para que puedas juzgar la iluminación, el color y la calidad del sujeto de un vistazo antes de ejecutar generaciones completas. La funcionalidad de E/S de video y vista previa es proporcionada por VideoHelperSuite. pythongosssss/ComfyUI-VideoHelperSuite
Nodos clave en ComfyUI WAN 2.2 Flujo de Trabajo Suave v5.0#
WanImageToVideo (#50)
- Este es el punto de entrada de video WAN 2.x tanto para T2V como para I2V dentro de WanVideoWrapper. Fusiona tus avisos con el VAE (y una imagen de inicio opcional) para construir un latente de movimiento inicial. Los controles de tamaño y longitud aguas arriba deben respetar las restricciones amigables con el modelo, y este nodo alimenta a los muestreadores emparejados que siguen. Los detalles de implementación y actualizaciones de WanVideoWrapper se mantienen aquí: kijai/ComfyUI-WanVideoWrapper.
WanFirstLastFrameToVideo (#343)
- Impulsa la ruta de Primer-a-Último-Fotograma al ingerir incrustaciones de Visión CLIP para ambos fotogramas límite junto con tus avisos de texto. Crea una trayectoria guiada que preserva la identidad del sujeto y la disposición de la escena mientras se transforma hacia el objetivo. Mantén los fotogramas de inicio y fin alineados en escala y composición del sujeto para las transiciones más naturales.
KSamplerWithNAG (Avanzado) (#234)
- Aplica Guía Asistida por Ruido para mejorar la adherencia a los avisos y reducir la deriva temporal en clips cortos. Ajusta su guía solo cuando veas sobre-restricción o sub-restricción; funciona en conjunto con el muestreador estándar y tu aviso negativo. Consulta el método y la guía de ajuste en los documentos del proyecto: scottmudge/ComfyUI-NAG.
RIFEInterpolation (#160)
- Inserta intermedios de alta calidad para mejorar la suavidad del movimiento antes de codificar a video. Úsalo cuando tu secuencia base se vea bien fotograma a fotograma pero se sienta un poco entrecortada al reproducir. El nodo integra la implementación RIFE proporcionada por la extensión ComfyUI VFI. GACLove/ComfyUI-VFI
VHS_VideoCombine (#77)
- Maneja la codificación final, mezcla de audio opcional y guardado de metadatos. Mantén su formato y formato de píxeles consistente en todos los proyectos para una reproducción predecible. VideoHelperSuite también potencia las utilidades de vista previa rápida del último fotograma utilizadas en otras partes del lienzo. pythongosssss/ComfyUI-VideoHelperSuite
Extras opcionales#
- Usa puntos de control SmoothMix Alto vs Bajo para equilibrar calidad y velocidad. Alto es ideal para tomas principales y la última iteración, Bajo te ayuda a iterar más rápido en avisos y tiempos.
- Mantén el ancho y la altura del video en múltiplos amigables con el modelo para minimizar artefactos y acelerar el muestreo.
- Si un clip T2V parece estático, refresca la semilla o refuerza los verbos de movimiento en el aviso antes de aumentar la profundidad de muestreo.
- Para F2LF, elige fotogramas límite con ángulos de cámara y exposición similares. Los grandes saltos en la composición son más difíciles de resolver suavemente.
- El lienzo incluye un asistente de Avisos Adaptativos para frases más ricas cuando deseas variaciones rápidas sin reescribir manualmente los avisos. Alectriciti/comfyui-adaptiveprompts
Este WAN 2.2 Flujo de Trabajo Suave v5.0 fue diseñado para minimizar la fricción al cambiar de modo mientras mantiene los resultados suaves y cinematográficos. Comienza con el modo que coincide con tu entrada, establece tamaño y duración, escribe un par de avisos claro, y deja que los muestreadores más RIFE hagan el resto.
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a los creadores de Civitai por el flujo de trabajo Smooth Workflow Wan 2.2 AIO y los modelos Smooth Mix Wan 2.2 14B I2V/T2V, kijai por ComfyUI-WanVideoWrapper, y lightx2v (ModelTC) por Wan2.2-Distill-Loras por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y repositorios enlazados a continuación.
Recursos#
- Civitai/Smooth Workflow Wan 2.2 AIO (Flujo de Trabajo v5.0)
- Documentación / Notas de lanzamiento: Fuente del flujo de trabajo
- Civitai/Smooth Mix Wan 2.2 14B (I2V/T2V)
- Documentación / Notas de lanzamiento: Modelos SmoothMix WAN 2.2 I2V/T2V
- kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
- lightx2v/Wan2.2-Distill-Loras
- GitHub: ModelTC/LightX2V
- Hugging Face: lightx2v/Wan2.2-Distill-Loras
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.

