Wan2.2 VACE Fun es un flujo de trabajo creativo, impulsado por indicaciones, de referencia a video para ComfyUI. Proporciona una sola imagen de referencia y una descripción de texto, y el gráfico anima tu sujeto en un video coherente mientras preserva la identidad y el estilo. Basado en el módulo Wan 2.2 VACE con un muestreador escalonado, equilibra movimiento, fidelidad y tiempo de ejecución, lo que lo hace ideal para reels de conceptos, pruebas de personajes y clips cortos de narración de historias.
Este flujo de trabajo ComfyUI Wan2.2 VACE Fun se centra en tres cosas: fuerte adherencia al sujeto de la imagen de referencia, movimiento expresivo guiado por tu indicación, y exportación confiable a un video MP4. Úsalo cuando necesites iteraciones rápidas que aún se sientan cinematográficas, o cuando quieras convertir una imagen fija en una escena dinámica sin una compleja animación por fotogramas clave.
El flujo de trabajo se ejecuta en etapas: configuras controles globales, preparas la imagen de referencia, escribes indicaciones, generas un video latente condicionado por VACE, lo refinas mediante muestreo escalonado, luego lo decodificas y exportas. Los grupos están organizados para que puedas trabajar de arriba a abajo con mínima fricción.
Este grupo centraliza los controles que el resto del gráfico lee: width
, height
, length
(frames), fps
, steps
, sampling_shift
, y seed
. Cambia estos una vez y cada nodo descendente recoge los valores a través de pares SetNode
/GetNode
. La resolución y la longitud influyen tanto en la calidad como en la VRAM, mientras que fps
controla el movimiento percibido en el MP4 final. Mantén width
y height
alineados al aspecto de tu imagen de referencia para evitar estiramientos. La semilla está expuesta para la reproducibilidad en varias ejecuciones.
Carga tu sujeto con LoadImage
(#118), luego la imagen se redimensiona en ImageResizeKJv2
(#112) para que coincida con tu resolución objetivo. RMBG
(#73) elimina el fondo para que VACE pueda fijarse en el sujeto del primer plano de manera más confiable, ayudando a la consistencia de la identidad entre los cuadros. Un nodo de vista previa te permite inspeccionar rápidamente el recorte antes de la generación. La imagen procesada se almacena como referencia y se alimenta hacia abajo.
Las indicaciones se codifican con CLIP Text Encode (Positive Prompt)
(#56) y CLIP Text Encode (Negative Prompt)
(#54) usando el codificador UMT5-XXL. Escribe verbos de acción claros, lenguaje de cámara y contexto de escena en la indicación positiva para dirigir el movimiento y la composición. Usa la indicación negativa para suprimir artefactos no deseados, estilos o desorden; el fraseo multilingüe funciona bien. Las salidas proporcionan un rico acondicionamiento para el paso VACE y los muestreadores que siguen.
El gráfico carga los pesos Wan 2.2 T2V A14B y aplica el módulo Wan2.2 VACE Fun, luego aumenta la atención y la programación para la estabilidad. La rama HIGH pasa por PathchSageAttentionKJ
(#8) y ModelSamplingSD3
(#57), mientras que la rama LOW usa LoraLoaderModelOnly
(#61), PathchSageAttentionKJ
(#66), y ModelSamplingSD3
(#20). Esta división te da un paso inicial enfocado en el detalle y un refinamiento enfocado en el movimiento. Todas las elecciones de modelos están preconectadas; simplemente ejecuta el gráfico una vez que tus configuraciones e indicaciones estén listas.
WanVaceToVideo
(#43) inyecta tu reference_image
, acondicionamiento positivo/negativo, y VAE, luego genera una secuencia inicial de video latente dimensionada por width
, height
, y length
. Piensa en esto como el momento en que la imagen fija "aprende" a moverse según tu indicación. El nodo devuelve tanto las corrientes de acondicionamiento para reutilización como un entero para el recorte latente para mantener la consistencia de cuadros en la tubería. No se requiere máscara manual o video de control a menos que quieras experimentar.
Una pila de muestreador de tres etapas da forma al resultado. El primer paso KSamplerAdvanced
(#108) siembra la secuencia latente para la composición general y las señales de movimiento. El segundo paso KSamplerAdvanced
(#107) profundiza el detalle y la estabilidad temporal usando el mismo acondicionamiento mientras preserva el diseño de la escena. El paso final KSamplerAdvanced
(#109) se ejecuta en la variante LOW para pulir el movimiento y reducir artefactos, logrando un equilibrio práctico entre velocidad y calidad. TrimVideoLatent
(#65) alinea los cuadros a la longitud objetivo antes de decodificar.
VAEDecode
(#19) convierte los latentes refinados en cuadros RGB. VHS_VideoCombine
(#69) luego ensambla esos cuadros en un MP4 a la fps
elegida, guardando con un patrón de nombre de archivo sensato. Este grupo está optimizado para bucles de revisión rápida, por lo que puedes iterar en indicaciones, longitud o resolución sin tocar el resto del gráfico. Cuando estés satisfecho, mantén la misma semilla para repetibilidad o cámbiala para explorar variaciones.
WanVaceToVideo
(#43)
El corazón de Wan2.2 VACE Fun: vincula la semántica de la indicación a tu imagen de referencia y produce los latentes iniciales del video. Ajusta width
, height
, y length
aquí a través de las configuraciones compartidas para que coincidan con tu objetivo creativo y presupuesto de VRAM. Mantén el sujeto de referencia centrado e iluminado para una mejor retención de identidad. Si el movimiento se siente mal, revisa la indicación positiva para enfatizar acciones, movimientos de cámara y palabras de tiempo.
KSamplerAdvanced
(#108, #107, #109)
Una cadena de muestreador escalonada que mejora progresivamente la composición, el detalle y la suavidad del movimiento. Aumenta steps
cuando necesites más detalle o estabilidad temporal, y reutiliza la misma seed
para comparar cambios de manera justa. El paso final en la variante LOW a menudo limpia artefactos sutiles; si los resultados parecen demasiado suaves, desplaza algunos pasos a los pasos anteriores. sampling_shift
está expuesto para ajustar el cronograma hacia énfasis de movimiento o textura más fina.
RMBG
(#73)
La eliminación automática del fondo mejora la adherencia del sujeto para Wan2.2 VACE Fun, especialmente con escenas ocupadas o de bajo contraste. Usa referencias de alta calidad, no borrosas, para minimizar errores de recorte. Si deseas fondos naturales, reemplázalos más tarde en postproducción o compón una placa detrás de los cuadros decodificados.
TrimVideoLatent
(#65)
Mantiene la secuencia latente alineada a la length
solicitada. Si extiendes o acortas un clip, deja que este nodo maneje la contabilidad; previene el sutil desplazamiento de cuadros a través de las etapas del muestreador.
VHS_VideoCombine
(#69)
Codifica los cuadros finales a MP4. Ajusta frame_rate
para controlar la duración del clip en relación con length
(la duración es igual a cuadros divididos por fps). Aumenta la calidad para la entrega final o redúcela para vistas previas rápidas; una mayor calidad aumenta el tamaño del archivo y el tiempo de codificación.
width
y height
objetivo para evitar estiramientos y recortes no deseados.length
y fps
sincronizados con tu objetivo: mayor fps se ve más suave pero acorta la duración total para el mismo conteo de cuadros.RMBG
y añade una breve cláusula de identidad en la indicación (ropa, color o equipo).Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @BenjisAIPlayground por el flujo de trabajo "Wan2.2 VACE Fun Demo" y por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.