Intercambia cualquier hablante en cámara por tu propio personaje mientras mantienes el movimiento, las expresiones y las formas de la boca alineadas con el audio original. Este flujo de trabajo de ComfyUI, construido alrededor de Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial, detecta la pose del cuerpo y los marcos faciales de un video de entrada, los redirige a una sola imagen de referencia y genera un resultado coherente y sincrónico con el discurso.
El flujo de trabajo es adecuado para editores, creadores e investigadores que buscan un reemplazo de personajes confiable para entrevistas, carretes, VTubing, diapositivas o cortos doblados. Proporciona un clip fuente y una imagen de referencia limpia; la línea de producción recrea la pose y la articulación labial en el nuevo personaje y mezcla la banda sonora original en la exportación final.
El gráfico se mueve a través de siete grupos: cargar entradas, construir una referencia, preprocesar pose/rostro y máscaras, cargar modelos de generación, ejecutar el reemplazo de personajes, vista previa de diagnósticos, luego exportar con audio.
Importa tu clip fuente con VHS_LoadVideo (#63). El nodo expone ancho/alto opcionales para redimensionar y produce marcos de video, audio y conteo de marcos para uso posterior. Mantén el clip recortado cerca de la parte hablada si deseas un procesamiento más rápido. El audio se pasa al exportador para que el video final se mantenga alineado con la banda sonora original.
Proporciona un retrato limpio del personaje objetivo. La imagen se redimensiona con ImageResizeKJv2 (#64) para coincidir con tu resolución de trabajo y se almacena como la referencia canónica utilizada por CLIP Vision y el generador. Favorece una imagen nítida y frontal bajo una iluminación similar a tu toma fuente para reducir el desvío de color y sombreado.
OnnxDetectionModelLoader (#178) carga YOLO y ViTPose, luego PoseAndFaceDetection (#172) analiza cada marco para producir puntos clave de cuerpo completo y recortes de rostro por marco. Sam2Segmentation (#104) crea una máscara de primer plano utilizando ya sea cuadros delimitadores detectados o puntos de fotogramas clave; si una pista falla, cambia a la otra para una mejor separación. La máscara se refina con GrowMaskWithBlur (#182) y se bloquea con BlockifyMask (#108) para darle al generador una región de sujeto estable y sin ambigüedades. Superposiciones opcionales (DrawViTPose (#173) y DrawMaskOnImage (#99)) te ayudan a verificar visualmente la cobertura de pose y la calidad de la máscara antes de la generación.
WanVideoModelLoader (#22) carga Wan 2.2 Animate 14B, y WanVideoVAELoader (#38) proporciona el VAE. Las características de identidad del retrato de referencia son codificadas por CLIPVisionLoader (#71) y WanVideoClipVisionEncode (#70). El estilo y la estabilidad se ajustan con WanVideoLoraSelectMulti (#171), mientras que WanVideoSetLoRAs (#48) y WanVideoSetBlockSwap (#50) aplican LoRAs y configuraciones de intercambio de bloques al modelo; estas herramientas provienen de la biblioteca de envoltorios Wan. Consulta ComfyUI‑WanVideoWrapper para detalles de implementación.
WanVideoTextEncodeCached (#65) acepta una breve indicación descriptiva si deseas influir en la apariencia o el estado de ánimo de la toma. WanVideoAnimateEmbeds (#62) fusiona la imagen de referencia, la pose por marco, los recortes de rostro, el fondo y la máscara en incrustaciones de imagen que preservan la identidad mientras coinciden con el movimiento y las formas de la boca. WanVideoSampler (#27) luego renderiza los marcos; su programador y pasos controlan el equilibrio entre nitidez y movimiento. Los marcos decodificados de WanVideoDecode (#28) se entregan a inspectores de tamaño/conteo para que puedas confirmar las dimensiones antes de la exportación.
Para una rápida verificación de calidad, el flujo de trabajo concatena las entradas clave con ImageConcatMulti (#77, #66) para formar una simple tira de comparación del referente, recortes de rostro, visualización de pose y un marco en bruto. Úsalo para verificar la coherencia de las pistas de identidad y las formas de la boca justo después de una prueba.
VHS_VideoCombine (#30) produce el video final y mezcla el audio original para un tiempo perfecto. Se incluyen exportadores adicionales para que puedas guardar diagnósticos intermedios o cortes alternativos si es necesario. Para obtener mejores resultados en clips más largos, exporta primero una prueba corta, luego itera en mezclas de LoRA y máscaras antes de comprometerte con un render completo.
VHS_LoadVideo (#63)
Carga marcos y el audio original en un solo paso. Úsalo para establecer una resolución de trabajo que se ajuste a tu presupuesto de GPU y para confirmar el conteo de marcos que consumirán los nodos posteriores. De ComfyUI‑VideoHelperSuite.
PoseAndFaceDetection (#172)
Ejecuta YOLO y ViTPose para extraer cajas de personas, puntos clave de cuerpo completo y recortes de rostro por marco. Los buenos puntos clave son la columna vertebral de la transferencia de movimiento creíble y se reutilizan directamente para la articulación labial. De ComfyUI‑WanAnimatePreprocess.
Sam2Segmentation (#104)
Construye una máscara de primer plano alrededor del sujeto usando ya sea cuadros delimitadores o pistas de puntos de fotogramas clave. Si se omiten el cabello o las manos, cambia el tipo de pista o expande la configuración de desenfoque/crecimiento antes de bloquear. De ComfyUI‑segment‑anything‑2.
WanVideoLoraSelectMulti (#171)
Te permite mezclar LoRAs como Lightx2v y Wan22 Relight para equilibrar la estabilidad del movimiento, la consistencia de la iluminación y la fuerza de la identidad. Aumenta el peso de un LoRA para más influencia, pero ten cuidado con la sobreestilización en los rostros. De ComfyUI‑WanVideoWrapper.
WanVideoAnimateEmbeds (#62)
Combina el retrato de referencia, las imágenes de poses, los recortes de rostro, los marcos de fondo y la máscara en una representación compacta que condiciona a Wan 2.2 Animate. Asegúrate de que width, height y num_frames coincidan con tu exportación prevista para evitar artefactos de remuestreo. De ComfyUI‑WanVideoWrapper.
WanVideoSampler (#27)
Genera los marcos finales. Usa pasos más altos y un programador más estable cuando necesites detalles más nítidos, o una programación más ligera para vistas previas rápidas. Para clips muy largos, puedes introducir opcionalmente controles de ventana de contexto conectando WanVideoContextOptions (#110) para mantener la consistencia temporal a través de ventanas.
VHS_VideoCombine (#30)
Exporta el video terminado y mezcla el audio original para que los movimientos labiales permanezcan sincronizados. La opción de recortar al audio mantiene la duración alineada con la banda sonora. De ComfyUI‑VideoHelperSuite.
Sam2Segmentation entre cuadros delimitadores y puntos de fotogramas clave, luego crece ligeramente la máscara antes de bloquear.WanVideoSetBlockSwap (#50) y vuelve a probar.Este flujo de trabajo Wan 2.2 Animate: Intercambio de Personajes y Sincronización Labial ofrece transferencia de movimiento consistente y formas de boca sincronizadas con el discurso con una configuración mínima, haciendo que los intercambios de personajes de alta calidad sean rápidos y repetibles dentro de ComfyUI.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @MDMZ por construir todo el flujo de trabajo, a Kijai por WAN 2.2 Animate y nodos relacionados de ComfyUI, a Wan-AI por los activos Wan2.2-Animate incluyendo la detección YOLOv10m, y a Comfy-Org por el modelo Wan 2.1 Clip Vision por sus contribuciones y mantenimiento. Para detalles autorizados, por favor, consulta la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.