Este flujo de trabajo ofrece un Reemplazo de Personajes en Video (MoCha) de extremo a extremo: intercambia un intérprete en un video real con un nuevo personaje mientras preserva el movimiento, la iluminación, la perspectiva de la cámara y la continuidad de la escena. Basado en la vista previa Wan 2.1 MoCha 14B, alinea una identidad de referencia con la actuación de origen, luego sintetiza un clip editado coherente y una comparación opcional lado a lado. Está diseñado para cineastas, artistas de VFX y creadores de IA que necesitan intercambios de personajes precisos y de alta calidad con una limpieza manual mínima.
El pipeline combina un enmascaramiento robusto del primer fotograma con Segment Anything 2 (SAM 2), incrustaciones de imagen conscientes del movimiento de MoCha, muestreo/decodificación WanVideo, y una asistencia opcional de retrato que mejora la fidelidad del rostro. Proporcionas un video de origen y una o dos imágenes de referencia; el flujo de trabajo produce un video de reemplazo terminado más una comparación A/B, haciendo que la evaluación iterativa del Reemplazo de Personajes en Video (MoCha) sea rápida y práctica.
Wan 2.1 MoCha 14B preview. Generador de video principal para el reemplazo de personajes; impulsa la síntesis temporalmente coherente a partir de incrustaciones de imagen de MoCha y sugerencias de texto. Pesos del modelo distribuidos en el formato Comfy de WanVideo por Kijai, incluidas variantes escaladas fp8 para eficiencia. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Método de condicionamiento de identidad/movimiento e implementación de referencia que inspiró la etapa de incrustación utilizada aquí; útil para entender la selección de referencia y la alineación de poses para el Reemplazo de Personajes en Video (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentación de alta calidad guiada por puntos para aislar al actor en el primer fotograma; las máscaras limpias son cruciales para intercambios estables y sin artefactos. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Asistencia opcional de imagen única que genera un retrato limpio y de cerca para usar como segunda referencia, mejorando la preservación de la identidad facial en tomas difíciles. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE de video utilizado por las etapas de muestreo/decodificación de Wan para un procesamiento latente eficiente. Hugging Face: Kijai/WanVideo_comfy
Lógica general
Video de Entrada
Máscara del Primer Fotograma
ref1
ref2 (Opcional)
Paso 1 - Cargar modelos
Paso 2 - Cargar imagen para edición
Paso 4 - Sugerencia
Escena 2 - Muestreo
Mocha
MochaEmbeds codifica el video de origen, la máscara del primer fotograma y tu(s) imagen(es) de referencia en incrustaciones de imagen de MoCha. Las incrustaciones capturan identidad, textura y pistas de apariencia local mientras respetan la trayectoria de movimiento original. Si existe ref2, se usa para fortalecer el detalle facial; de lo contrario, ref1 por sí sola lleva la identidad.Modelo Wan
Muestreo Wan
MochaEmbeds (#302). Codifica el clip de origen, la máscara del primer fotograma y las imágenes de referencia en incrustaciones de imagen de MoCha que dirigen la identidad y la apariencia. Favorece una pose de ref1 que coincida con el primer fotograma, e incluye ref2 para un rostro limpio si ves deriva. Si los bordes tiemblan, expande la máscara ligeramente antes de incrustar para evitar fugas de fondo.
Sam2Segmentation (#326). Convierte tus clics positivos/negativos en una máscara del primer fotograma. Prioriza bordes limpios alrededor del cabello y los hombros; agrega algunos puntos negativos para excluir accesorios cercanos. Expandir la máscara una pequeña cantidad después de la segmentación ayuda a la estabilidad cuando el actor se mueve.
WanVideoSampler (#314). Conduce el trabajo pesado del Reemplazo de Personajes en Video (MoCha) al deshacer el ruido de los latentes en fotogramas. Más pasos mejoran el detalle y la estabilidad temporal; menos pasos aceleran la iteración. Mantén el programador consistente en las ejecuciones cuando estés comparando cambios a referencias o máscaras.
WanVideoSetBlockSwap (#344). Cuando la VRAM es limitada, habilita un intercambio de bloques más profundo para ajustar la ruta Wan 2.1 MoCha 14B en GPUs más pequeñas. Espera alguna pérdida de velocidad; a cambio puedes mantener la resolución y la longitud de la secuencia.
VHS_VideoCombine (#355). Escribe el MP4 final e incrusta los metadatos del flujo de trabajo. Usa la misma velocidad de fotogramas que la fuente (ya conectada) y salida yuv420p para una amplia compatibilidad de reproductores.
Consejos para intercambios limpios
Referencias útiles
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente al Benji’s AI Playground de “Reemplazo de Personajes en Video (MoCha)” por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.