Reemplazo de Personajes en Video (MoCha) en ComfyUI | Intercambio de Personajes Sin Interrupciones

Flujo de trabajo de Reemplazo de Personajes en Video (MoCha) para ComfyUI#

Este flujo de trabajo ofrece un Reemplazo de Personajes en Video (MoCha) de extremo a extremo: intercambia un intérprete en un video real con un nuevo personaje mientras preserva el movimiento, la iluminación, la perspectiva de la cámara y la continuidad de la escena. Basado en la vista previa Wan 2.1 MoCha 14B, alinea una identidad de referencia con la actuación de origen, luego sintetiza un clip editado coherente y una comparación opcional lado a lado. Está diseñado para cineastas, artistas de VFX y creadores de IA que necesitan intercambios de personajes precisos y de alta calidad con una limpieza manual mínima.

El pipeline combina un enmascaramiento robusto del primer fotograma con Segment Anything 2 (SAM 2), incrustaciones de imagen conscientes del movimiento de MoCha, muestreo/decodificación WanVideo, y una asistencia opcional de retrato que mejora la fidelidad del rostro. Proporcionas un video de origen y una o dos imágenes de referencia; el flujo de trabajo produce un video de reemplazo terminado más una comparación A/B, haciendo que la evaluación iterativa del Reemplazo de Personajes en Video (MoCha) sea rápida y práctica.

Modelos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

Wan 2.1 MoCha 14B preview. Generador de video principal para el reemplazo de personajes; impulsa la síntesis temporalmente coherente a partir de incrustaciones de imagen de MoCha y sugerencias de texto. Pesos del modelo distribuidos en el formato Comfy de WanVideo por Kijai, incluidas variantes escaladas fp8 para eficiencia. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Método de condicionamiento de identidad/movimiento e implementación de referencia que inspiró la etapa de incrustación utilizada aquí; útil para entender la selección de referencia y la alineación de poses para el Reemplazo de Personajes en Video (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentación de alta calidad guiada por puntos para aislar al actor en el primer fotograma; las máscaras limpias son cruciales para intercambios estables y sin artefactos. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Asistencia opcional de imagen única que genera un retrato limpio y de cerca para usar como segunda referencia, mejorando la preservación de la identidad facial en tomas difíciles. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE de video utilizado por las etapas de muestreo/decodificación de Wan para un procesamiento latente eficiente. Hugging Face: Kijai/WanVideo_comfy

Cómo usar el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

Lógica general

El flujo de trabajo toma un clip de origen, prepara una máscara del primer fotograma y codifica tus referencias de personaje en incrustaciones de imagen de MoCha. Wan 2.1 luego muestrea los fotogramas editados y los decodifica a video. En paralelo, una pequeña rama de edición de imágenes puede generar un retrato para actuar como segunda referencia opcional para el detalle del rostro. El gráfico también renderiza una comparación lado a lado para evaluar rápidamente tu resultado de Reemplazo de Personajes en Video (MoCha).

Video de Entrada

Carga un video en “Video de Entrada.” El flujo de trabajo normaliza los fotogramas (recorte predeterminado de 1280×720) y preserva automáticamente la velocidad de fotogramas del clip para la exportación final. El primer fotograma se expone para inspección y enmascaramiento posterior. Un nodo de vista previa muestra los fotogramas de entrada en bruto para que puedas confirmar el recorte y la exposición antes de proceder.

Máscara del Primer Fotograma

Usa el editor de puntos interactivo para hacer clic en puntos positivos sobre el actor y puntos negativos en el fondo; SAM 2 convierte estos clics en una máscara precisa. Un pequeño paso de crecimiento y desenfoque expande la máscara para proteger contra halos en los bordes y movimiento entre fotogramas. El mate resultante se previsualiza, y la misma máscara se envía a la etapa de incrustación de MoCha. Un buen enmascaramiento en este grupo mejora materialmente la estabilidad en el Reemplazo de Personajes en Video (MoCha).

ref1

“ref1” es tu imagen principal de identidad de personaje. El flujo de trabajo elimina el fondo, centra el recorte y redimensiona para coincidir con la resolución de trabajo del video. Para obtener mejores resultados, usa una referencia de fondo limpio cuya pose coincida aproximadamente con el actor de origen en el primer fotograma; el codificador de MoCha se beneficia de un punto de vista y una iluminación similares.

ref2 (Opcional)

“ref2” es opcional pero recomendado para caras. Puedes proporcionar un retrato directamente, o dejar que el flujo de trabajo genere uno en la rama de muestreo a continuación. La imagen se elimina del fondo y se redimensiona como ref1. Cuando está presente, ref2 refuerza las características faciales para que la identidad se mantenga durante el movimiento, oclusiones y cambios de perspectiva.

Paso 1 - Cargar modelos

Este grupo carga el VAE de Wan 2.1 y el modelo de vista previa Wan 2.1 MoCha 14B, más un WanVideo LoRA opcional para destilación. Estos activos impulsan la etapa principal de muestreo de video. El conjunto de modelos aquí es intensivo en VRAM; se incluye un ayudante de intercambio de bloques más adelante para ajustar secuencias grandes en GPUs modestas.

Paso 2 - Cargar imagen para edición

Si prefieres construir ref2 a partir de tu propia imagen fija, suéltala aquí. La rama escala la imagen y la dirige al codificador Qwen para el condicionamiento. Puedes omitir toda esta rama si ya tienes un buen retrato facial.

Paso 4 - Sugerencia

Proporciona una breve indicación de texto que describa el retrato en primer plano previsto (por ejemplo, “Próxima Escena: Primer plano de cámara, retrato del personaje”). Qwen‑Image‑Edit usa esto para refinar o sintetizar una imagen facial limpia que se convierte en ref2. Mantén la descripción simple; esto es una asistencia, no un restyling completo.

Escena 2 - Muestreo

La rama Qwen ejecuta un muestreo rápido para generar una sola imagen de retrato bajo el Lightning LoRA. Esa imagen se decodifica, se previsualiza y, después de una ligera eliminación de fondo, se envía como ref2. Este paso a menudo mejora la fidelidad del rostro sin cambiar tu aspecto central de Reemplazo de Personajes en Video (MoCha).

Mocha

La etapa MochaEmbeds codifica el video de origen, la máscara del primer fotograma y tu(s) imagen(es) de referencia en incrustaciones de imagen de MoCha. Las incrustaciones capturan identidad, textura y pistas de apariencia local mientras respetan la trayectoria de movimiento original. Si existe ref2, se usa para fortalecer el detalle facial; de lo contrario, ref1 por sí sola lleva la identidad.

Modelo Wan

El cargador del modelo Wan carga la vista previa Wan 2.1 MoCha 14B en memoria y (opcionalmente) aplica un LoRA. Una herramienta de intercambio de bloques está conectada para que puedas intercambiar velocidad por memoria cuando sea necesario. Esta elección de modelo establece la capacidad y coherencia general del Reemplazo de Personajes en Video (MoCha).

Muestreo Wan

El muestreador consume el modelo Wan, las incrustaciones de imagen de MoCha y cualquier incrustación de texto para generar fotogramas latentes editados, luego los decodifica de nuevo a imágenes. Se producen dos salidas: el video de intercambio final y una comparación lado a lado con los fotogramas originales. La velocidad de fotogramas se transmite desde el cargador para que el ritmo de movimiento coincida automáticamente con la fuente.

Nodos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

MochaEmbeds (#302). Codifica el clip de origen, la máscara del primer fotograma y las imágenes de referencia en incrustaciones de imagen de MoCha que dirigen la identidad y la apariencia. Favorece una pose de ref1 que coincida con el primer fotograma, e incluye ref2 para un rostro limpio si ves deriva. Si los bordes tiemblan, expande la máscara ligeramente antes de incrustar para evitar fugas de fondo.
Sam2Segmentation (#326). Convierte tus clics positivos/negativos en una máscara del primer fotograma. Prioriza bordes limpios alrededor del cabello y los hombros; agrega algunos puntos negativos para excluir accesorios cercanos. Expandir la máscara una pequeña cantidad después de la segmentación ayuda a la estabilidad cuando el actor se mueve.
WanVideoSampler (#314). Conduce el trabajo pesado del Reemplazo de Personajes en Video (MoCha) al deshacer el ruido de los latentes en fotogramas. Más pasos mejoran el detalle y la estabilidad temporal; menos pasos aceleran la iteración. Mantén el programador consistente en las ejecuciones cuando estés comparando cambios a referencias o máscaras.
WanVideoSetBlockSwap (#344). Cuando la VRAM es limitada, habilita un intercambio de bloques más profundo para ajustar la ruta Wan 2.1 MoCha 14B en GPUs más pequeñas. Espera alguna pérdida de velocidad; a cambio puedes mantener la resolución y la longitud de la secuencia.
VHS_VideoCombine (#355). Escribe el MP4 final e incrusta los metadatos del flujo de trabajo. Usa la misma velocidad de fotogramas que la fuente (ya conectada) y salida yuv420p para una amplia compatibilidad de reproductores.

Extras opcionales#

Consejos para intercambios limpios
- Usa un ref1 con un fondo simple y una pose cercana al primer fotograma.
- Mantén ref2 como un retrato facial frontal y nítido para estabilizar la identidad.
- Si ves halos en los bordes, expande y desenfoca ligeramente la máscara del primer fotograma, luego vuelve a incrustar.
- Las escenas pesadas se benefician del ayudante de intercambio de bloques; de lo contrario mantenlo apagado para mayor velocidad.
- El flujo de trabajo renderiza un video de comparación A/B; úsalo para juzgar los cambios rápidamente.
Referencias útiles
- MoCha por Orange‑3DV‑Team: GitHub, Hugging Face
- Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2: facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente al Benji’s AI Playground de “Reemplazo de Personajes en Video (MoCha)” por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

Autores de “Reemplazo de Personajes en Video (MoCha)”/Reemplazo de Personajes en Video (MoCha)
- Docs / Notas de Lanzamiento @Benji’s AI Playground: Video de YouTube

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Flujo de trabajo de Reemplazo de Personajes en Video (MoCha) para ComfyUI#

Modelos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

Cómo usar el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

Nodos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI#

Extras opcionales#

Agradecimientos#

Recursos#

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

ReActor | Intercambio Rápido de Rostros

ReActor | Intercambio Rápido de Rostros

Flux Depth y Canny

Wan 2.1 Control LoRA | Profundidad y Mosaico

Mejorador de Video Fácil para Grabaciones | Mejora Pro HD

Wan 2.2 Generación de Imágenes | Paquete de Flujo de Trabajo 2-en-1

Qwen Image Edit Plus 2511 LoRA Inferencia | AI Toolkit ComfyUI