logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Flujos de trabajo>Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Workflow Name: RunComfy/Video-Character-Replacement-MoCha
Workflow ID: 0000...1304
Con este flujo de trabajo, puedes transformar videos existentes reemplazando actores o personajes mientras mantienes el movimiento natural, la iluminación y la perspectiva de la cámara. Diseñado para creadores que necesitan realismo cinematográfico, admite mapeo detallado de apariencia y movimiento consistente. Puedes adaptar fácilmente la identidad y expresión del personaje para adaptarse a cualquier escena. Ideal para narradores, artistas visuales y cineastas que buscan eficiencia en la producción asistida por IA. El proceso asegura una salida de video rica y realista con un mínimo esfuerzo de edición.

Flujo de trabajo de Reemplazo de Personajes en Video (MoCha) para ComfyUI

Este flujo de trabajo ofrece un Reemplazo de Personajes en Video (MoCha) de extremo a extremo: intercambia un intérprete en un video real con un nuevo personaje mientras preserva el movimiento, la iluminación, la perspectiva de la cámara y la continuidad de la escena. Basado en la vista previa Wan 2.1 MoCha 14B, alinea una identidad de referencia con la actuación de origen, luego sintetiza un clip editado coherente y una comparación opcional lado a lado. Está diseñado para cineastas, artistas de VFX y creadores de IA que necesitan intercambios de personajes precisos y de alta calidad con una limpieza manual mínima.

El pipeline combina un enmascaramiento robusto del primer fotograma con Segment Anything 2 (SAM 2), incrustaciones de imagen conscientes del movimiento de MoCha, muestreo/decodificación WanVideo, y una asistencia opcional de retrato que mejora la fidelidad del rostro. Proporcionas un video de origen y una o dos imágenes de referencia; el flujo de trabajo produce un video de reemplazo terminado más una comparación A/B, haciendo que la evaluación iterativa del Reemplazo de Personajes en Video (MoCha) sea rápida y práctica.

Modelos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI

  • Wan 2.1 MoCha 14B preview. Generador de video principal para el reemplazo de personajes; impulsa la síntesis temporalmente coherente a partir de incrustaciones de imagen de MoCha y sugerencias de texto. Pesos del modelo distribuidos en el formato Comfy de WanVideo por Kijai, incluidas variantes escaladas fp8 para eficiencia. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled

  • MoCha (Orange‑3DV‑Team). Método de condicionamiento de identidad/movimiento e implementación de referencia que inspiró la etapa de incrustación utilizada aquí; útil para entender la selección de referencia y la alineación de poses para el Reemplazo de Personajes en Video (MoCha). GitHub, Hugging Face

  • Segment Anything 2 (SAM 2). Segmentación de alta calidad guiada por puntos para aislar al actor en el primer fotograma; las máscaras limpias son cruciales para intercambios estables y sin artefactos. GitHub: facebookresearch/segment-anything-2

  • Qwen‑Image‑Edit 2509 + Lightning LoRA. Asistencia opcional de imagen única que genera un retrato limpio y de cerca para usar como segunda referencia, mejorando la preservación de la identidad facial en tomas difíciles. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

  • Wan 2.1 VAE. VAE de video utilizado por las etapas de muestreo/decodificación de Wan para un procesamiento latente eficiente. Hugging Face: Kijai/WanVideo_comfy

Cómo usar el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI

Lógica general

  • El flujo de trabajo toma un clip de origen, prepara una máscara del primer fotograma y codifica tus referencias de personaje en incrustaciones de imagen de MoCha. Wan 2.1 luego muestrea los fotogramas editados y los decodifica a video. En paralelo, una pequeña rama de edición de imágenes puede generar un retrato para actuar como segunda referencia opcional para el detalle del rostro. El gráfico también renderiza una comparación lado a lado para evaluar rápidamente tu resultado de Reemplazo de Personajes en Video (MoCha).

Video de Entrada

  • Carga un video en “Video de Entrada.” El flujo de trabajo normaliza los fotogramas (recorte predeterminado de 1280×720) y preserva automáticamente la velocidad de fotogramas del clip para la exportación final. El primer fotograma se expone para inspección y enmascaramiento posterior. Un nodo de vista previa muestra los fotogramas de entrada en bruto para que puedas confirmar el recorte y la exposición antes de proceder.

Máscara del Primer Fotograma

  • Usa el editor de puntos interactivo para hacer clic en puntos positivos sobre el actor y puntos negativos en el fondo; SAM 2 convierte estos clics en una máscara precisa. Un pequeño paso de crecimiento y desenfoque expande la máscara para proteger contra halos en los bordes y movimiento entre fotogramas. El mate resultante se previsualiza, y la misma máscara se envía a la etapa de incrustación de MoCha. Un buen enmascaramiento en este grupo mejora materialmente la estabilidad en el Reemplazo de Personajes en Video (MoCha).

ref1

  • “ref1” es tu imagen principal de identidad de personaje. El flujo de trabajo elimina el fondo, centra el recorte y redimensiona para coincidir con la resolución de trabajo del video. Para obtener mejores resultados, usa una referencia de fondo limpio cuya pose coincida aproximadamente con el actor de origen en el primer fotograma; el codificador de MoCha se beneficia de un punto de vista y una iluminación similares.

ref2 (Opcional)

  • “ref2” es opcional pero recomendado para caras. Puedes proporcionar un retrato directamente, o dejar que el flujo de trabajo genere uno en la rama de muestreo a continuación. La imagen se elimina del fondo y se redimensiona como ref1. Cuando está presente, ref2 refuerza las características faciales para que la identidad se mantenga durante el movimiento, oclusiones y cambios de perspectiva.

Paso 1 - Cargar modelos

  • Este grupo carga el VAE de Wan 2.1 y el modelo de vista previa Wan 2.1 MoCha 14B, más un WanVideo LoRA opcional para destilación. Estos activos impulsan la etapa principal de muestreo de video. El conjunto de modelos aquí es intensivo en VRAM; se incluye un ayudante de intercambio de bloques más adelante para ajustar secuencias grandes en GPUs modestas.

Paso 2 - Cargar imagen para edición

  • Si prefieres construir ref2 a partir de tu propia imagen fija, suéltala aquí. La rama escala la imagen y la dirige al codificador Qwen para el condicionamiento. Puedes omitir toda esta rama si ya tienes un buen retrato facial.

Paso 4 - Sugerencia

  • Proporciona una breve indicación de texto que describa el retrato en primer plano previsto (por ejemplo, “Próxima Escena: Primer plano de cámara, retrato del personaje”). Qwen‑Image‑Edit usa esto para refinar o sintetizar una imagen facial limpia que se convierte en ref2. Mantén la descripción simple; esto es una asistencia, no un restyling completo.

Escena 2 - Muestreo

  • La rama Qwen ejecuta un muestreo rápido para generar una sola imagen de retrato bajo el Lightning LoRA. Esa imagen se decodifica, se previsualiza y, después de una ligera eliminación de fondo, se envía como ref2. Este paso a menudo mejora la fidelidad del rostro sin cambiar tu aspecto central de Reemplazo de Personajes en Video (MoCha).

Mocha

  • La etapa MochaEmbeds codifica el video de origen, la máscara del primer fotograma y tu(s) imagen(es) de referencia en incrustaciones de imagen de MoCha. Las incrustaciones capturan identidad, textura y pistas de apariencia local mientras respetan la trayectoria de movimiento original. Si existe ref2, se usa para fortalecer el detalle facial; de lo contrario, ref1 por sí sola lleva la identidad.

Modelo Wan

  • El cargador del modelo Wan carga la vista previa Wan 2.1 MoCha 14B en memoria y (opcionalmente) aplica un LoRA. Una herramienta de intercambio de bloques está conectada para que puedas intercambiar velocidad por memoria cuando sea necesario. Esta elección de modelo establece la capacidad y coherencia general del Reemplazo de Personajes en Video (MoCha).

Muestreo Wan

  • El muestreador consume el modelo Wan, las incrustaciones de imagen de MoCha y cualquier incrustación de texto para generar fotogramas latentes editados, luego los decodifica de nuevo a imágenes. Se producen dos salidas: el video de intercambio final y una comparación lado a lado con los fotogramas originales. La velocidad de fotogramas se transmite desde el cargador para que el ritmo de movimiento coincida automáticamente con la fuente.

Nodos clave en el flujo de trabajo de Reemplazo de Personajes en Video (MoCha) de ComfyUI

  • MochaEmbeds (#302). Codifica el clip de origen, la máscara del primer fotograma y las imágenes de referencia en incrustaciones de imagen de MoCha que dirigen la identidad y la apariencia. Favorece una pose de ref1 que coincida con el primer fotograma, e incluye ref2 para un rostro limpio si ves deriva. Si los bordes tiemblan, expande la máscara ligeramente antes de incrustar para evitar fugas de fondo.

  • Sam2Segmentation (#326). Convierte tus clics positivos/negativos en una máscara del primer fotograma. Prioriza bordes limpios alrededor del cabello y los hombros; agrega algunos puntos negativos para excluir accesorios cercanos. Expandir la máscara una pequeña cantidad después de la segmentación ayuda a la estabilidad cuando el actor se mueve.

  • WanVideoSampler (#314). Conduce el trabajo pesado del Reemplazo de Personajes en Video (MoCha) al deshacer el ruido de los latentes en fotogramas. Más pasos mejoran el detalle y la estabilidad temporal; menos pasos aceleran la iteración. Mantén el programador consistente en las ejecuciones cuando estés comparando cambios a referencias o máscaras.

  • WanVideoSetBlockSwap (#344). Cuando la VRAM es limitada, habilita un intercambio de bloques más profundo para ajustar la ruta Wan 2.1 MoCha 14B en GPUs más pequeñas. Espera alguna pérdida de velocidad; a cambio puedes mantener la resolución y la longitud de la secuencia.

  • VHS_VideoCombine (#355). Escribe el MP4 final e incrusta los metadatos del flujo de trabajo. Usa la misma velocidad de fotogramas que la fuente (ya conectada) y salida yuv420p para una amplia compatibilidad de reproductores.

Extras opcionales

  • Consejos para intercambios limpios

    • Usa un ref1 con un fondo simple y una pose cercana al primer fotograma.
    • Mantén ref2 como un retrato facial frontal y nítido para estabilizar la identidad.
    • Si ves halos en los bordes, expande y desenfoca ligeramente la máscara del primer fotograma, luego vuelve a incrustar.
    • Las escenas pesadas se benefician del ayudante de intercambio de bloques; de lo contrario mantenlo apagado para mayor velocidad.
    • El flujo de trabajo renderiza un video de comparación A/B; úsalo para juzgar los cambios rápidamente.
  • Referencias útiles

    • MoCha por Orange‑3DV‑Team: GitHub, Hugging Face
    • Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
    • Segment Anything 2: facebookresearch/segment-anything-2
    • Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente al Benji’s AI Playground de “Reemplazo de Personajes en Video (MoCha)” por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos

  • Autores de “Reemplazo de Personajes en Video (MoCha)”/Reemplazo de Personajes en Video (MoCha)
    • Docs / Notas de Lanzamiento @Benji’s AI Playground: Video de YouTube

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformación Consistente del Estilo de Video

Transforma el estilo de tu video aplicando el primer fotograma reestilizado usando el flujo de trabajo de reestilización de video Wan 2.1.

ReActor | Intercambio Rápido de Rostros

Con ComfyUI ReActor, puedes intercambiar fácilmente los rostros de uno o más personajes en imágenes o videos.

ReActor | Intercambio Rápido de Rostros

Herramienta profesional de intercambio de rostros para ComfyUI que permite el reemplazo y mejora natural de rostros.

Flux Depth y Canny

Flux Tools Oficial - Flux Depth y Canny ControlNet Model

Wan 2.1 Control LoRA | Profundidad y Mosaico

Avanza la generación de video Wan 2.1 con LoRAs de profundidad y mosaico ligeros para mejorar la estructura y el detalle.

Hunyuan LoRA

Usa las LoRAs de Hunyuan descargadas para controlar el estilo y la consistencia de personajes en la generación de video.

Hunyuan Video | Texto a Video

Genera videos a partir de indicaciones de texto.

ICEdit | Edición Rápida de Imágenes con IA con Nunchaku

ICEdit+Nunchaku: Una solución para una edición de imágenes con IA ultra-rápida y precisa.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2025 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.