Substituição de Personagem em Vídeo (MoCha) no ComfyUI

ComfyUI Video Character Replacement (MoCha) Workflow

Video Character Replacement (MoCha) in ComfyUI | Seamless Character Swap

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Video Character Replacement (MoCha) Examples

Fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) para ComfyUI#

Este fluxo de trabalho oferece Substituição de Personagem em Vídeo (MoCha) de ponta a ponta: substitua um artista em um vídeo real por um novo personagem enquanto preserva movimento, iluminação, perspectiva de câmera e continuidade da cena. Construído em torno da prévia Wan 2.1 MoCha 14B, alinha uma identidade de referência à performance de origem, depois sintetiza um clipe editado coerente e uma comparação opcional lado a lado. É projetado para cineastas, artistas de VFX e criadores de IA que precisam de trocas de personagens precisas e de alta qualidade com limpeza manual mínima.

O pipeline combina mascaramento robusto do primeiro quadro com Segment Anything 2 (SAM 2), as incorporações de imagem sensíveis ao movimento de MoCha, amostragem/decodificação WanVideo e um assistente de retrato opcional que melhora a fidelidade facial. Você fornece um vídeo de origem e uma ou duas imagens de referência; o fluxo de trabalho produz um vídeo de substituição finalizado mais uma comparação A/B, tornando a avaliação iterativa da Substituição de Personagem em Vídeo (MoCha) rápida e prática.

Modelos principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

Wan 2.1 MoCha 14B preview. Gerador de vídeo principal para substituição de personagem; impulsiona a síntese temporalmente coerente a partir das incorporações de imagem MoCha e prompts de texto. Pesos do modelo distribuídos no formato Comfy WanVideo por Kijai, incluindo variantes escaladas fp8 para eficiência. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Método de condicionamento de identidade/movimento e implementação de referência que inspirou a etapa de incorporação usada aqui; útil para entender a seleção de referência e alinhamento de pose para Substituição de Personagem em Vídeo (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentação guiada por pontos de alta qualidade para isolar o ator no primeiro quadro; máscaras limpas são cruciais para trocas estáveis e sem artefatos. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistente de imagem única opcional que gera um retrato limpo e em close para usar como segunda referência, melhorando a preservação da identidade facial em cenas difíceis. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE de vídeo usado pelas etapas de amostragem/decodificação Wan para processamento latente eficiente. Hugging Face: Kijai/WanVideo_comfy

Como usar o fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

Lógica geral

O fluxo de trabalho pega um clipe de origem, prepara uma máscara do primeiro quadro e codifica suas referências de personagem em incorporações de imagem MoCha. Wan 2.1 então amostra os quadros editados e os decodifica para vídeo. Em paralelo, um pequeno ramo de edição de imagem pode gerar um retrato para atuar como uma segunda referência opcional para detalhes faciais. O gráfico também renderiza uma comparação lado a lado para avaliar rapidamente seu resultado de Substituição de Personagem em Vídeo (MoCha).

Vídeo de Entrada

Carregue um vídeo em “Vídeo de Entrada”. O fluxo de trabalho normaliza os quadros (recorte padrão 1280×720) e preserva automaticamente a taxa de quadros do clipe para a exportação final. O primeiro quadro é exposto para inspeção e mascaramento a jusante. Um nó de pré-visualização mostra os quadros de entrada brutos para que você possa confirmar o recorte e a exposição antes de prosseguir.

Máscara do Primeiro Quadro

Use o editor de pontos interativo para clicar em pontos positivos no ator e pontos negativos no fundo; SAM 2 converte esses cliques em uma máscara precisa. Um pequeno passo de crescimento e desfoque expande a máscara para proteger contra halos de borda e movimento entre quadros. A máscara resultante é pré-visualizada, e a mesma máscara é enviada para a etapa de incorporação MoCha. Uma boa mascaramento neste grupo melhora materialmente a estabilidade na Substituição de Personagem em Vídeo (MoCha).

ref1

“ref1” é sua imagem principal de identidade do personagem. O fluxo de trabalho remove o fundo, centraliza o recorte e redimensiona para corresponder à resolução de trabalho do vídeo. Para melhores resultados, use uma referência de fundo limpo cuja pose corresponda aproximadamente ao ator de origem no primeiro quadro; o codificador MoCha se beneficia de um ponto de vista e iluminação semelhantes.

ref2 (Opcional)

“ref2” é opcional, mas recomendado para rostos. Você pode fornecer um retrato diretamente ou deixar que o fluxo de trabalho gere um no ramo de amostragem abaixo. A imagem é removida do fundo e redimensionada como ref1. Quando presente, ref2 reforça as características faciais para que a identidade se mantenha durante o movimento, oclusões e mudanças de perspectiva.

Etapa 1 - Carregar modelos

Este grupo carrega o VAE Wan 2.1 e o modelo de pré-visualização Wan 2.1 MoCha 14B, além de um WanVideo LoRA opcional para destilação. Esses ativos impulsionam a principal etapa de amostragem de vídeo. O conjunto de modelos aqui é intensivo em VRAM; um assistente de troca de blocos é incluído posteriormente para ajustar grandes sequências em GPUs modestas.

Etapa 2 - Carregar imagem para edição

Se preferir construir ref2 a partir de sua própria imagem fixa, solte-a aqui. O ramo escala a imagem e a direciona para o codificador Qwen para condicionamento. Você pode pular este ramo inteiro se já tiver um bom retrato facial.

Etapa 4 - Prompt

Forneça uma breve sugestão de texto que descreva o retrato em close pretendido (por exemplo, “Próxima Cena: Close da câmera no rosto, retrato do personagem”). Qwen‑Image‑Edit usa isso para refinar ou sintetizar uma imagem facial limpa que se torna ref2. Mantenha a descrição simples; isso é um assistente, não uma reformulação completa.

Cena 2 - Amostragem

O ramo Qwen executa uma rápida amostragem para gerar uma única imagem de retrato sob o Lightning LoRA. Essa imagem é decodificada, pré-visualizada e, após a remoção leve do fundo, encaminhada como ref2. Esta etapa muitas vezes aumenta a fidelidade do rosto sem alterar seu visual principal de Substituição de Personagem em Vídeo (MoCha).

Mocha

A etapa MochaEmbeds codifica o vídeo de origem, a máscara do primeiro quadro e sua(s) imagem(ns) de referência em incorporações de imagem MoCha. As incorporações capturam identidade, textura e pistas de aparência local enquanto respeitam o caminho de movimento original. Se ref2 existir, é usado para reforçar os detalhes faciais; caso contrário, apenas ref1 carrega a identidade.

Modelo Wan

O carregador de modelo Wan puxa a pré-visualização Wan 2.1 MoCha 14B para a memória e (opcionalmente) aplica um LoRA. Uma ferramenta de troca de blocos é conectada para que você possa trocar velocidade por memória quando necessário. Esta escolha de modelo define a capacidade geral e a coerência da Substituição de Personagem em Vídeo (MoCha).

Amostragem Wan

O amostrador consome o modelo Wan, as incorporações de imagem MoCha e quaisquer incorporações de texto para gerar quadros latentes editados, depois os decodifica de volta para imagens. São produzidas duas saídas: o vídeo de troca final e uma comparação lado a lado com os quadros originais. A taxa de quadros é transmitida do carregador para que o ritmo do movimento corresponda automaticamente à fonte.

Nós principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

MochaEmbeds (#302). Codifica o clipe de origem, máscara do primeiro quadro e imagens de referência em incorporações de imagem MoCha que direcionam identidade e aparência. Prefira uma pose ref1 que corresponda ao primeiro quadro e inclua ref2 para um rosto limpo se você perceber deriva. Se as bordas tremeluzirem, expanda ligeiramente a máscara antes de incorporar para evitar vazamento de fundo.
Sam2Segmentation (#326). Converte seus cliques positivos/negativos em uma máscara do primeiro quadro. Priorize bordas limpas ao redor do cabelo e dos ombros; adicione alguns pontos negativos para excluir adereços próximos. Expandir a máscara um pouco após a segmentação ajuda na estabilidade quando o ator se move.
WanVideoSampler (#314). Conduz o trabalho pesado da Substituição de Personagem em Vídeo (MoCha) desruídando latentes em quadros. Mais etapas melhoram o detalhe e a estabilidade temporal; menos etapas aceleram a iteração. Mantenha o agendador consistente entre execuções quando estiver comparando mudanças nas referências ou máscaras.
WanVideoSetBlockSwap (#344). Quando a VRAM está apertada, ative a troca de blocos mais profunda para ajustar o caminho Wan 2.1 MoCha 14B em GPUs menores. Espere alguma perda de velocidade; em troca, você pode manter a resolução e o comprimento da sequência.
VHS_VideoCombine (#355). Escreve o MP4 final e incorpora metadados do fluxo de trabalho. Use a mesma taxa de quadros da fonte (já conectada) e saída yuv420p para ampla compatibilidade com players.

Extras opcionais#

Dicas para trocas limpas
- Use um ref1 com fundo simples e uma pose próxima ao primeiro quadro.
- Mantenha ref2 como um retrato facial frontal nítido para estabilizar a identidade.
- Se você ver halos de borda, expanda e desfoca levemente a máscara do primeiro quadro, depois reincorpore.
- Cenas pesadas se beneficiam do assistente de troca de blocos; caso contrário, mantenha-o desligado para velocidade.
- O fluxo de trabalho renderiza um vídeo de comparação A/B; use-o para julgar mudanças rapidamente.
Referências úteis
- MoCha por Orange‑3DV‑Team: GitHub, Hugging Face
- Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2: facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos o Benji’s AI Playground de “Video Character Replacement (MoCha)” por Substituição de Personagem em Vídeo (MoCha) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.

Recursos#

Autores de “Video Character Replacement (MoCha)”/Substituição de Personagem em Vídeo (MoCha)
- Docs / Notas de Lançamento @Benji’s AI Playground: YouTube video

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformação Consistente de Estilo de Vídeo

Transforme o estilo do seu vídeo aplicando o primeiro quadro reestilizado usando o fluxo de trabalho Wan 2.1 video restyle.

ReActor | Troca Rápida de Rostos

Com o ComfyUI ReActor, você pode facilmente trocar os rostos de um ou mais personagens em imagens ou vídeos.

ReActor | Troca Rápida de Rostos

Conjunto de ferramentas profissional para troca de rostos no ComfyUI que permite substituição e aprimoramento natural de rostos.

Flux Depth e Canny

Flux Tools Oficial - Flux Depth e Canny ControlNet Model

Wan 2.1 Control LoRA | Profundidade e Azulejo

Avance na geração de vídeo Wan 2.1 com LoRAs de profundidade e azulejo leves para melhorar a estrutura e o detalhe.

Wan 2.1 Fun | I2V + T2V

Potencialize seus vídeos de IA com o Wan 2.1 Fun.

ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

Rastreie qualquer assunto com precisão de pixel para resultados VFX impressionantes.

VOID Video Inpainting ComfyUI | Remoção Inteligente de Objetos

Apague objetos de vídeos com restauração de cena suave e consistente.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Substituição de Personagem em Vídeo (MoCha) | Ferramenta de Troca Realista

ComfyUI Video Character Replacement (MoCha) Workflow

ComfyUI Video Character Replacement (MoCha) Examples

Fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) para ComfyUI#

Modelos principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

Como usar o fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

Nós principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI#

Extras opcionais#

Agradecimentos#

Recursos#

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Transformação Consistente de Estilo de Vídeo

ReActor | Troca Rápida de Rostos

ReActor | Troca Rápida de Rostos

Flux Depth e Canny

Wan 2.1 Control LoRA | Profundidade e Azulejo

Wan 2.1 Fun | I2V + T2V

ComfyUI Grounding | Fluxo de Trabalho de Rastreamento de Objetos

VOID Video Inpainting ComfyUI | Remoção Inteligente de Objetos