Fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) para ComfyUI
Este fluxo de trabalho oferece Substituição de Personagem em Vídeo (MoCha) de ponta a ponta: substitua um artista em um vídeo real por um novo personagem enquanto preserva movimento, iluminação, perspectiva de câmera e continuidade da cena. Construído em torno da prévia Wan 2.1 MoCha 14B, alinha uma identidade de referência à performance de origem, depois sintetiza um clipe editado coerente e uma comparação opcional lado a lado. É projetado para cineastas, artistas de VFX e criadores de IA que precisam de trocas de personagens precisas e de alta qualidade com limpeza manual mínima.
O pipeline combina mascaramento robusto do primeiro quadro com Segment Anything 2 (SAM 2), as incorporações de imagem sensíveis ao movimento de MoCha, amostragem/decodificação WanVideo e um assistente de retrato opcional que melhora a fidelidade facial. Você fornece um vídeo de origem e uma ou duas imagens de referência; o fluxo de trabalho produz um vídeo de substituição finalizado mais uma comparação A/B, tornando a avaliação iterativa da Substituição de Personagem em Vídeo (MoCha) rápida e prática.
Modelos principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI
- Wan 2.1 MoCha 14B preview. Gerador de vídeo principal para substituição de personagem; impulsiona a síntese temporalmente coerente a partir das incorporações de imagem MoCha e prompts de texto. Pesos do modelo distribuídos no formato Comfy WanVideo por Kijai, incluindo variantes escaladas fp8 para eficiência. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- MoCha (Orange‑3DV‑Team). Método de condicionamento de identidade/movimento e implementação de referência que inspirou a etapa de incorporação usada aqui; útil para entender a seleção de referência e alinhamento de pose para Substituição de Personagem em Vídeo (MoCha). GitHub, Hugging Face
- Segment Anything 2 (SAM 2). Segmentação guiada por pontos de alta qualidade para isolar o ator no primeiro quadro; máscaras limpas são cruciais para trocas estáveis e sem artefatos. GitHub: facebookresearch/segment-anything-2
- Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistente de imagem única opcional que gera um retrato limpo e em close para usar como segunda referência, melhorando a preservação da identidade facial em cenas difíceis. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
- Wan 2.1 VAE. VAE de vídeo usado pelas etapas de amostragem/decodificação Wan para processamento latente eficiente. Hugging Face: Kijai/WanVideo_comfy
Como usar o fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI
Lógica geral
- O fluxo de trabalho pega um clipe de origem, prepara uma máscara do primeiro quadro e codifica suas referências de personagem em incorporações de imagem MoCha. Wan 2.1 então amostra os quadros editados e os decodifica para vídeo. Em paralelo, um pequeno ramo de edição de imagem pode gerar um retrato para atuar como uma segunda referência opcional para detalhes faciais. O gráfico também renderiza uma comparação lado a lado para avaliar rapidamente seu resultado de Substituição de Personagem em Vídeo (MoCha).
Vídeo de Entrada
- Carregue um vídeo em “Vídeo de Entrada”. O fluxo de trabalho normaliza os quadros (recorte padrão 1280×720) e preserva automaticamente a taxa de quadros do clipe para a exportação final. O primeiro quadro é exposto para inspeção e mascaramento a jusante. Um nó de pré-visualização mostra os quadros de entrada brutos para que você possa confirmar o recorte e a exposição antes de prosseguir.
Máscara do Primeiro Quadro
- Use o editor de pontos interativo para clicar em pontos positivos no ator e pontos negativos no fundo; SAM 2 converte esses cliques em uma máscara precisa. Um pequeno passo de crescimento e desfoque expande a máscara para proteger contra halos de borda e movimento entre quadros. A máscara resultante é pré-visualizada, e a mesma máscara é enviada para a etapa de incorporação MoCha. Uma boa mascaramento neste grupo melhora materialmente a estabilidade na Substituição de Personagem em Vídeo (MoCha).
ref1
- “ref1” é sua imagem principal de identidade do personagem. O fluxo de trabalho remove o fundo, centraliza o recorte e redimensiona para corresponder à resolução de trabalho do vídeo. Para melhores resultados, use uma referência de fundo limpo cuja pose corresponda aproximadamente ao ator de origem no primeiro quadro; o codificador MoCha se beneficia de um ponto de vista e iluminação semelhantes.
ref2 (Opcional)
- “ref2” é opcional, mas recomendado para rostos. Você pode fornecer um retrato diretamente ou deixar que o fluxo de trabalho gere um no ramo de amostragem abaixo. A imagem é removida do fundo e redimensionada como ref1. Quando presente, ref2 reforça as características faciais para que a identidade se mantenha durante o movimento, oclusões e mudanças de perspectiva.
Etapa 1 - Carregar modelos
- Este grupo carrega o VAE Wan 2.1 e o modelo de pré-visualização Wan 2.1 MoCha 14B, além de um WanVideo LoRA opcional para destilação. Esses ativos impulsionam a principal etapa de amostragem de vídeo. O conjunto de modelos aqui é intensivo em VRAM; um assistente de troca de blocos é incluído posteriormente para ajustar grandes sequências em GPUs modestas.
Etapa 2 - Carregar imagem para edição
- Se preferir construir ref2 a partir de sua própria imagem fixa, solte-a aqui. O ramo escala a imagem e a direciona para o codificador Qwen para condicionamento. Você pode pular este ramo inteiro se já tiver um bom retrato facial.
Etapa 4 - Prompt
- Forneça uma breve sugestão de texto que descreva o retrato em close pretendido (por exemplo, “Próxima Cena: Close da câmera no rosto, retrato do personagem”). Qwen‑Image‑Edit usa isso para refinar ou sintetizar uma imagem facial limpa que se torna ref2. Mantenha a descrição simples; isso é um assistente, não uma reformulação completa.
Cena 2 - Amostragem
- O ramo Qwen executa uma rápida amostragem para gerar uma única imagem de retrato sob o Lightning LoRA. Essa imagem é decodificada, pré-visualizada e, após a remoção leve do fundo, encaminhada como ref2. Esta etapa muitas vezes aumenta a fidelidade do rosto sem alterar seu visual principal de Substituição de Personagem em Vídeo (MoCha).
Mocha
- A etapa
MochaEmbedscodifica o vídeo de origem, a máscara do primeiro quadro e sua(s) imagem(ns) de referência em incorporações de imagem MoCha. As incorporações capturam identidade, textura e pistas de aparência local enquanto respeitam o caminho de movimento original. Se ref2 existir, é usado para reforçar os detalhes faciais; caso contrário, apenas ref1 carrega a identidade.
Modelo Wan
- O carregador de modelo Wan puxa a pré-visualização Wan 2.1 MoCha 14B para a memória e (opcionalmente) aplica um LoRA. Uma ferramenta de troca de blocos é conectada para que você possa trocar velocidade por memória quando necessário. Esta escolha de modelo define a capacidade geral e a coerência da Substituição de Personagem em Vídeo (MoCha).
Amostragem Wan
- O amostrador consome o modelo Wan, as incorporações de imagem MoCha e quaisquer incorporações de texto para gerar quadros latentes editados, depois os decodifica de volta para imagens. São produzidas duas saídas: o vídeo de troca final e uma comparação lado a lado com os quadros originais. A taxa de quadros é transmitida do carregador para que o ritmo do movimento corresponda automaticamente à fonte.
Nós principais no fluxo de trabalho de Substituição de Personagem em Vídeo (MoCha) do ComfyUI
MochaEmbeds(#302). Codifica o clipe de origem, máscara do primeiro quadro e imagens de referência em incorporações de imagem MoCha que direcionam identidade e aparência. Prefira uma pose ref1 que corresponda ao primeiro quadro e inclua ref2 para um rosto limpo se você perceber deriva. Se as bordas tremeluzirem, expanda ligeiramente a máscara antes de incorporar para evitar vazamento de fundo.Sam2Segmentation(#326). Converte seus cliques positivos/negativos em uma máscara do primeiro quadro. Priorize bordas limpas ao redor do cabelo e dos ombros; adicione alguns pontos negativos para excluir adereços próximos. Expandir a máscara um pouco após a segmentação ajuda na estabilidade quando o ator se move.WanVideoSampler(#314). Conduz o trabalho pesado da Substituição de Personagem em Vídeo (MoCha) desruídando latentes em quadros. Mais etapas melhoram o detalhe e a estabilidade temporal; menos etapas aceleram a iteração. Mantenha o agendador consistente entre execuções quando estiver comparando mudanças nas referências ou máscaras.WanVideoSetBlockSwap(#344). Quando a VRAM está apertada, ative a troca de blocos mais profunda para ajustar o caminho Wan 2.1 MoCha 14B em GPUs menores. Espere alguma perda de velocidade; em troca, você pode manter a resolução e o comprimento da sequência.VHS_VideoCombine(#355). Escreve o MP4 final e incorpora metadados do fluxo de trabalho. Use a mesma taxa de quadros da fonte (já conectada) e saída yuv420p para ampla compatibilidade com players.
Extras opcionais
- Dicas para trocas limpas
- Use um ref1 com fundo simples e uma pose próxima ao primeiro quadro.
- Mantenha ref2 como um retrato facial frontal nítido para estabilizar a identidade.
- Se você ver halos de borda, expanda e desfoca levemente a máscara do primeiro quadro, depois reincorpore.
- Cenas pesadas se beneficiam do assistente de troca de blocos; caso contrário, mantenha-o desligado para velocidade.
- O fluxo de trabalho renderiza um vídeo de comparação A/B; use-o para julgar mudanças rapidamente.
- Referências úteis
- MoCha por Orange‑3DV‑Team: GitHub, Hugging Face
- Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2: facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos o Benji’s AI Playground de “Video Character Replacement (MoCha)” por Substituição de Personagem em Vídeo (MoCha) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.
Recursos
- Autores de “Video Character Replacement (MoCha)”/Substituição de Personagem em Vídeo (MoCha)
- Docs / Notas de Lançamento @Benji’s AI Playground: YouTube video
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
