Este fluxo de trabalho oferece Substituição de Personagem em Vídeo (MoCha) de ponta a ponta: substitua um artista em um vídeo real por um novo personagem enquanto preserva movimento, iluminação, perspectiva de câmera e continuidade da cena. Construído em torno da prévia Wan 2.1 MoCha 14B, alinha uma identidade de referência à performance de origem, depois sintetiza um clipe editado coerente e uma comparação opcional lado a lado. É projetado para cineastas, artistas de VFX e criadores de IA que precisam de trocas de personagens precisas e de alta qualidade com limpeza manual mínima.
O pipeline combina mascaramento robusto do primeiro quadro com Segment Anything 2 (SAM 2), as incorporações de imagem sensíveis ao movimento de MoCha, amostragem/decodificação WanVideo e um assistente de retrato opcional que melhora a fidelidade facial. Você fornece um vídeo de origem e uma ou duas imagens de referência; o fluxo de trabalho produz um vídeo de substituição finalizado mais uma comparação A/B, tornando a avaliação iterativa da Substituição de Personagem em Vídeo (MoCha) rápida e prática.
Wan 2.1 MoCha 14B preview. Gerador de vídeo principal para substituição de personagem; impulsiona a síntese temporalmente coerente a partir das incorporações de imagem MoCha e prompts de texto. Pesos do modelo distribuídos no formato Comfy WanVideo por Kijai, incluindo variantes escaladas fp8 para eficiência. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Método de condicionamento de identidade/movimento e implementação de referência que inspirou a etapa de incorporação usada aqui; útil para entender a seleção de referência e alinhamento de pose para Substituição de Personagem em Vídeo (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentação guiada por pontos de alta qualidade para isolar o ator no primeiro quadro; máscaras limpas são cruciais para trocas estáveis e sem artefatos. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistente de imagem única opcional que gera um retrato limpo e em close para usar como segunda referência, melhorando a preservação da identidade facial em cenas difíceis. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE de vídeo usado pelas etapas de amostragem/decodificação Wan para processamento latente eficiente. Hugging Face: Kijai/WanVideo_comfy
Lógica geral
Vídeo de Entrada
Máscara do Primeiro Quadro
ref1
ref2 (Opcional)
Etapa 1 - Carregar modelos
Etapa 2 - Carregar imagem para edição
Etapa 4 - Prompt
Cena 2 - Amostragem
Mocha
MochaEmbeds codifica o vídeo de origem, a máscara do primeiro quadro e sua(s) imagem(ns) de referência em incorporações de imagem MoCha. As incorporações capturam identidade, textura e pistas de aparência local enquanto respeitam o caminho de movimento original. Se ref2 existir, é usado para reforçar os detalhes faciais; caso contrário, apenas ref1 carrega a identidade.Modelo Wan
Amostragem Wan
MochaEmbeds (#302). Codifica o clipe de origem, máscara do primeiro quadro e imagens de referência em incorporações de imagem MoCha que direcionam identidade e aparência. Prefira uma pose ref1 que corresponda ao primeiro quadro e inclua ref2 para um rosto limpo se você perceber deriva. Se as bordas tremeluzirem, expanda ligeiramente a máscara antes de incorporar para evitar vazamento de fundo.
Sam2Segmentation (#326). Converte seus cliques positivos/negativos em uma máscara do primeiro quadro. Priorize bordas limpas ao redor do cabelo e dos ombros; adicione alguns pontos negativos para excluir adereços próximos. Expandir a máscara um pouco após a segmentação ajuda na estabilidade quando o ator se move.
WanVideoSampler (#314). Conduz o trabalho pesado da Substituição de Personagem em Vídeo (MoCha) desruídando latentes em quadros. Mais etapas melhoram o detalhe e a estabilidade temporal; menos etapas aceleram a iteração. Mantenha o agendador consistente entre execuções quando estiver comparando mudanças nas referências ou máscaras.
WanVideoSetBlockSwap (#344). Quando a VRAM está apertada, ative a troca de blocos mais profunda para ajustar o caminho Wan 2.1 MoCha 14B em GPUs menores. Espere alguma perda de velocidade; em troca, você pode manter a resolução e o comprimento da sequência.
VHS_VideoCombine (#355). Escreve o MP4 final e incorpora metadados do fluxo de trabalho. Use a mesma taxa de quadros da fonte (já conectada) e saída yuv420p para ampla compatibilidade com players.
Dicas para trocas limpas
Referências úteis
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos o Benji’s AI Playground de “Video Character Replacement (MoCha)” por Substituição de Personagem em Vídeo (MoCha) por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.