Questo flusso di lavoro offre una Sostituzione del Personaggio Video (MoCha) completa: sostituisci un interprete in un video reale con un nuovo personaggio preservando movimento, illuminazione, prospettiva della camera e continuità della scena. Basato sull'anteprima Wan 2.1 MoCha 14B, allinea un'identità di riferimento alla performance di origine, quindi sintetizza un clip modificato coerente e un confronto opzionale fianco a fianco. È progettato per registi, artisti VFX e creatori AI che necessitano di sostituzioni di personaggi precise e di alta qualità con un minimo di pulizia manuale.
La pipeline combina un robusto mascheramento del primo fotogramma con Segment Anything 2 (SAM 2), gli embedding di immagini sensibili al movimento di MoCha, il campionamento/decodifica WanVideo e un assist opzionale per i ritratti che migliora la fedeltà del viso. Fornisci un video sorgente e una o due immagini di riferimento; il flusso di lavoro produce un video sostituito finito più un confronto A/B, rendendo la valutazione iterativa della Sostituzione del Personaggio Video (MoCha) veloce e pratica.
Wan 2.1 MoCha 14B preview. Generatore video principale per la sostituzione dei personaggi; guida la sintesi coerente nel tempo dagli embedding di immagini MoCha e suggerimenti di testo. Pesi del modello distribuiti nel formato WanVideo Comfy da Kijai, comprese varianti scalate fp8 per l'efficienza. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Metodo di condizionamento dell'identità/movimento e implementazione di riferimento che ha ispirato la fase di embedding utilizzata qui; utile per comprendere la selezione di riferimento e l'allineamento della posa per la Sostituzione del Personaggio Video (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentazione di alta qualità guidata da punti per isolare l'attore nel primo fotogramma; maschere pulite sono cruciali per sostituzioni stabili e prive di artefatti. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistenza opzionale per singola immagine che genera un ritratto pulito e ravvicinato da utilizzare come secondo riferimento, migliorando la conservazione dell'identità facciale in scatti difficili. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE video utilizzato dalle fasi di campionamento/decodifica Wan per un'elaborazione latente efficiente. Hugging Face: Kijai/WanVideo_comfy
Logica generale
Video di Input
Maschera del Primo Fotogramma
ref1
ref2 (Opzionale)
Passo1 - Carica modelli
Passo 2 - Carica immagine per l'editing
Passo 4 - Prompt
Scena 2 - Campionamento
Mocha
MochaEmbeds codifica il video sorgente, la maschera del primo fotogramma e la/le tua/e immagine/i di riferimento in embedding di immagini MoCha. Gli embedding catturano identità, texture e indizi di aspetto locale rispettando il percorso del movimento originale. Se esiste ref2, viene utilizzato per rafforzare il dettaglio del viso; altrimenti, solo ref1 porta l'identità.Modello Wan
Campionamento Wan
MochaEmbeds (#302). Codifica il clip sorgente, la maschera del primo fotogramma e le immagini di riferimento in embedding di immagini MoCha che guidano identità e aspetto. Favorisci una posa ref1 che corrisponda al primo fotogramma e includi ref2 per un viso pulito se vedi drift. Se i bordi scintillano, espandi leggermente la maschera prima dell'embedding per evitare perdite di sfondo.
Sam2Segmentation (#326). Converte i tuoi clic positivi/negativi in una maschera del primo fotogramma. Dai priorità ai bordi puliti intorno ai capelli e alle spalle; aggiungi alcuni punti negativi per escludere oggetti di scena vicini. Espandere leggermente la maschera dopo la segmentazione aiuta la stabilità quando l'attore si muove.
WanVideoSampler (#314). Guida il pesante compito della Sostituzione del Personaggio Video (MoCha) denoising dei latenti in fotogrammi. Più passaggi migliorano il dettaglio e la stabilità temporale; meno passaggi velocizzano l'iterazione. Mantieni il programmatore coerente tra le esecuzioni quando confronti i cambiamenti nei riferimenti o nelle maschere.
WanVideoSetBlockSwap (#344). Quando la VRAM è limitata, abilita uno scambio di blocchi più profondo per adattare il percorso Wan 2.1 MoCha 14B su GPU più piccole. Aspettati una perdita di velocità; in cambio puoi mantenere risoluzione e lunghezza della sequenza.
VHS_VideoCombine (#355). Scrive l'MP4 finale e incorpora i metadati del flusso di lavoro. Usa lo stesso frame rate della sorgente (già cablato) e l'output yuv420p per una compatibilità ampia del lettore.
Suggerimenti per sostituzioni pulite
Riferimenti utili
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sentitamente il Benji’s AI Playground di “Sostituzione del Personaggio Video (MoCha)” per la Sostituzione del Personaggio Video (MoCha) per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.