Sostituzione del Personaggio Video (MoCha) in ComfyUI | Cambio Personaggio Senza Soluzione di Continuità

Flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in ComfyUI#

Questo flusso di lavoro offre una Sostituzione del Personaggio Video (MoCha) completa: sostituisci un interprete in un video reale con un nuovo personaggio preservando movimento, illuminazione, prospettiva della camera e continuità della scena. Basato sull'anteprima Wan 2.1 MoCha 14B, allinea un'identità di riferimento alla performance di origine, quindi sintetizza un clip modificato coerente e un confronto opzionale fianco a fianco. È progettato per registi, artisti VFX e creatori AI che necessitano di sostituzioni di personaggi precise e di alta qualità con un minimo di pulizia manuale.

La pipeline combina un robusto mascheramento del primo fotogramma con Segment Anything 2 (SAM 2), gli embedding di immagini sensibili al movimento di MoCha, il campionamento/decodifica WanVideo e un assist opzionale per i ritratti che migliora la fedeltà del viso. Fornisci un video sorgente e una o due immagini di riferimento; il flusso di lavoro produce un video sostituito finito più un confronto A/B, rendendo la valutazione iterativa della Sostituzione del Personaggio Video (MoCha) veloce e pratica.

Modelli chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

Wan 2.1 MoCha 14B preview. Generatore video principale per la sostituzione dei personaggi; guida la sintesi coerente nel tempo dagli embedding di immagini MoCha e suggerimenti di testo. Pesi del modello distribuiti nel formato WanVideo Comfy da Kijai, comprese varianti scalate fp8 per l'efficienza. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
MoCha (Orange‑3DV‑Team). Metodo di condizionamento dell'identità/movimento e implementazione di riferimento che ha ispirato la fase di embedding utilizzata qui; utile per comprendere la selezione di riferimento e l'allineamento della posa per la Sostituzione del Personaggio Video (MoCha). GitHub, Hugging Face
Segment Anything 2 (SAM 2). Segmentazione di alta qualità guidata da punti per isolare l'attore nel primo fotogramma; maschere pulite sono cruciali per sostituzioni stabili e prive di artefatti. GitHub: facebookresearch/segment-anything-2
Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistenza opzionale per singola immagine che genera un ritratto pulito e ravvicinato da utilizzare come secondo riferimento, migliorando la conservazione dell'identità facciale in scatti difficili. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning
Wan 2.1 VAE. VAE video utilizzato dalle fasi di campionamento/decodifica Wan per un'elaborazione latente efficiente. Hugging Face: Kijai/WanVideo_comfy

Come utilizzare il flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

Logica generale

Il flusso di lavoro prende un clip sorgente, prepara una maschera del primo fotogramma e codifica i tuoi riferimenti di personaggio in embedding di immagini MoCha. Wan 2.1 quindi campiona i fotogrammi modificati e li decodifica in video. In parallelo, un piccolo ramo di editing delle immagini può generare un ritratto da utilizzare come riferimento secondario opzionale per il dettaglio del viso. Il grafico rende anche un confronto fianco a fianco per valutare rapidamente il risultato della tua Sostituzione del Personaggio Video (MoCha).

Video di Input

Carica un video in “Video di Input.” Il flusso di lavoro normalizza i fotogrammi (ritaglio predefinito 1280×720) e preserva automaticamente il frame rate del clip per l'esportazione finale. Il primo fotogramma è esposto per ispezione e mascheramento a valle. Un nodo di anteprima mostra i fotogrammi di input grezzi in modo da poter confermare il ritaglio e l'esposizione prima di procedere.

Maschera del Primo Fotogramma

Usa l'editor di punti interattivo per cliccare punti positivi sull'attore e punti negativi sullo sfondo; SAM 2 converte questi clic in una maschera precisa. Un piccolo passaggio di espansione e sfocatura allarga la maschera per proteggere contro aloni ai bordi e movimento tra i fotogrammi. Il matte risultante è visualizzato in anteprima, e la stessa maschera viene inviata alla fase di embedding MoCha. Un buon mascheramento in questo gruppo migliora materialmente la stabilità nella Sostituzione del Personaggio Video (MoCha).

ref1

“ref1” è la tua immagine principale dell'identità del personaggio. Il flusso di lavoro rimuove lo sfondo, centra il ritaglio e ridimensiona per adattarsi alla risoluzione di lavoro del video. Per i migliori risultati, usa un riferimento con sfondo pulito la cui posa corrisponda approssimativamente all'attore sorgente nel primo fotogramma; l'encoder MoCha beneficia di un punto di vista e un'illuminazione simili.

ref2 (Opzionale)

“ref2” è opzionale ma raccomandato per i volti. Puoi fornire un ritratto direttamente, o lasciare che il flusso di lavoro ne generi uno nel ramo di campionamento sottostante. L'immagine è sfondo-rimossa e ridimensionata come ref1. Quando presente, ref2 rinforza le caratteristiche facciali in modo che l'identità si mantenga durante movimenti, occlusioni e cambiamenti di prospettiva.

Passo1 - Carica modelli

Questo gruppo carica il Wan 2.1 VAE e il modello di anteprima Wan 2.1 MoCha 14B, più un opzionale WanVideo LoRA per la distillazione. Questi asset guidano la fase principale di campionamento video. Il set di modelli qui è intensivo in VRAM; un aiuto per lo scambio di blocchi è incluso più avanti per adattare grandi sequenze su GPU modeste.

Passo 2 - Carica immagine per l'editing

Se preferisci costruire ref2 dalla tua immagine fissa, lasciala qui. Il ramo scala l'immagine e la indirizza nell'encoder Qwen per il condizionamento. Puoi saltare questo intero ramo se hai già un buon ritratto del viso.

Passo 4 - Prompt

Fornisci un breve suggerimento di testo che descrive il ritratto ravvicinato previsto (ad esempio, “Scena Successiva: Primo piano del viso del personaggio”). Qwen‑Image‑Edit utilizza questo per affinare o sintetizzare un'immagine del viso pulita che diventa ref2. Mantieni la descrizione semplice; questo è un assist, non un restyling completo.

Scena 2 - Campionamento

Il ramo Qwen esegue un rapido campionatore per generare un'immagine del ritratto singolo sotto il Lightning LoRA. Quell'immagine è decodificata, visualizzata in anteprima, e, dopo una leggera rimozione dello sfondo, inoltrata come ref2. Questo passaggio spesso aumenta la fedeltà del viso senza cambiare l'aspetto principale della tua Sostituzione del Personaggio Video (MoCha).

Mocha

La fase MochaEmbeds codifica il video sorgente, la maschera del primo fotogramma e la/le tua/e immagine/i di riferimento in embedding di immagini MoCha. Gli embedding catturano identità, texture e indizi di aspetto locale rispettando il percorso del movimento originale. Se esiste ref2, viene utilizzato per rafforzare il dettaglio del viso; altrimenti, solo ref1 porta l'identità.

Modello Wan

Il caricatore del modello Wan carica l'anteprima Wan 2.1 MoCha 14B in memoria e (opzionalmente) applica una LoRA. Uno strumento di scambio di blocchi è cablato in modo da poter scambiare velocità per memoria quando necessario. Questa scelta di modello imposta la capacità e la coerenza complessive della Sostituzione del Personaggio Video (MoCha).

Campionamento Wan

Il campionatore consuma il modello Wan, gli embedding di immagini MoCha e qualsiasi embedding di testo per generare fotogrammi latenti modificati, quindi li decodifica di nuovo in immagini. Vengono prodotti due output: il video di sostituzione finale e un confronto fianco a fianco con i fotogrammi originali. Il frame rate è passato dal caricatore in modo che il ritmo del movimento corrisponda automaticamente alla sorgente.

Nodi chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

MochaEmbeds (#302). Codifica il clip sorgente, la maschera del primo fotogramma e le immagini di riferimento in embedding di immagini MoCha che guidano identità e aspetto. Favorisci una posa ref1 che corrisponda al primo fotogramma e includi ref2 per un viso pulito se vedi drift. Se i bordi scintillano, espandi leggermente la maschera prima dell'embedding per evitare perdite di sfondo.
Sam2Segmentation (#326). Converte i tuoi clic positivi/negativi in una maschera del primo fotogramma. Dai priorità ai bordi puliti intorno ai capelli e alle spalle; aggiungi alcuni punti negativi per escludere oggetti di scena vicini. Espandere leggermente la maschera dopo la segmentazione aiuta la stabilità quando l'attore si muove.
WanVideoSampler (#314). Guida il pesante compito della Sostituzione del Personaggio Video (MoCha) denoising dei latenti in fotogrammi. Più passaggi migliorano il dettaglio e la stabilità temporale; meno passaggi velocizzano l'iterazione. Mantieni il programmatore coerente tra le esecuzioni quando confronti i cambiamenti nei riferimenti o nelle maschere.
WanVideoSetBlockSwap (#344). Quando la VRAM è limitata, abilita uno scambio di blocchi più profondo per adattare il percorso Wan 2.1 MoCha 14B su GPU più piccole. Aspettati una perdita di velocità; in cambio puoi mantenere risoluzione e lunghezza della sequenza.
VHS_VideoCombine (#355). Scrive l'MP4 finale e incorpora i metadati del flusso di lavoro. Usa lo stesso frame rate della sorgente (già cablato) e l'output yuv420p per una compatibilità ampia del lettore.

Extra opzionali#

Suggerimenti per sostituzioni pulite
- Usa un ref1 con uno sfondo semplice e una posa vicina al primo fotogramma.
- Mantieni ref2 come un ritratto frontale nitido per stabilizzare l'identità.
- Se vedi aloni ai bordi, espandi e sfoca leggermente la maschera del primo fotogramma, quindi re-incorpora.
- Le scene pesanti beneficiano dell'aiuto per lo scambio di blocchi; altrimenti tienilo spento per velocità.
- Il flusso di lavoro rende un video di confronto A/B; usalo per giudicare rapidamente i cambiamenti.
Riferimenti utili
- MoCha di Orange‑3DV‑Team: GitHub, Hugging Face
- Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
- Segment Anything 2: facebookresearch/segment-anything-2
- Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Riconoscimenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sentitamente il Benji’s AI Playground di “Sostituzione del Personaggio Video (MoCha)” per la Sostituzione del Personaggio Video (MoCha) per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Autori di “Sostituzione del Personaggio Video (MoCha)”/Sostituzione del Personaggio Video (MoCha)
- Docs / Note di Rilascio @Benji’s AI Playground: Video YouTube

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Sostituzione del Personaggio Video (MoCha) | Strumento di Sostituzione Realistico

Flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in ComfyUI#

Modelli chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

Come utilizzare il flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

Nodi chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui#

Extra opzionali#

Riconoscimenti#

Risorse#

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Trasformazione Consistente dello Stile Video

ReActor | Scambio di Facce Rapido

ReActor | Scambio Facciale Veloce

Flux Depth e Canny

Wan 2.1 Control LoRA | Profondità e Tile

Wan 2.2 Qwen Multiangle Split Stack | Generatore di Video Multi-Vista

LTX 2.3 ID-LoRA | Generatore di Avatar Parlanti

LTX 2.3 Da Immagine a Video | Creatore di Movimento Cinematografico