logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Workflow>Sostituzione del Personaggio Video (MoCha) | Strumento di Sostituzione Realistico

Sostituzione del Personaggio Video (MoCha) | Strumento di Sostituzione Realistico

Workflow Name: RunComfy/Video-Character-Replacement-MoCha
Workflow ID: 0000...1304
Con questo flusso di lavoro, puoi trasformare video esistenti sostituendo attori o personaggi mantenendo movimenti naturali, illuminazione e prospettiva della camera. Progettato per creatori che necessitano di realismo cinematografico, supporta il mapping dettagliato dell'aspetto e il movimento coerente. Puoi facilmente adattare l'identità e l'espressione del personaggio per adattarlo a qualsiasi scena. Ideale per narratori, artisti visivi e registi che cercano efficienza nella produzione assistita dall'AI. Il processo assicura un output video ricco e realistico con uno sforzo minimo di editing.

Flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in ComfyUI

Questo flusso di lavoro offre una Sostituzione del Personaggio Video (MoCha) completa: sostituisci un interprete in un video reale con un nuovo personaggio preservando movimento, illuminazione, prospettiva della camera e continuità della scena. Basato sull'anteprima Wan 2.1 MoCha 14B, allinea un'identità di riferimento alla performance di origine, quindi sintetizza un clip modificato coerente e un confronto opzionale fianco a fianco. È progettato per registi, artisti VFX e creatori AI che necessitano di sostituzioni di personaggi precise e di alta qualità con un minimo di pulizia manuale.

La pipeline combina un robusto mascheramento del primo fotogramma con Segment Anything 2 (SAM 2), gli embedding di immagini sensibili al movimento di MoCha, il campionamento/decodifica WanVideo e un assist opzionale per i ritratti che migliora la fedeltà del viso. Fornisci un video sorgente e una o due immagini di riferimento; il flusso di lavoro produce un video sostituito finito più un confronto A/B, rendendo la valutazione iterativa della Sostituzione del Personaggio Video (MoCha) veloce e pratica.

Modelli chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui

  • Wan 2.1 MoCha 14B preview. Generatore video principale per la sostituzione dei personaggi; guida la sintesi coerente nel tempo dagli embedding di immagini MoCha e suggerimenti di testo. Pesi del modello distribuiti nel formato WanVideo Comfy da Kijai, comprese varianti scalate fp8 per l'efficienza. Hugging Face: Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled

  • MoCha (Orange‑3DV‑Team). Metodo di condizionamento dell'identità/movimento e implementazione di riferimento che ha ispirato la fase di embedding utilizzata qui; utile per comprendere la selezione di riferimento e l'allineamento della posa per la Sostituzione del Personaggio Video (MoCha). GitHub, Hugging Face

  • Segment Anything 2 (SAM 2). Segmentazione di alta qualità guidata da punti per isolare l'attore nel primo fotogramma; maschere pulite sono cruciali per sostituzioni stabili e prive di artefatti. GitHub: facebookresearch/segment-anything-2

  • Qwen‑Image‑Edit 2509 + Lightning LoRA. Assistenza opzionale per singola immagine che genera un ritratto pulito e ravvicinato da utilizzare come secondo riferimento, migliorando la conservazione dell'identità facciale in scatti difficili. Hugging Face: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

  • Wan 2.1 VAE. VAE video utilizzato dalle fasi di campionamento/decodifica Wan per un'elaborazione latente efficiente. Hugging Face: Kijai/WanVideo_comfy

Come utilizzare il flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui

Logica generale

  • Il flusso di lavoro prende un clip sorgente, prepara una maschera del primo fotogramma e codifica i tuoi riferimenti di personaggio in embedding di immagini MoCha. Wan 2.1 quindi campiona i fotogrammi modificati e li decodifica in video. In parallelo, un piccolo ramo di editing delle immagini può generare un ritratto da utilizzare come riferimento secondario opzionale per il dettaglio del viso. Il grafico rende anche un confronto fianco a fianco per valutare rapidamente il risultato della tua Sostituzione del Personaggio Video (MoCha).

Video di Input

  • Carica un video in “Video di Input.” Il flusso di lavoro normalizza i fotogrammi (ritaglio predefinito 1280×720) e preserva automaticamente il frame rate del clip per l'esportazione finale. Il primo fotogramma è esposto per ispezione e mascheramento a valle. Un nodo di anteprima mostra i fotogrammi di input grezzi in modo da poter confermare il ritaglio e l'esposizione prima di procedere.

Maschera del Primo Fotogramma

  • Usa l'editor di punti interattivo per cliccare punti positivi sull'attore e punti negativi sullo sfondo; SAM 2 converte questi clic in una maschera precisa. Un piccolo passaggio di espansione e sfocatura allarga la maschera per proteggere contro aloni ai bordi e movimento tra i fotogrammi. Il matte risultante è visualizzato in anteprima, e la stessa maschera viene inviata alla fase di embedding MoCha. Un buon mascheramento in questo gruppo migliora materialmente la stabilità nella Sostituzione del Personaggio Video (MoCha).

ref1

  • “ref1” è la tua immagine principale dell'identità del personaggio. Il flusso di lavoro rimuove lo sfondo, centra il ritaglio e ridimensiona per adattarsi alla risoluzione di lavoro del video. Per i migliori risultati, usa un riferimento con sfondo pulito la cui posa corrisponda approssimativamente all'attore sorgente nel primo fotogramma; l'encoder MoCha beneficia di un punto di vista e un'illuminazione simili.

ref2 (Opzionale)

  • “ref2” è opzionale ma raccomandato per i volti. Puoi fornire un ritratto direttamente, o lasciare che il flusso di lavoro ne generi uno nel ramo di campionamento sottostante. L'immagine è sfondo-rimossa e ridimensionata come ref1. Quando presente, ref2 rinforza le caratteristiche facciali in modo che l'identità si mantenga durante movimenti, occlusioni e cambiamenti di prospettiva.

Passo1 - Carica modelli

  • Questo gruppo carica il Wan 2.1 VAE e il modello di anteprima Wan 2.1 MoCha 14B, più un opzionale WanVideo LoRA per la distillazione. Questi asset guidano la fase principale di campionamento video. Il set di modelli qui è intensivo in VRAM; un aiuto per lo scambio di blocchi è incluso più avanti per adattare grandi sequenze su GPU modeste.

Passo 2 - Carica immagine per l'editing

  • Se preferisci costruire ref2 dalla tua immagine fissa, lasciala qui. Il ramo scala l'immagine e la indirizza nell'encoder Qwen per il condizionamento. Puoi saltare questo intero ramo se hai già un buon ritratto del viso.

Passo 4 - Prompt

  • Fornisci un breve suggerimento di testo che descrive il ritratto ravvicinato previsto (ad esempio, “Scena Successiva: Primo piano del viso del personaggio”). Qwen‑Image‑Edit utilizza questo per affinare o sintetizzare un'immagine del viso pulita che diventa ref2. Mantieni la descrizione semplice; questo è un assist, non un restyling completo.

Scena 2 - Campionamento

  • Il ramo Qwen esegue un rapido campionatore per generare un'immagine del ritratto singolo sotto il Lightning LoRA. Quell'immagine è decodificata, visualizzata in anteprima, e, dopo una leggera rimozione dello sfondo, inoltrata come ref2. Questo passaggio spesso aumenta la fedeltà del viso senza cambiare l'aspetto principale della tua Sostituzione del Personaggio Video (MoCha).

Mocha

  • La fase MochaEmbeds codifica il video sorgente, la maschera del primo fotogramma e la/le tua/e immagine/i di riferimento in embedding di immagini MoCha. Gli embedding catturano identità, texture e indizi di aspetto locale rispettando il percorso del movimento originale. Se esiste ref2, viene utilizzato per rafforzare il dettaglio del viso; altrimenti, solo ref1 porta l'identità.

Modello Wan

  • Il caricatore del modello Wan carica l'anteprima Wan 2.1 MoCha 14B in memoria e (opzionalmente) applica una LoRA. Uno strumento di scambio di blocchi è cablato in modo da poter scambiare velocità per memoria quando necessario. Questa scelta di modello imposta la capacità e la coerenza complessive della Sostituzione del Personaggio Video (MoCha).

Campionamento Wan

  • Il campionatore consuma il modello Wan, gli embedding di immagini MoCha e qualsiasi embedding di testo per generare fotogrammi latenti modificati, quindi li decodifica di nuovo in immagini. Vengono prodotti due output: il video di sostituzione finale e un confronto fianco a fianco con i fotogrammi originali. Il frame rate è passato dal caricatore in modo che il ritmo del movimento corrisponda automaticamente alla sorgente.

Nodi chiave nel flusso di lavoro per la Sostituzione del Personaggio Video (MoCha) in Comfyui

  • MochaEmbeds (#302). Codifica il clip sorgente, la maschera del primo fotogramma e le immagini di riferimento in embedding di immagini MoCha che guidano identità e aspetto. Favorisci una posa ref1 che corrisponda al primo fotogramma e includi ref2 per un viso pulito se vedi drift. Se i bordi scintillano, espandi leggermente la maschera prima dell'embedding per evitare perdite di sfondo.

  • Sam2Segmentation (#326). Converte i tuoi clic positivi/negativi in una maschera del primo fotogramma. Dai priorità ai bordi puliti intorno ai capelli e alle spalle; aggiungi alcuni punti negativi per escludere oggetti di scena vicini. Espandere leggermente la maschera dopo la segmentazione aiuta la stabilità quando l'attore si muove.

  • WanVideoSampler (#314). Guida il pesante compito della Sostituzione del Personaggio Video (MoCha) denoising dei latenti in fotogrammi. Più passaggi migliorano il dettaglio e la stabilità temporale; meno passaggi velocizzano l'iterazione. Mantieni il programmatore coerente tra le esecuzioni quando confronti i cambiamenti nei riferimenti o nelle maschere.

  • WanVideoSetBlockSwap (#344). Quando la VRAM è limitata, abilita uno scambio di blocchi più profondo per adattare il percorso Wan 2.1 MoCha 14B su GPU più piccole. Aspettati una perdita di velocità; in cambio puoi mantenere risoluzione e lunghezza della sequenza.

  • VHS_VideoCombine (#355). Scrive l'MP4 finale e incorpora i metadati del flusso di lavoro. Usa lo stesso frame rate della sorgente (già cablato) e l'output yuv420p per una compatibilità ampia del lettore.

Extra opzionali

  • Suggerimenti per sostituzioni pulite

    • Usa un ref1 con uno sfondo semplice e una posa vicina al primo fotogramma.
    • Mantieni ref2 come un ritratto frontale nitido per stabilizzare l'identità.
    • Se vedi aloni ai bordi, espandi e sfoca leggermente la maschera del primo fotogramma, quindi re-incorpora.
    • Le scene pesanti beneficiano dell'aiuto per lo scambio di blocchi; altrimenti tienilo spento per velocità.
    • Il flusso di lavoro rende un video di confronto A/B; usalo per giudicare rapidamente i cambiamenti.
  • Riferimenti utili

    • MoCha di Orange‑3DV‑Team: GitHub, Hugging Face
    • Wan 2.1 MoCha 14B (formato Comfy): Kijai/WanVideo_comfy, Kijai/WanVideo_comfy_fp8_scaled
    • Segment Anything 2: facebookresearch/segment-anything-2
    • Qwen Image Edit + Lightning LoRA: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI, lightx2v/Qwen‑Image‑Lightning

Riconoscimenti

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sentitamente il Benji’s AI Playground di “Sostituzione del Personaggio Video (MoCha)” per la Sostituzione del Personaggio Video (MoCha) per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

  • Autori di “Sostituzione del Personaggio Video (MoCha)”/Sostituzione del Personaggio Video (MoCha)
    • Docs / Note di Rilascio @Benji’s AI Playground: Video YouTube

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 Video Restyle | Trasformazione Consistente dello Stile Video

Trasforma lo stile del tuo video applicando il primo fotogramma restilizzato utilizzando il flusso di lavoro Wan 2.1 video restyle.

ReActor | Scambio di Facce Rapido

Con ComfyUI ReActor, puoi facilmente scambiare le facce di uno o più personaggi in immagini o video.

ReActor | Scambio Facciale Veloce

Toolkit professionale per lo scambio facciale per ComfyUI che consente la sostituzione e l'ottimizzazione naturale del volto.

Flux Depth e Canny

Strumenti ufficiali Flux - Modello ControlNet Flux Depth e Canny

Wan 2.1 Control LoRA | Profondità e Tile

Avanza la generazione video Wan 2.1 con LoRA di profondità e tile leggeri per una struttura e dettagli migliorati.

InstantCharacter

Una foto, personaggi infiniti. Perfetta conservazione dell'identità.

Flux Fill | Inpaint e Outpaint

Official Flux Tools - Flux Fill per Inpainting e Outpainting

CogVideoX-5B | Modello Avanzato da Testo a Video

CogVideoX-5B: Modello avanzato da testo a video per la generazione di video di alta qualità.

Seguici
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Supporto
  • Discord
  • Email
  • Stato del Sistema
  • affiliato
Risorse
  • ComfyUI Online Gratuito
  • Guide di ComfyUI
  • RunComfy API
  • Tutorial ComfyUI
  • Nodi ComfyUI
  • Scopri di Più
Legale
  • Termini di Servizio
  • Informativa sulla Privacy
  • Informativa sui Cookie
RunComfy
Copyright 2025 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.