Character AI Ovi è un workflow di generazione audiovisiva che trasforma un'unica immagine in un personaggio parlante e in movimento con suono coordinato. Basato sulla famiglia di modelli Wan e integrato tramite WanVideoWrapper, genera video e audio in un unico passaggio, offrendo animazioni espressive, sincronizzazione labiale intelligibile e un'atmosfera consapevole del contesto. Se crei racconti brevi, host virtuali o clip sociali cinematografici, Character AI Ovi ti permette di passare dall'arte statica a una performance completa in pochi minuti.
Questo workflow ComfyUI accetta un'immagine più un prompt testuale contenente un markup leggero per il discorso e il design del suono. Compone insieme fotogrammi e forme d'onda in modo che la bocca, la cadenza e l'audio della scena sembrino naturalmente allineati. Character AI Ovi è progettato per i creatori che vogliono risultati raffinati senza unire strumenti TTS e video separati.
Questo workflow segue un percorso semplice: codifica il tuo prompt e l'immagine, carica i checkpoint di Ovi, campiona i latenti audio+video congiunti, poi decodifica e mux in MP4. Le sottosezioni seguenti mappano i cluster di nodi visibili in modo che tu sappia dove interagire e quali cambiamenti influenzano i risultati.
Scrivi un prompt positivo per la scena e la linea parlata. Usa i tag Ovi esattamente come mostrato: avvolgi le parole da pronunciare con <S>
e <E>
, e descrivi opzionalmente l'audio non parlato con <AUDCAP>
e <ENDAUDCAP>
. Lo stesso prompt positivo condiziona sia il ramo video che audio, così il movimento delle labbra e il tempismo si allineano. Puoi usare diversi prompt negativi per video e audio per sopprimere artefatti indipendentemente. Character AI Ovi risponde bene a indicazioni di scena concise più una singola linea di dialogo chiara.
Carica un singolo ritratto o immagine del personaggio, quindi il workflow ridimensiona e codifica nei latenti. Ciò stabilisce l'identità, la posa e l'inquadratura iniziale per il campionatore. Larghezza e altezza dalla fase di ridimensionamento impostano l'aspetto del video; scegli quadrato per avatar o verticale per cortometraggi. I latenti codificati e gli embed derivati dall'immagine guidano il campionatore in modo che il movimento sembri ancorato al volto originale.
Character AI Ovi carica tre elementi essenziali: il modello video Ovi, il VAE Wan 2.2 per i fotogrammi e il VAE MMAudio più BigVGAN per l'audio. La compilazione Torch e una cache leggera sono incluse per velocizzare i riscaldamenti. Un aiuto di scambio di blocco è collegato per ridurre l'uso di VRAM scaricando i blocchi del trasformatore quando necessario. Se sei vincolato dalla VRAM, aumenta lo scarico dei blocchi nel nodo di scambio di blocco e mantieni la cache abilitata per esecuzioni ripetute.
Il campionatore esegue i backbones gemelli di Ovi insieme in modo che la colonna sonora e i fotogrammi si evolvano insieme. Un aiuto di guida a strati salta migliora la stabilità e i dettagli senza sacrificare il movimento. Il workflow instrada anche i tuoi embedding di testo originali attraverso un mixer CFG specifico per Ovi in modo da poter inclinare l'equilibrio tra aderenza rigorosa al prompt e animazione più libera. Character AI Ovi tende a produrre il miglior movimento delle labbra quando la linea parlata è breve, letterale e racchiusa solo dai tag <S>
e <E>
.
Dopo il campionamento, i latenti video vengono decodificati tramite il VAE Wan mentre i latenti audio vengono decodificati tramite MMAudio con BigVGAN. Un combinatore video muxa i fotogrammi e l'audio in un MP4 a 24 fps, pronto per la condivisione. Puoi anche visualizzare in anteprima l'audio direttamente per verificare l'intelligibilità del discorso prima di salvare. Il percorso predefinito di Character AI Ovi punta a 5 secondi; estendilo con cautela per mantenere le labbra e la cadenza sincronizzate.
WanVideoTextEncodeCached
(#85)
Codifica il prompt principale positivo e il prompt negativo video in embedding utilizzati da entrambi i rami. Mantieni il dialogo all'interno di <S>…<E>
e posiziona il design del suono all'interno di <AUDCAP>…<ENDAUDCAP>
. Per il miglior allineamento, evita più frasi in un tag di discorso e mantieni la linea concisa.
WanVideoTextEncodeCached
(#96)
Fornisce un embedding di testo negativo dedicato per l'audio. Usalo per sopprimere artefatti come il tono robotico o la forte riverberazione senza influenzare i visivi. Inizia con descrittori brevi e espandi solo se senti ancora il problema.
WanVideoOviCFG
(#94)
Miscelare gli embedding di testo originali con i negativi specifici per l'audio tramite una guida libera da classificazione consapevole di Ovi. Alzalo quando il contenuto del discorso si discosta dalla linea scritta o i movimenti delle labbra sembrano fuori luogo. Abbassalo leggermente se il movimento diventa rigido o troppo vincolato.
WanVideoSampler
(#80)
Il cuore di Character AI Ovi. Consuma embed di immagini, embed di testo congiunti e guida opzionale per campionare un singolo latente che contiene sia video che audio. Più passaggi aumentano la fedeltà ma anche il tempo di esecuzione. Se vedi pressione di memoria o blocchi, abbina un maggiore scambio di blocco con cache attivata e considera di disabilitare la compilazione torch per una rapida risoluzione dei problemi.
WanVideoEmptyMMAudioLatents
(#125)
Inizializza la timeline dei latenti audio. La lunghezza predefinita è sintonizzata per un clip di 121 fotogrammi a 24 fps. Modificare questo per cambiare la durata è sperimentale; cambialo solo se comprendi come deve seguire il conteggio dei fotogrammi.
VHS_VideoCombine
(#88)
Muxa fotogrammi decodificati e audio in MP4. Imposta il frame rate per corrispondere al tuo target di campionamento e attiva trim-to-audio se vuoi che il taglio finale segua la forma d'onda generata. Usa il controllo CRF per bilanciare dimensione del file e qualità.
bf16
per i caricamenti del modello e l'encoder di testo.<S>
e <E>
.Con questi elementi in posizione, Character AI Ovi diventa una pipeline compatta e amichevole per i creatori per avatar parlanti espressivi e scene narrative che suonano bene quanto appaiono.
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo kijai e Character AI per Ovi per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Playground, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.