ChatterBox TTS ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI: Modalità TTS multiple, conversione vocale, multilingue e sintesi di dialogo in un unico grafico#

ChatterBox TTS ComfyUI è un flusso di lavoro audio compatto e amichevole per i creatori che ti permette di generare discorsi in diverse modalità da un'unica tela: TTS standard, Turbo TTS per bozze rapide, narrazione multilingue, clonazione vocale guidata da riferimento, conversione vocale e dialogo a due voci. È alimentato dalla suite di nodi FL ChatterBox di ComfyUI_Fill-ChatterBox, che integra il progetto open-source Resemble AI Chatterbox.

Usa questo flusso di lavoro per prototipare voci AI, localizzare linee in altre lingue, convertire una performance in un'altra voce o bloccare scambi di personaggi. Il layout mantiene ogni percorso separato, così puoi ascoltare i risultati affiancati e decidere rapidamente quale modalità ChatterBox TTS ComfyUI si adatta al tuo compito.

Modelli chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

Modelli TTS Resemble AI Chatterbox. TTS neurale di base che trasforma uno script in un discorso naturale, con audio di riferimento opzionale per guidare voce e stile. Resemble AI Chatterbox
Turbo TTS Resemble AI Chatterbox. Una variante TTS a bassa latenza ottimizzata per la velocità quando hai bisogno di riprese rapide e suggerimenti iterativi. Resemble AI Chatterbox
Multilingue TTS Resemble AI Chatterbox. Modelli che rendono il testo in più lingue preservando uno stile scelto o una voce di riferimento. Resemble AI Chatterbox
Conversione vocale Resemble AI Chatterbox. Trasforma il timbro di una registrazione in una voce target mantenendo il tempo e il contenuto. Resemble AI Chatterbox

Come usare il flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

Questo grafico è organizzato come percorsi paralleli che partono da input audio condivisi e fluiscono nei nodi ChatterBox, ognuno dei quali visualizza in anteprima il proprio risultato. Carica o sostituisci le due clip di input, quindi attiva il percorso che desideri.

Input: riferimento e audio sorgente#

Due nodi LoadAudio forniscono input riutilizzabili. LoadAudio (#12) alimenta diversi percorsi come riferimento di stile o sorgente. LoadAudio (#20) funge da riferimento alternativo o voce target. Puoi puntare questi a clip brevi e pulite che rappresentano lo stile di parlato o l'identità che vuoi emulare. Entrambi accettano file audio comuni e possono anche estrarre audio da video.

TTS standard con riferimento di stile opzionale#

FL_ChatterboxTTS (#16) genera discorsi dal tuo script e può opzionalmente prendere audio_prompt da LoadAudio (#12) per catturare voce e consegna. Inserisci il tuo testo, collega un riferimento adatto se desideri somiglianza vocale, e metti in coda il nodo. Usa l'attaccato PreviewAudio per ascoltare. Fissa il seme quando hai bisogno di prendere ripetibili o randomizza per esplorare variazioni.

Turbo TTS per iterazione rapida#

FL_ChatterboxTurboTTS (#15) si concentra sulla sintesi veloce per bozze rapide e modifica interattiva. Accetta un audio_prompt da LoadAudio (#20) se vuoi spingere tono o identità. Mantieni gli script concisi quando ti muovi velocemente e sperimenta con il markup come "[laugh]" per testare spunti non verbali. Visualizza in anteprima l'output, quindi passa a TTS standard o multilingue se desideri una consegna più ricca.

Narrazione multilingue#

FL_ChatterboxMultilingualTTS (#25) rende il tuo script nella lingua selezionata e può prendere in prestito lo stile da audio_prompt su LoadAudio (#12). Scegli l'etichetta della lingua (ad esempio, English (en) come mostrato nel grafico) e fornisci il testo in quella lingua. Una breve clip di riferimento aiuta a mantenere un accento o un personaggio coerente tra le lingue. Ascolta in PreviewAudio e itera sulla formulazione per chiarezza.

Conversione vocale#

FL_ChatterboxVC (#19) converte il timbro di una linea input_audio da LoadAudio (#12) nella target_voice da LoadAudio (#20). Questo è ideale quando hai già una lettura perfettamente temporizzata e vuoi solo che venga eseguita da un'altra voce. Taglia il silenzio e mantieni pulita la voce target per ridurre gli artefatti. Usa l'anteprima per confermare che il contenuto è preservato mentre l'identità cambia.

Sintesi di dialogo a due voci#

FL_ChatterboxDialogTTS (#23) trasforma uno script a più linee in una singola traccia dialog_audio. Fornisci speaker_A_Audio e speaker_B_Audio opzionali dai due nodi LoadAudio per ancorare la voce di ciascun personaggio. Nella casella dello script, prefissa le linee con tag del tipo "SPEAKER A:" e "SPEAKER B:" per assegnare i turni, come dimostrato nel grafico. Puoi estendere a speaker C e D aggiungendo clip di riferimento ai loro input.

Anteprima e confronto#

Ogni percorso si apre al proprio PreviewAudio così puoi ascoltare immediatamente e confrontare le modalità. Esegui un percorso alla volta o metti in coda diversi per ascoltare le differenze tra output standard, Turbo, multilingue, di conversione e di dialogo all'interno della stessa sessione ChatterBox TTS ComfyUI.

Nodi chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

`FL_ChatterboxTTS` (#16)#

TTS generico che accetta uno script e un riferimento audio_prompt opzionale per imitare lo stile. Usalo quando la qualità e la controllabilità sono più importanti. Mantieni la stessa clip di riferimento tra le riprese per un'identità coerente e blocca il seme quando hai bisogno di riproducibilità esatta.

`FL_ChatterboxTurboTTS` (#15)#

TTS veloce per scrivere bozze, iterare sui suggerimenti o visualizzare in anteprima idee di markup. Accetta anche audio_prompt per il controllo della voce. Se noti una prosodia più sottile rispetto al percorso standard, finalizza con FL_ChatterboxTTS usando lo stesso script e riferimento.

`FL_ChatterboxMultilingualTTS` (#25)#

TTS consapevole della lingua che preserva un personaggio scelto mentre cambia lingua. Scegli l'etichetta della lingua e fornisci il testo in quella lingua. Un audio_prompt corrispondente mantiene l'accento e l'energia allineati con la tua voce di riferimento.

`FL_ChatterboxVC` (#19)#

Conversione vocale che mappa una performance input_audio a una target_voice. Usa una clip target pulita e rappresentativa e una lettura fonte ben cadenzata. Per i migliori risultati, taglia i silenzi lunghi ed evita rumori di fondo pesanti in qualsiasi clip.

`FL_ChatterboxDialogTTS` (#23)#

TTS multi-speaker che analizza linee etichettate in una singola conversazione. Assegna riferimenti per ciascun input personaggio che intendi utilizzare, quindi struttura lo script con chiari tag "SPEAKER X:". Mantieni i turni ragionevolmente brevi per un ritmo naturale e modifiche di timing più facili in seguito.

Extra opzionali#

Mantieni i clip di riferimento brevi, puliti ed espressivi; il rumore di fondo e il tono riducono la fedeltà vocale.
Usa un seme fisso quando hai bisogno di abbinare il timing e la consegna tra revisioni; randomizza per esplorare alternative.
Se un percorso suona troppo forte o distorto, normalizza i tuoi riferimenti e riduci il guadagno di input prima della sintesi.
Turbo è ottimo per l'esplorazione di suggerimenti; ripeti le linee promettenti con TTS standard o multilingue per una rifinitura finale.
Gli script di dialogo sono più facili da mantenere se poni un enunciato per linea e tagghi i parlanti in modo coerente.
Aggiungi un nodo SaveAudio dopo qualsiasi anteprima se vuoi esportare file direttamente dalla tela.

ChatterBox TTS ComfyUI ti offre un parco giochi flessibile e a grafico unico per provare voci, lingue e dialoghi senza cambiare contesto, tutto supportato da ComfyUI_Fill-ChatterBox e Resemble AI Chatterbox.

Riconoscimenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo filliptm per ComfyUI_Fill-ChatterBox e Resemble AI per Chatterbox, per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Fish Audio S2 TTS | Generatore di Voci Espressive

Crea discorsi realistici con emozioni, stili e voci clonate rapidamente.

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

ACE-Step 1.5XL Base testo in musica | Generatore di Suoni AI

Trasforma istantaneamente il tuo testo in musica creata dall'IA.

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

Flux Fill | Inpaint e Outpaint

Official Flux Tools - Flux Fill per Inpainting e Outpainting

Dance Video Transform | Scene Customization & Face Swap

Trasforma i video di danza con modifica delle scene, face-swapping e conservazione del movimento.

ComfyUI FLUX | Una Nuova Generazione di Immagini Artistiche

Un nuovo modello di generazione di immagini sviluppato da Black Forest Labs

Stable Audio Open 1.0 | Strumento Text-to-Music

Trasforma i prompt testuali in musica cinematografica in modo fluido e veloce.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

ChatterBox TTS ComfyUI | Generatore di Voce AI