ComfyUI>Workflow>ChatterBox TTS ComfyUI | Generatore di Voce AI

ChatterBox TTS ComfyUI | Generatore di Voce AI

Workflow Name: RunComfy/ChatterBox-TTS-ComfyUI
Workflow ID: 0000...1410
Con questo flusso di lavoro di sintesi vocale, puoi progettare discorsi naturali, dialoghi multilingue e voci clonate in un'unica configurazione efficiente. La suite di nodi audio offre sia la generazione TTS standard che Turbo con controllo vocale guidato da riferimento. Puoi testare e confrontare velocemente le modalità di discorso, rendendolo ideale per la prototipazione di narrazioni, voci di personaggi virtuali o progetti di performance AI. Ogni impostazione è ottimizzata per offrire ai creatori flessibilità nel tono, accento e ritmo. Ottimo per esperimenti di design vocale e narrazione creativa attraverso il suono.

ChatterBox TTS ComfyUI Workflow

ChatterBox TTS ComfyUI Workflow | Multilingual Voice & Dialog
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI: Modalità TTS multiple, conversione vocale, multilingue e sintesi di dialogo in un unico grafico#

ChatterBox TTS ComfyUI è un flusso di lavoro audio compatto e amichevole per i creatori che ti permette di generare discorsi in diverse modalità da un'unica tela: TTS standard, Turbo TTS per bozze rapide, narrazione multilingue, clonazione vocale guidata da riferimento, conversione vocale e dialogo a due voci. È alimentato dalla suite di nodi FL ChatterBox di ComfyUI_Fill-ChatterBox, che integra il progetto open-source Resemble AI Chatterbox.

Usa questo flusso di lavoro per prototipare voci AI, localizzare linee in altre lingue, convertire una performance in un'altra voce o bloccare scambi di personaggi. Il layout mantiene ogni percorso separato, così puoi ascoltare i risultati affiancati e decidere rapidamente quale modalità ChatterBox TTS ComfyUI si adatta al tuo compito.

Modelli chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

  • Modelli TTS Resemble AI Chatterbox. TTS neurale di base che trasforma uno script in un discorso naturale, con audio di riferimento opzionale per guidare voce e stile. Resemble AI Chatterbox
  • Turbo TTS Resemble AI Chatterbox. Una variante TTS a bassa latenza ottimizzata per la velocità quando hai bisogno di riprese rapide e suggerimenti iterativi. Resemble AI Chatterbox
  • Multilingue TTS Resemble AI Chatterbox. Modelli che rendono il testo in più lingue preservando uno stile scelto o una voce di riferimento. Resemble AI Chatterbox
  • Conversione vocale Resemble AI Chatterbox. Trasforma il timbro di una registrazione in una voce target mantenendo il tempo e il contenuto. Resemble AI Chatterbox

Come usare il flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

Questo grafico è organizzato come percorsi paralleli che partono da input audio condivisi e fluiscono nei nodi ChatterBox, ognuno dei quali visualizza in anteprima il proprio risultato. Carica o sostituisci le due clip di input, quindi attiva il percorso che desideri.

Input: riferimento e audio sorgente#

Due nodi LoadAudio forniscono input riutilizzabili. LoadAudio (#12) alimenta diversi percorsi come riferimento di stile o sorgente. LoadAudio (#20) funge da riferimento alternativo o voce target. Puoi puntare questi a clip brevi e pulite che rappresentano lo stile di parlato o l'identità che vuoi emulare. Entrambi accettano file audio comuni e possono anche estrarre audio da video.

TTS standard con riferimento di stile opzionale#

FL_ChatterboxTTS (#16) genera discorsi dal tuo script e può opzionalmente prendere audio_prompt da LoadAudio (#12) per catturare voce e consegna. Inserisci il tuo testo, collega un riferimento adatto se desideri somiglianza vocale, e metti in coda il nodo. Usa l'attaccato PreviewAudio per ascoltare. Fissa il seme quando hai bisogno di prendere ripetibili o randomizza per esplorare variazioni.

Turbo TTS per iterazione rapida#

FL_ChatterboxTurboTTS (#15) si concentra sulla sintesi veloce per bozze rapide e modifica interattiva. Accetta un audio_prompt da LoadAudio (#20) se vuoi spingere tono o identità. Mantieni gli script concisi quando ti muovi velocemente e sperimenta con il markup come "[laugh]" per testare spunti non verbali. Visualizza in anteprima l'output, quindi passa a TTS standard o multilingue se desideri una consegna più ricca.

Narrazione multilingue#

FL_ChatterboxMultilingualTTS (#25) rende il tuo script nella lingua selezionata e può prendere in prestito lo stile da audio_prompt su LoadAudio (#12). Scegli l'etichetta della lingua (ad esempio, English (en) come mostrato nel grafico) e fornisci il testo in quella lingua. Una breve clip di riferimento aiuta a mantenere un accento o un personaggio coerente tra le lingue. Ascolta in PreviewAudio e itera sulla formulazione per chiarezza.

Conversione vocale#

FL_ChatterboxVC (#19) converte il timbro di una linea input_audio da LoadAudio (#12) nella target_voice da LoadAudio (#20). Questo è ideale quando hai già una lettura perfettamente temporizzata e vuoi solo che venga eseguita da un'altra voce. Taglia il silenzio e mantieni pulita la voce target per ridurre gli artefatti. Usa l'anteprima per confermare che il contenuto è preservato mentre l'identità cambia.

Sintesi di dialogo a due voci#

FL_ChatterboxDialogTTS (#23) trasforma uno script a più linee in una singola traccia dialog_audio. Fornisci speaker_A_Audio e speaker_B_Audio opzionali dai due nodi LoadAudio per ancorare la voce di ciascun personaggio. Nella casella dello script, prefissa le linee con tag del tipo "SPEAKER A:" e "SPEAKER B:" per assegnare i turni, come dimostrato nel grafico. Puoi estendere a speaker C e D aggiungendo clip di riferimento ai loro input.

Anteprima e confronto#

Ogni percorso si apre al proprio PreviewAudio così puoi ascoltare immediatamente e confrontare le modalità. Esegui un percorso alla volta o metti in coda diversi per ascoltare le differenze tra output standard, Turbo, multilingue, di conversione e di dialogo all'interno della stessa sessione ChatterBox TTS ComfyUI.

Nodi chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#

FL_ChatterboxTTS (#16)#

TTS generico che accetta uno script e un riferimento audio_prompt opzionale per imitare lo stile. Usalo quando la qualità e la controllabilità sono più importanti. Mantieni la stessa clip di riferimento tra le riprese per un'identità coerente e blocca il seme quando hai bisogno di riproducibilità esatta.

FL_ChatterboxTurboTTS (#15)#

TTS veloce per scrivere bozze, iterare sui suggerimenti o visualizzare in anteprima idee di markup. Accetta anche audio_prompt per il controllo della voce. Se noti una prosodia più sottile rispetto al percorso standard, finalizza con FL_ChatterboxTTS usando lo stesso script e riferimento.

FL_ChatterboxMultilingualTTS (#25)#

TTS consapevole della lingua che preserva un personaggio scelto mentre cambia lingua. Scegli l'etichetta della lingua e fornisci il testo in quella lingua. Un audio_prompt corrispondente mantiene l'accento e l'energia allineati con la tua voce di riferimento.

FL_ChatterboxVC (#19)#

Conversione vocale che mappa una performance input_audio a una target_voice. Usa una clip target pulita e rappresentativa e una lettura fonte ben cadenzata. Per i migliori risultati, taglia i silenzi lunghi ed evita rumori di fondo pesanti in qualsiasi clip.

FL_ChatterboxDialogTTS (#23)#

TTS multi-speaker che analizza linee etichettate in una singola conversazione. Assegna riferimenti per ciascun input personaggio che intendi utilizzare, quindi struttura lo script con chiari tag "SPEAKER X:". Mantieni i turni ragionevolmente brevi per un ritmo naturale e modifiche di timing più facili in seguito.

Extra opzionali#

  • Mantieni i clip di riferimento brevi, puliti ed espressivi; il rumore di fondo e il tono riducono la fedeltà vocale.
  • Usa un seme fisso quando hai bisogno di abbinare il timing e la consegna tra revisioni; randomizza per esplorare alternative.
  • Se un percorso suona troppo forte o distorto, normalizza i tuoi riferimenti e riduci il guadagno di input prima della sintesi.
  • Turbo è ottimo per l'esplorazione di suggerimenti; ripeti le linee promettenti con TTS standard o multilingue per una rifinitura finale.
  • Gli script di dialogo sono più facili da mantenere se poni un enunciato per linea e tagghi i parlanti in modo coerente.
  • Aggiungi un nodo SaveAudio dopo qualsiasi anteprima se vuoi esportare file direttamente dalla tela.

ChatterBox TTS ComfyUI ti offre un parco giochi flessibile e a grafico unico per provare voci, lingue e dialoghi senza cambiare contesto, tutto supportato da ComfyUI_Fill-ChatterBox e Resemble AI Chatterbox.

Riconoscimenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo filliptm per ComfyUI_Fill-ChatterBox e Resemble AI per Chatterbox, per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.