ChatterBox TTS ComfyUI: Modalità TTS multiple, conversione vocale, multilingue e sintesi di dialogo in un unico grafico#
ChatterBox TTS ComfyUI è un flusso di lavoro audio compatto e amichevole per i creatori che ti permette di generare discorsi in diverse modalità da un'unica tela: TTS standard, Turbo TTS per bozze rapide, narrazione multilingue, clonazione vocale guidata da riferimento, conversione vocale e dialogo a due voci. È alimentato dalla suite di nodi FL ChatterBox di ComfyUI_Fill-ChatterBox, che integra il progetto open-source Resemble AI Chatterbox.
Usa questo flusso di lavoro per prototipare voci AI, localizzare linee in altre lingue, convertire una performance in un'altra voce o bloccare scambi di personaggi. Il layout mantiene ogni percorso separato, così puoi ascoltare i risultati affiancati e decidere rapidamente quale modalità ChatterBox TTS ComfyUI si adatta al tuo compito.
Modelli chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#
- Modelli TTS Resemble AI Chatterbox. TTS neurale di base che trasforma uno script in un discorso naturale, con audio di riferimento opzionale per guidare voce e stile. Resemble AI Chatterbox
- Turbo TTS Resemble AI Chatterbox. Una variante TTS a bassa latenza ottimizzata per la velocità quando hai bisogno di riprese rapide e suggerimenti iterativi. Resemble AI Chatterbox
- Multilingue TTS Resemble AI Chatterbox. Modelli che rendono il testo in più lingue preservando uno stile scelto o una voce di riferimento. Resemble AI Chatterbox
- Conversione vocale Resemble AI Chatterbox. Trasforma il timbro di una registrazione in una voce target mantenendo il tempo e il contenuto. Resemble AI Chatterbox
Come usare il flusso di lavoro Comfyui ChatterBox TTS ComfyUI#
Questo grafico è organizzato come percorsi paralleli che partono da input audio condivisi e fluiscono nei nodi ChatterBox, ognuno dei quali visualizza in anteprima il proprio risultato. Carica o sostituisci le due clip di input, quindi attiva il percorso che desideri.
Input: riferimento e audio sorgente#
Due nodi LoadAudio forniscono input riutilizzabili. LoadAudio (#12) alimenta diversi percorsi come riferimento di stile o sorgente. LoadAudio (#20) funge da riferimento alternativo o voce target. Puoi puntare questi a clip brevi e pulite che rappresentano lo stile di parlato o l'identità che vuoi emulare. Entrambi accettano file audio comuni e possono anche estrarre audio da video.
TTS standard con riferimento di stile opzionale#
FL_ChatterboxTTS (#16) genera discorsi dal tuo script e può opzionalmente prendere audio_prompt da LoadAudio (#12) per catturare voce e consegna. Inserisci il tuo testo, collega un riferimento adatto se desideri somiglianza vocale, e metti in coda il nodo. Usa l'attaccato PreviewAudio per ascoltare. Fissa il seme quando hai bisogno di prendere ripetibili o randomizza per esplorare variazioni.
Turbo TTS per iterazione rapida#
FL_ChatterboxTurboTTS (#15) si concentra sulla sintesi veloce per bozze rapide e modifica interattiva. Accetta un audio_prompt da LoadAudio (#20) se vuoi spingere tono o identità. Mantieni gli script concisi quando ti muovi velocemente e sperimenta con il markup come "[laugh]" per testare spunti non verbali. Visualizza in anteprima l'output, quindi passa a TTS standard o multilingue se desideri una consegna più ricca.
Narrazione multilingue#
FL_ChatterboxMultilingualTTS (#25) rende il tuo script nella lingua selezionata e può prendere in prestito lo stile da audio_prompt su LoadAudio (#12). Scegli l'etichetta della lingua (ad esempio, English (en) come mostrato nel grafico) e fornisci il testo in quella lingua. Una breve clip di riferimento aiuta a mantenere un accento o un personaggio coerente tra le lingue. Ascolta in PreviewAudio e itera sulla formulazione per chiarezza.
Conversione vocale#
FL_ChatterboxVC (#19) converte il timbro di una linea input_audio da LoadAudio (#12) nella target_voice da LoadAudio (#20). Questo è ideale quando hai già una lettura perfettamente temporizzata e vuoi solo che venga eseguita da un'altra voce. Taglia il silenzio e mantieni pulita la voce target per ridurre gli artefatti. Usa l'anteprima per confermare che il contenuto è preservato mentre l'identità cambia.
Sintesi di dialogo a due voci#
FL_ChatterboxDialogTTS (#23) trasforma uno script a più linee in una singola traccia dialog_audio. Fornisci speaker_A_Audio e speaker_B_Audio opzionali dai due nodi LoadAudio per ancorare la voce di ciascun personaggio. Nella casella dello script, prefissa le linee con tag del tipo "SPEAKER A:" e "SPEAKER B:" per assegnare i turni, come dimostrato nel grafico. Puoi estendere a speaker C e D aggiungendo clip di riferimento ai loro input.
Anteprima e confronto#
Ogni percorso si apre al proprio PreviewAudio così puoi ascoltare immediatamente e confrontare le modalità. Esegui un percorso alla volta o metti in coda diversi per ascoltare le differenze tra output standard, Turbo, multilingue, di conversione e di dialogo all'interno della stessa sessione ChatterBox TTS ComfyUI.
Nodi chiave nel flusso di lavoro Comfyui ChatterBox TTS ComfyUI#
FL_ChatterboxTTS (#16)#
TTS generico che accetta uno script e un riferimento audio_prompt opzionale per imitare lo stile. Usalo quando la qualità e la controllabilità sono più importanti. Mantieni la stessa clip di riferimento tra le riprese per un'identità coerente e blocca il seme quando hai bisogno di riproducibilità esatta.
FL_ChatterboxTurboTTS (#15)#
TTS veloce per scrivere bozze, iterare sui suggerimenti o visualizzare in anteprima idee di markup. Accetta anche audio_prompt per il controllo della voce. Se noti una prosodia più sottile rispetto al percorso standard, finalizza con FL_ChatterboxTTS usando lo stesso script e riferimento.
FL_ChatterboxMultilingualTTS (#25)#
TTS consapevole della lingua che preserva un personaggio scelto mentre cambia lingua. Scegli l'etichetta della lingua e fornisci il testo in quella lingua. Un audio_prompt corrispondente mantiene l'accento e l'energia allineati con la tua voce di riferimento.
FL_ChatterboxVC (#19)#
Conversione vocale che mappa una performance input_audio a una target_voice. Usa una clip target pulita e rappresentativa e una lettura fonte ben cadenzata. Per i migliori risultati, taglia i silenzi lunghi ed evita rumori di fondo pesanti in qualsiasi clip.
FL_ChatterboxDialogTTS (#23)#
TTS multi-speaker che analizza linee etichettate in una singola conversazione. Assegna riferimenti per ciascun input personaggio che intendi utilizzare, quindi struttura lo script con chiari tag "SPEAKER X:". Mantieni i turni ragionevolmente brevi per un ritmo naturale e modifiche di timing più facili in seguito.
Extra opzionali#
- Mantieni i clip di riferimento brevi, puliti ed espressivi; il rumore di fondo e il tono riducono la fedeltà vocale.
- Usa un seme fisso quando hai bisogno di abbinare il timing e la consegna tra revisioni; randomizza per esplorare alternative.
- Se un percorso suona troppo forte o distorto, normalizza i tuoi riferimenti e riduci il guadagno di input prima della sintesi.
- Turbo è ottimo per l'esplorazione di suggerimenti; ripeti le linee promettenti con TTS standard o multilingue per una rifinitura finale.
- Gli script di dialogo sono più facili da mantenere se poni un enunciato per linea e tagghi i parlanti in modo coerente.
- Aggiungi un nodo
SaveAudiodopo qualsiasi anteprima se vuoi esportare file direttamente dalla tela.
ChatterBox TTS ComfyUI ti offre un parco giochi flessibile e a grafico unico per provare voci, lingue e dialoghi senza cambiare contesto, tutto supportato da ComfyUI_Fill-ChatterBox e Resemble AI Chatterbox.
Riconoscimenti#
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo filliptm per ComfyUI_Fill-ChatterBox e Resemble AI per Chatterbox, per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse#
- filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
- resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.


