ComfyUI F5 TTS: sintesi vocale e clonazione vocale zero-shot in un unico workflow
Questo workflow ComfyUI F5 TTS ti consente di generare discorsi naturali da testo e clonare voci direttamente all'interno di ComfyUI. È alimentato dai nodi personalizzati ComfyUI-F5-TTS e include un percorso completo per la clonazione basata su riferimento: fornisci un breve WAV più una trascrizione corrispondente per condizionare il modello, quindi sintetizza nuove linee che seguono il timbro e lo stile del relatore di riferimento. Il grafico include anche test pronti all'uso per varianti di modello, lingue e vocoder, così puoi confrontare rapidamente i risultati e decidere cosa si adatta meglio a narrazioni, voiceover, dialoghi di personaggi o demo di prodotti.
Tutto è organizzato in gruppi chiari, quindi puoi usare ComfyUI F5 TTS in due modi: TTS veloce e con un clic in Inglese, Francese, Tedesco e Giapponese, o clonazione vocale tramite un registratore integrato o file abbinati. È incluso un percorso di trascrizione compatto Whisper per aiutarti a ottenere una trascrizione del campione accurata quando hai già una registrazione pulita.
Modelli chiave nel workflow ComfyUI F5 TTS
- Fish Audio F5-TTS. TTS zero-shot che apprende le caratteristiche di un relatore da un breve riferimento e produce discorsi di alta qualità in più lingue. Vedi il progetto per i dettagli del modello e il background del training. GitHub
- OpenAI Whisper. Riconoscimento vocale utilizzato qui per trascrivere automaticamente il tuo clip di riferimento in modo che il testo del campione corrisponda esattamente, migliorando la qualità della clonazione. GitHub
- BigVGAN. Un vocoder neurale ad alta fedeltà disponibile come opzione di decodifica per un'uscita più nitida e chiara. GitHub
- Vocos. Un'alternativa vocoder neurale veloce e leggera focalizzata su velocità e bassa latenza. GitHub
- Nodi personalizzati ComfyUI-F5-TTS. L'integrazione ComfyUI che collega F5-TTS e backend compatibili in nodi utilizzati in tutto questo grafico. GitHub
Come usare il workflow ComfyUI F5 TTS
A livello generale, il workflow offre gruppi indipendenti per confronti rapidi tra modelli e un percorso dedicato alla clonazione. Inizia provando i gruppi preconfigurati per confermare la voce e il vocoder che preferisci, quindi passa alla clonazione con il tuo campione. Ogni sottosezione qui sotto spiega cosa fa il gruppo e i pochi input che contano.
Test Audio From Inputs
Questo percorso dimostra la trascrizione di riferimento più il condizionamento. LoadAudio (#4) importa un WAV, Apply Whisper (#13) lo trascrive, e F5TTSAudioInputs (#26) utilizza sia l'audio di campione che il testo Whisper per condizionare la voce prima dell'anteprima. Fornisci un campione parlato pulito e lascia che Whisper riempia la porta della trascrizione in modo che la coppia corrisponda esattamente. Se vuoi fornire file direttamente, colloca un .wav e un .txt abbinati con lo stesso nome file in ComfyUI/input, quindi riavvia ComfyUI in modo che il grafico possa vederli.
Test Multi voice
Questo gruppo mostra il passaggio stilistico all'interno di una singola linea usando un unico nodo di sintesi. F5TTSAudio (#17) legge uno script con segmenti etichettati, così puoi provare stili di personaggio multipli o cambiamenti di enfasi in un unico passaggio. È un modo rapido per sentire come ComfyUI F5 TTS gestisce timbri contrastanti o ritmo narratore-contro-personaggio.
Audio EN
Usa F5TTSAudio (#15) per un TTS inglese semplice. Inserisci il tuo script e visualizza l'anteprima per valutare la pronuncia e il ritmo di base con il preset F5 predefinito. Questo percorso è ideale per iterazioni rapide prima di impegnarti nella clonazione o nel mixaggio multi-voce.
F5v1
Questo percorso esegue il nodo F5TTSAudio (#33) contro la variante F5 v1 in modo da poter confrontare il tono e la prosodia con il preset F5 principale. Usa lo stesso testo del percorso EN per rendere facile giudicare le differenze. È utile quando si sceglie un modello predefinito per un progetto più lungo.
Audio FR
Questo percorso è mirato alla sintesi francese con F5TTSAudio (#27) configurato per un preset francese. Fornisci uno script francese e visualizza l'anteprima dell'output per controllare le vocali nasali e la gestione del legamento. Passa avanti e indietro con il percorso EN per confrontare chiarezza e velocità.
Audio DE bigvgan
Qui F5TTSAudio (#30) utilizza un preset tedesco e il vocoder BigVGAN per una decodifica più luminosa e nitida. Usa questo percorso quando desideri più presenza o una lucentezza da studio. Se preferisci una resa più morbida, confronta con un percorso Vocos.
Audio JP
Questo percorso usa F5TTSAudio (#25) con un preset giapponese. Incolla uno script giapponese per valutare l'accento del tono e il timing delle mora. È un buon punto di partenza per letture in stile anime o linee di prodotti destinate a pubblici giapponesi.
Test E2
Questo gruppo esercita F5TTSAudio (#29) con un preset compatibile E2 e il vocoder Vocos per provare un backend alternativo. Usalo per confrontare latenza e caratteristiche del timbro con le tue esecuzioni F5.
Clona la tua voce
Registra, abbina e clona direttamente in ComfyUI. Premi il microfono in VrchAudioRecorderNode (#43) e leggi il prompt visualizzato nella casella "Sample Text to Record" Textbox (#42). Il registratore instrada il tuo WAV a F5TTSAudioInputs (#44) insieme al testo esatto che hai pronunciato, il che condiziona il modello sul tuo timbro e stile prima dell'anteprima in PreviewAudio (#45). Per risultati migliori, parla in una stanza tranquilla e assicurati che il testo di riferimento corrisponda esattamente a ciò che hai detto; quindi digita le nuove righe che vuoi che la voce clonata dica ed esegui il grafico.
Nodi chiave nel workflow ComfyUI F5 TTS
F5TTSAudio (#15)
Il nodo TTS a singolo passaggio principale utilizzato nei gruppi EN, FR, DE, JP, F5v1 ed E2. Fornisci il tuo script e scegli il preset del modello e il vocoder che si adattano alla tua lingua e consegna. Se vuoi esecuzioni riproducibili, mantieni il seme fisso; se vuoi varietà, randomizza tra le esecuzioni. L'implementazione è fornita dall'estensione ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS
F5TTSAudioInputs (#44)
Il punto di ingresso della clonazione che consuma un WAV di riferimento e la sua trascrizione corrispondente per costruire una rappresentazione del relatore, quindi sintetizza nuove linee in quella voce. Usa un campione pulito con volume costante e assicurati che la trascrizione sia esatta per massimizzare la somiglianza e ridurre gli artefatti. Cambia i preset del modello o i vocoder qui se hai bisogno di una decodifica più luminosa o più neutrale. GitHub - FishAudio/F5-TTS
Apply Whisper (#13)
Trascrizione automatica per il tuo campione di riferimento. Scegli una dimensione Whisper che bilanci velocità e precisione per il tuo hardware e lingua, quindi alimenta il suo testo di output al nodo di clonazione in modo che l'audio e il testo siano perfettamente allineati. Questo previene errori di condizionamento che possono verificarsi quando il testo del campione differisce da ciò che è stato effettivamente detto. GitHub
VrchAudioRecorderNode (#43)
Un registratore in grafico che cattura un breve prompt parlato per la clonazione, eliminando la necessità di strumenti esterni. Tieni premuto per registrare, rilascia per fermare e ascolta immediatamente come suona ComfyUI F5 TTS con la tua voce. Tieni il microfono vicino e riduci il rumore della stanza per il risultato più pulito.
Extra opzionali
- Usa da 5 a 15 secondi di discorso pulito per il riferimento, senza musica o effetti.
- Assicurati che la trascrizione del campione corrisponda esattamente alla registrazione; anche piccole discrepanze possono ridurre la fedeltà della clonazione.
- Confronta Vocos e BigVGAN sulla stessa linea per decidere tra velocità e dettaglio.
- Mantieni un seme fisso quando hai bisogno di riprese coerenti; randomizza quando esplori lo stile.
- Per progetti multilingue, prova prima i percorsi EN, FR, DE e JP, quindi finalizza la clonazione una volta che sei soddisfatto di pronuncia e ritmo.
Ringraziamenti
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine niknah per il nodo ComfyUI-F5-TTS, niknah per l'esempio di workflow F5TTS-test-all.json, e la comunità r/StableDiffusion per la guida "Voice Cloning with F5-TTS in ComfyUI" per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati qui sotto.
Risorse
- niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
- niknah/ComfyUI-F5-TTS (Example Workflow: F5TTS-test-all.json)
- r/StableDiffusion/Community Guide (Voice Cloning with F5-TTS in ComfyUI)
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

