ComfyUI F5 TTS Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI F5 TTS Examples

ComfyUI F5 TTS: sintesi vocale e clonazione vocale zero-shot in un unico workflow#

Questo workflow ComfyUI F5 TTS ti consente di generare discorsi naturali da testo e clonare voci direttamente all'interno di ComfyUI. È alimentato dai nodi personalizzati ComfyUI-F5-TTS e include un percorso completo per la clonazione basata su riferimento: fornisci un breve WAV più una trascrizione corrispondente per condizionare il modello, quindi sintetizza nuove linee che seguono il timbro e lo stile del relatore di riferimento. Il grafico include anche test pronti all'uso per varianti di modello, lingue e vocoder, così puoi confrontare rapidamente i risultati e decidere cosa si adatta meglio a narrazioni, voiceover, dialoghi di personaggi o demo di prodotti.

Tutto è organizzato in gruppi chiari, quindi puoi usare ComfyUI F5 TTS in due modi: TTS veloce e con un clic in Inglese, Francese, Tedesco e Giapponese, o clonazione vocale tramite un registratore integrato o file abbinati. È incluso un percorso di trascrizione compatto Whisper per aiutarti a ottenere una trascrizione del campione accurata quando hai già una registrazione pulita.

Modelli chiave nel workflow ComfyUI F5 TTS#

Fish Audio F5-TTS. TTS zero-shot che apprende le caratteristiche di un relatore da un breve riferimento e produce discorsi di alta qualità in più lingue. Vedi il progetto per i dettagli del modello e il background del training. GitHub
OpenAI Whisper. Riconoscimento vocale utilizzato qui per trascrivere automaticamente il tuo clip di riferimento in modo che il testo del campione corrisponda esattamente, migliorando la qualità della clonazione. GitHub
BigVGAN. Un vocoder neurale ad alta fedeltà disponibile come opzione di decodifica per un'uscita più nitida e chiara. GitHub
Vocos. Un'alternativa vocoder neurale veloce e leggera focalizzata su velocità e bassa latenza. GitHub
Nodi personalizzati ComfyUI-F5-TTS. L'integrazione ComfyUI che collega F5-TTS e backend compatibili in nodi utilizzati in tutto questo grafico. GitHub

Come usare il workflow ComfyUI F5 TTS#

A livello generale, il workflow offre gruppi indipendenti per confronti rapidi tra modelli e un percorso dedicato alla clonazione. Inizia provando i gruppi preconfigurati per confermare la voce e il vocoder che preferisci, quindi passa alla clonazione con il tuo campione. Ogni sottosezione qui sotto spiega cosa fa il gruppo e i pochi input che contano.

Test Audio From Inputs#

Questo percorso dimostra la trascrizione di riferimento più il condizionamento. LoadAudio (#4) importa un WAV, Apply Whisper (#13) lo trascrive, e F5TTSAudioInputs (#26) utilizza sia l'audio di campione che il testo Whisper per condizionare la voce prima dell'anteprima. Fornisci un campione parlato pulito e lascia che Whisper riempia la porta della trascrizione in modo che la coppia corrisponda esattamente. Se vuoi fornire file direttamente, colloca un .wav e un .txt abbinati con lo stesso nome file in ComfyUI/input, quindi riavvia ComfyUI in modo che il grafico possa vederli.

Test Multi voice#

Questo gruppo mostra il passaggio stilistico all'interno di una singola linea usando un unico nodo di sintesi. F5TTSAudio (#17) legge uno script con segmenti etichettati, così puoi provare stili di personaggio multipli o cambiamenti di enfasi in un unico passaggio. È un modo rapido per sentire come ComfyUI F5 TTS gestisce timbri contrastanti o ritmo narratore-contro-personaggio.

Audio EN#

Usa F5TTSAudio (#15) per un TTS inglese semplice. Inserisci il tuo script e visualizza l'anteprima per valutare la pronuncia e il ritmo di base con il preset F5 predefinito. Questo percorso è ideale per iterazioni rapide prima di impegnarti nella clonazione o nel mixaggio multi-voce.

F5v1#

Questo percorso esegue il nodo F5TTSAudio (#33) contro la variante F5 v1 in modo da poter confrontare il tono e la prosodia con il preset F5 principale. Usa lo stesso testo del percorso EN per rendere facile giudicare le differenze. È utile quando si sceglie un modello predefinito per un progetto più lungo.

Audio FR#

Questo percorso è mirato alla sintesi francese con F5TTSAudio (#27) configurato per un preset francese. Fornisci uno script francese e visualizza l'anteprima dell'output per controllare le vocali nasali e la gestione del legamento. Passa avanti e indietro con il percorso EN per confrontare chiarezza e velocità.

Audio DE bigvgan#

Qui F5TTSAudio (#30) utilizza un preset tedesco e il vocoder BigVGAN per una decodifica più luminosa e nitida. Usa questo percorso quando desideri più presenza o una lucentezza da studio. Se preferisci una resa più morbida, confronta con un percorso Vocos.

Audio JP#

Questo percorso usa F5TTSAudio (#25) con un preset giapponese. Incolla uno script giapponese per valutare l'accento del tono e il timing delle mora. È un buon punto di partenza per letture in stile anime o linee di prodotti destinate a pubblici giapponesi.

Test E2#

Questo gruppo esercita F5TTSAudio (#29) con un preset compatibile E2 e il vocoder Vocos per provare un backend alternativo. Usalo per confrontare latenza e caratteristiche del timbro con le tue esecuzioni F5.

Clona la tua voce#

Registra, abbina e clona direttamente in ComfyUI. Premi il microfono in VrchAudioRecorderNode (#43) e leggi il prompt visualizzato nella casella "Sample Text to Record" Textbox (#42). Il registratore instrada il tuo WAV a F5TTSAudioInputs (#44) insieme al testo esatto che hai pronunciato, il che condiziona il modello sul tuo timbro e stile prima dell'anteprima in PreviewAudio (#45). Per risultati migliori, parla in una stanza tranquilla e assicurati che il testo di riferimento corrisponda esattamente a ciò che hai detto; quindi digita le nuove righe che vuoi che la voce clonata dica ed esegui il grafico.

Nodi chiave nel workflow ComfyUI F5 TTS#

`F5TTSAudio` (#15)#

Il nodo TTS a singolo passaggio principale utilizzato nei gruppi EN, FR, DE, JP, F5v1 ed E2. Fornisci il tuo script e scegli il preset del modello e il vocoder che si adattano alla tua lingua e consegna. Se vuoi esecuzioni riproducibili, mantieni il seme fisso; se vuoi varietà, randomizza tra le esecuzioni. L'implementazione è fornita dall'estensione ComfyUI-F5-TTS. GitHub GitHub - FishAudio/F5-TTS

`F5TTSAudioInputs` (#44)#

Il punto di ingresso della clonazione che consuma un WAV di riferimento e la sua trascrizione corrispondente per costruire una rappresentazione del relatore, quindi sintetizza nuove linee in quella voce. Usa un campione pulito con volume costante e assicurati che la trascrizione sia esatta per massimizzare la somiglianza e ridurre gli artefatti. Cambia i preset del modello o i vocoder qui se hai bisogno di una decodifica più luminosa o più neutrale. GitHub - FishAudio/F5-TTS

`Apply Whisper` (#13)#

Trascrizione automatica per il tuo campione di riferimento. Scegli una dimensione Whisper che bilanci velocità e precisione per il tuo hardware e lingua, quindi alimenta il suo testo di output al nodo di clonazione in modo che l'audio e il testo siano perfettamente allineati. Questo previene errori di condizionamento che possono verificarsi quando il testo del campione differisce da ciò che è stato effettivamente detto. GitHub

`VrchAudioRecorderNode` (#43)#

Un registratore in grafico che cattura un breve prompt parlato per la clonazione, eliminando la necessità di strumenti esterni. Tieni premuto per registrare, rilascia per fermare e ascolta immediatamente come suona ComfyUI F5 TTS con la tua voce. Tieni il microfono vicino e riduci il rumore della stanza per il risultato più pulito.

Extra opzionali#

Usa da 5 a 15 secondi di discorso pulito per il riferimento, senza musica o effetti.
Assicurati che la trascrizione del campione corrisponda esattamente alla registrazione; anche piccole discrepanze possono ridurre la fedeltà della clonazione.
Confronta Vocos e BigVGAN sulla stessa linea per decidere tra velocità e dettaglio.
Mantieni un seme fisso quando hai bisogno di riprese coerenti; randomizza quando esplori lo stile.
Per progetti multilingue, prova prima i percorsi EN, FR, DE e JP, quindi finalizza la clonazione una volta che sei soddisfatto di pronuncia e ritmo.

Ringraziamenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine niknah per il nodo ComfyUI-F5-TTS, niknah per l'esempio di workflow F5TTS-test-all.json, e la comunità r/StableDiffusion per la guida "Voice Cloning with F5-TTS in ComfyUI" per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati qui sotto.

Risorse#

niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
niknah/ComfyUI-F5-TTS (Example Workflow: F5TTS-test-all.json)
- GitHub: example_workflows/F5TTS-test-all.json
r/StableDiffusion/Community Guide (Voice Cloning with F5-TTS in ComfyUI)
- GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
- Docs / Note di rilascio: Clona la tua voce in modo semplice utilizzando ComfyUI e quasi in tempo reale! (Tutorial passo-passo e workflow incluso)

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

EchoMimic | Animazioni di Ritratti Guidate dall'Audio

Genera teste parlanti realistiche e gesti del corpo sincronizzati con l'audio fornito.

Hunyuan3D 2.1 | Da Immagine a Modello 3D

Grande salto dal 2.0: Trasforma le foto in incredibili modelli 3D istantaneamente.

Workflow LTX-2.3 ICLoRA LipDub | Generatore di Video con Sincronizzazione Labiale

Trasforma qualsiasi video in un capolavoro parlante con sincronizzazione labiale perfetta.

Anima Base v1 ComfyUI | Generatore di Anime Cyberpunk

Trasforma il testo in ritratti anime cyberpunk audaci in modo rapido e semplice.

Mochi 1 | Genmo Testo-a-Video

Demo Testo a Video Utilizzando il Modello Genmo Mochi 1

SkyReels V3 ComfyUI | Generatore Video AI

Trasforma immagini in video di movimento cinematografico di alta qualità e fluidità.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

ComfyUI F5 TTS | Motore di Clonazione Vocale Naturale