Fish Audio S2 TTS in ComfyUI | Emotion, Multi-Speaker, Cloning

ComfyUI Fish Audio S2 TTS Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Fish Audio S2 TTS Examples

Fish Audio S2 TTS per ComfyUI: TTS di alta qualità, clonazione vocale e dialoghi multi-locutore#

Fish Audio S2 TTS è un flusso di lavoro ComfyUI pronto all'uso che trasforma il testo in parlato naturale, clona una voce da un breve clip di riferimento e genera conversazioni multi-locutore. È alimentato dalla famiglia Fish Audio S2-Pro e supporta un ricco controllo dello stile tramite tag di emozione e prosodia come [excited], [whisper] e [laughing].

Questo flusso di lavoro è ideale per creatori, team di prodotto e sviluppatori che desiderano una sintesi vocale flessibile ed espressiva all'interno di ComfyUI. Include un'opzione di speech-to-text per la cattura rapida di trascrizioni, rilevamento automatico della lingua e scelte di precisione multiple tra cui fp8 e sage_attention per un'inferenza efficiente.

Nota: Esegui questo flusso di lavoro su una macchina 2X Large o più grande. Istanza più piccole potrebbero esaurire la memoria (OOM).

Modelli chiave nel flusso di lavoro Comfyui Fish Audio S2 TTS#

Fish Audio S2-Pro — il modello generativo principale di text-to-speech utilizzato per TTS a singolo locutore, clonazione vocale e dialoghi multi-locutore. Supporta token di stile estesi e sintesi multilingue model card ed è parte del progetto Fish-Speech repo.
Fish Audio S2-Pro FP8 — una variante efficiente in termini di memoria di S2-Pro che riduce le necessità di VRAM con compromessi di qualità minimi, consigliata per GPU vincolate model card.
OpenAI Whisper large-v3 — un modello opzionale di speech-to-text usato per auto-trascrivere il tuo audio di riferimento quando prepari i prompt di clonazione vocale repo.

Come utilizzare il flusso di lavoro Comfyui Fish Audio S2 TTS#

Questo flusso di lavoro contiene tre percorsi principali che possono essere eseguiti indipendentemente: TTS, Voice Clone e Multi Speaker Clone. Un gruppo Whisper STT opzionale può generare la trascrizione per la clonazione vocale. Ogni percorso termina con un'anteprima audio in modo da poter monitorare rapidamente i risultati.

Gruppo TTS#

Il nodo FishS2TTS (#42) esegue il text-to-speech diretto con Fish Audio S2 TTS. Inserisci il tuo script nella casella di testo del nodo e aggiungi tag di stile come [excited], [pause] o [whisper] per modellare emozioni e ritmo. Il rilevamento della lingua è automatico, quindi puoi scrivere nella lingua di destinazione e il modello si adatta. Scegli la variante S2-Pro che si adatta alla memoria della tua GPU, ad esempio fp8 per carichi più leggeri. L'output viene instradato a PreviewAudio per un ascolto istantaneo.

Gruppo Voice Clone#

Usa LoadAudio per fornire un breve clip di riferimento pulito della voce di destinazione, quindi instradalo in FishS2VoiceCloneTTS (#14). Fornisci la trascrizione che corrisponde allo stile di parlato che desideri; un testo accurato aiuta il modello a preservare il ritmo e l'accento. Puoi guidare il testo di riferimento dal gruppo STT o digitare il tuo, e puoi aggiungere tag di stile per affinare emozioni e consegna. Le scelte di precisione e attenzione bilanciano velocità, memoria e stabilità per linee lunghe. Il clone sintetizzato viene inviato a PreviewAudio in modo da poter iterare rapidamente.

Gruppo Multi Speaker Clone#

Carica un clip di riferimento per locutore utilizzando i nodi LoadAudio, quindi collegali a FishS2MultiSpeakerTTS (#41). Fornisci uno script di dialogo che etichetti ogni turno con [speaker_1], [speaker_2] e così via. Questo modello include due locutori per impostazione predefinita, e il nodo supporta la scalabilità fino a otto voci distinte quando configurato di conseguenza. Puoi mescolare prosa narrativa, tag e dialogo per controllare flusso ed emozione per ciascun personaggio. Il mix finale è visualizzato in anteprima in modo che il tempo e la chiarezza possano essere verificati.

Whisper STT per la clonazione vocale (opzionale)#

Load Whisper (mtb) (#6) con large-v3 alimenta Audio To Text (mtb) (#7) per trascrivere automaticamente un clip di riferimento. Il testo riconosciuto viene visualizzato da ShowText|pysssss (#8). Un piccolo interruttore costruito con ComfySwitchNode (#34) e un controllo booleano ti consente di scegliere tra l'output STT (vero) o il tuo testo digitato da Text Box line spot (#31) (falso). Questo è utile quando si desidera una trascrizione di base rapida o quando si crea un prompt preciso per la clonazione.

Nodi chiave nel flusso di lavoro Comfyui Fish Audio S2 TTS#

`FishS2TTS` (#42)#

Genera parlato a singolo locutore dal testo con tag di stile opzionali e rilevamento automatico della lingua. Regola la variante del modello per adattarla al tuo hardware, ad esempio scegliendo fp8 quando la VRAM è limitata. Usa il controllo del seme per ripetere le riprese e introduce piccoli cambiamenti quando esplori consegne alternative. Per script lunghi, seleziona un backend di attenzione ottimizzato per la stabilità.

`FishS2VoiceCloneTTS` (#14)#

Crea una voce clonata condizionando su reference_audio e reference_text. I migliori risultati provengono da discorsi puliti con tono coerente e una trascrizione che rispecchia il ritmo previsto. I tag di stile possono essere mescolati nel testo finale per guidare l'umore senza compromettere l'identità. Le impostazioni di precisione e attenzione aiutano a bilanciare qualità e memoria per linee estese.

`FishS2MultiSpeakerTTS` (#41)#

Sintetizza conversazioni multi-locutore abbinando l'audio di riferimento di ciascun locutore a un dialogo contrassegnato da etichette [speaker_n]. Aumenta il numero di locutori secondo necessità e assegna clip distinti per una separazione più forte. Mantieni il riferimento di ciascun locutore coerente nel tono per evitare mescolamenti. Usa il seme per un mix deterministico quando si rendono scene multi-take.

Extra opzionali#

Usa i tag di stile con attenzione. Inizia con alcuni come [excited], [whisper], [emphasis], [pause], e costruisci solo se necessario per chiarezza.
Per la clonazione vocale, taglia il silenzio dall'inizio e dalla fine del riferimento ed evita rumori di fondo per preservare il timbro.
Se la memoria della GPU è limitata, preferisci S2-Pro fp8 o opzioni quantizzate a runtime. Per la massima fedeltà, usa una precisione più alta.
La punteggiatura è importante. Virgole e punti migliorano la fraseggiatura, e i tag posizionati ai confini delle clausole tendono a suonare più naturali.
Per script multi-locutore, mantieni un enunciato per riga e prefissa sempre con l'etichetta corretta [speaker_n] per mantenere la separazione.

Risorse:

Model card di Fish Audio S2-Pro: Hugging Face
Variante S2-Pro fp8: Hugging Face
Progetto Fish-Speech: GitHub
Nodi ComfyUI Fish Audio S2: GitHub
Whisper large-v3: GitHub

Ringraziamenti#

Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sinceramente Saganaki22 per i ComfyUI-FishAudioS2 Custom Nodes, e Fish Audio per il modello S2-Pro per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Saganaki22/ComfyUI-FishAudioS2 Custom Nodes
- GitHub: Saganaki22/ComfyUI-FishAudioS2
Fish Audio/S2-Pro Model
- Hugging Face: fishaudio/s2-pro

Nota: L'uso dei modelli, dataset e codice riferiti è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

Ace Step 1.5 | Generatore di Musica AI di Grado Commerciale

Trasforma il testo in canzoni complete con pianificazione intelligente e potenza di diffusione.

Stable Audio Open 1.0 | Strumento Text-to-Music

Trasforma i prompt testuali in musica cinematografica in modo fluido e veloce.

Generazione Musicale ACE-Step | Creazione Audio AI

Genera musica di qualità da studio 15× più velocemente con la tecnologia di diffusione rivoluzionaria.

OmniGen | Immagine-A-Immagine

OmniGen: Modifica Immagini Basate su Immagini di Riferimento e Prompt

LTX 2.3 ComfyUI | Generatore di Video AI di Alta Qualità

Trasforma rapidamente e magnificamente i prompt di testo in video AI cinematografici.

Vid2Vid Parte 2 | SDXL Style Transfer

Migliora la creatività Vid2Vid concentrandoti sulla composizione e la mascheratura del tuo video originale.

ReActor | Scambio di Facce Rapido

Con ComfyUI ReActor, puoi facilmente scambiare le facce di uno o più personaggi in immagini o video.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Fish Audio S2 TTS | Generatore di Voci Espressive