logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Workflows>Fish Audio S2 TTS | Expressiver Sprachgenerator

Fish Audio S2 TTS | Expressiver Sprachgenerator

Workflow Name: RunComfy/Fish-Audio-S2-TTS
Workflow ID: 0000...1374
Mit diesem Workflow können Sie Text in ausdrucksstarke, natürliche Sprachausgabe umwandeln, indem Sie leistungsstarke Sprachsynthese verwenden. Es unterstützt Mehrsprecher-Dialoge, Emotionen- und Stil-Tags sowie präzise Stimmklonung aus Beispielclips. Wählen Sie anpassbare Emotionstags wie Flüstern oder Lachen, um Skripte zum Leben zu erwecken. Die Einrichtung ermöglicht flexible Tonkontrolle und schnelle Inferenz für vielfältige Sprachprojekte. Perfekt für Kreative, die realistische, emotional reiche Erzählungen oder Dialoggeneration durch fortschrittliches TTS-Modellieren suchen.

Fish Audio S2 TTS für ComfyUI: Hochwertiges TTS, Stimmklonung und Mehrsprecher-Dialog

Fish Audio S2 TTS ist ein einsatzbereiter ComfyUI-Workflow, der Text in natürliche Sprache umwandelt, eine Stimme aus einem kurzen Referenzclip klont und Mehrsprecher-Konversationen generiert. Er wird von der Fish Audio S2-Pro-Familie angetrieben und unterstützt reichhaltige Stilsteuerung über Emotionen- und Prosodie-Tags wie [excited], [whisper] und [laughing].

Dieser Workflow ist ideal für Kreative, Produktteams und Entwickler, die flexible, ausdrucksstarke Sprachsynthese innerhalb von ComfyUI wünschen. Er umfasst optionales Speech-to-Text für schnelle Transkriptaufnahmen, automatische Spracherkennung und mehrere Präzisionsoptionen, einschließlich fp8 und sage_attention für effiziente Inferenz.

Hinweis: Führen Sie diesen Workflow auf einer 2X Large oder größeren Maschine aus. Kleinere Instanzen könnten den Speicher (OOM) überschreiten.

Wichtige Modelle im ComfyUI Fish Audio S2 TTS-Workflow

  • Fish Audio S2-Pro — das zentrale generative Text-zu-Sprache-Modell für Einzelsprecher-TTS, Stimmklonung und Mehrsprecher-Dialog. Es unterstützt umfangreiche Stil-Token und mehrsprachige Synthese model card und ist Teil des Fish-Speech-Projekts repo.
  • Fish Audio S2-Pro FP8 — eine speichereffiziente Variante von S2-Pro, die den VRAM-Bedarf mit minimalen Qualitätsverlusten reduziert, empfohlen für eingeschränkte GPUs model card.
  • OpenAI Whisper large-v3 — ein optionales Speech-to-Text-Modell, das zur automatischen Transkription Ihres Referenzaudios beim Erstellen von Stimmklonungsprompts verwendet wird repo.

So verwenden Sie den ComfyUI Fish Audio S2 TTS-Workflow

Dieser Workflow enthält drei Hauptpfade, die unabhängig voneinander ausgeführt werden können: TTS, Voice Clone und Multi Speaker Clone. Eine optionale Whisper STT-Gruppe kann das Transkript für die Stimmklonung generieren. Jeder Pfad endet mit einer Audiovorschau, damit Sie die Ergebnisse schnell überwachen können.

TTS-Gruppe

Der FishS2TTS (#42) Knoten führt direktes Text-zu-Sprache mit Fish Audio S2 TTS aus. Geben Sie Ihr Skript in das Textfeld des Knotens ein und streuen Sie Stil-Tags wie [excited], [pause] oder [whisper], um Emotion und Tempo zu formen. Die Spracherkennung erfolgt automatisch, sodass Sie in der Zielsprache schreiben können und das Modell sich anpasst. Wählen Sie die S2-Pro-Variante, die zu Ihrem GPU-Speicher passt, zum Beispiel fp8 für leichtere Lasten. Die Ausgabe wird an PreviewAudio weitergeleitet, um sofortiges Hören zu ermöglichen.

Voice Clone-Gruppe

Verwenden Sie LoadAudio, um einen kurzen, sauberen Referenzclip der Zielstimme bereitzustellen, und leiten Sie ihn dann in FishS2VoiceCloneTTS (#14) weiter. Geben Sie das Transkript ein, das dem gewünschten Sprechstil entspricht; genauer Text hilft dem Modell, Rhythmus und Akzent zu bewahren. Sie können den Referenztext aus der STT-Gruppe verwenden oder Ihren eigenen eingeben und Stil-Tags hinzufügen, um Emotion und Ausdruck zu verfeinern. Präzisions- und Aufmerksameits-Backend-Optionen balancieren Geschwindigkeit, Speicher und Stabilität für lange Zeilen. Der synthetisierte Klon wird an PreviewAudio gesendet, damit Sie schnell iterieren können.

Multi Speaker Clone-Gruppe

Laden Sie einen Referenzclip pro Sprecher mit den LoadAudio-Knoten, und verbinden Sie sie dann mit FishS2MultiSpeakerTTS (#41). Geben Sie ein Dialogskript an, das jede Wendung mit [speaker_1], [speaker_2] usw. kennzeichnet. Diese Vorlage enthält standardmäßig zwei Sprecher, und der Knoten unterstützt die Skalierung auf bis zu acht verschiedene Stimmen, wenn entsprechend konfiguriert. Sie können erzählerische Prosa, Tags und Dialoge mischen, um den Fluss und die Emotion für jeden Charakter zu steuern. Der endgültige Mix wird zur Überprüfung von Timing und Klarheit präsentiert.

Whisper STT für die Stimmklonung (optional)

Load Whisper (mtb) (#6) mit large-v3 versorgt Audio To Text (mtb) (#7), um einen Referenzclip automatisch zu transkribieren. Der erkannte Text wird von ShowText|pysssss (#8) angezeigt. Ein kleiner Umschalter, der mit ComfySwitchNode (#34) und einer booleschen Steuerung gebaut wurde, lässt Sie zwischen STT-Ausgabe (true) oder Ihrem eigenen eingegebenen Text aus Text Box line spot (#31) (false) wählen. Dies ist nützlich, wenn Sie ein schnelles Baseline-Transkript möchten oder wenn Sie einen präzisen Prompt für die Klonung erstellen.

Wichtige Knoten im ComfyUI Fish Audio S2 TTS-Workflow

FishS2TTS (#42)

Erzeugt Einzelsprecher-Sprache aus Text mit optionalen Stil-Tags und automatischer Spracherkennung. Passen Sie die Modellvariante an Ihre Hardware an, indem Sie zum Beispiel fp8 wählen, wenn der VRAM knapp ist. Verwenden Sie die Seed-Steuerung für wiederholbare Takes und führen Sie kleine Änderungen ein, wenn Sie alternative Lieferungen erkunden. Für lange Skripte wählen Sie ein Aufmerksamkeits-Backend, das auf Stabilität optimiert ist.

FishS2VoiceCloneTTS (#14)

Erstellt eine geklonte Stimme, indem auf reference_audio und reference_text konditioniert wird. Bessere Ergebnisse resultieren aus sauberer Sprache mit konsistentem Ton und einem Transkript, das den beabsichtigten Rhythmus widerspiegelt. Stil-Tags können in den endgültigen Text gemischt werden, um die Stimmung zu lenken, ohne die Identität zu beeinträchtigen. Präzisions- und Aufmerksameits-Einstellungen helfen, Qualität und Speicher für längere Zeilen auszugleichen.

FishS2MultiSpeakerTTS (#41)

Synthesisiert Mehrsprecher-Konversationen, indem jedes Sprecher-Referenzaudio mit einem Dialog, der durch [speaker_n]-Labels gekennzeichnet ist, gepaart wird. Erhöhen Sie bei Bedarf die Anzahl der Sprecher und weisen Sie unterschiedliche Clips für eine stärkere Trennung zu. Halten Sie die Referenz jedes Sprechers konsistent im Ton, um ein Vermischen zu vermeiden. Verwenden Sie den Seed für deterministisches Mischen beim Rendern von Multi-Take-Szenen.

Optionale Extras

  • Verwenden Sie Stil-Tags durchdacht. Beginnen Sie mit ein paar wie [excited], [whisper], [emphasis], [pause] und bauen Sie nur bei Bedarf für Klarheit auf.
  • Beim Klonen von Stimmen schneiden Sie Stille am Anfang und Ende des Referenztons ab und vermeiden Sie Hintergrundgeräusche, um den Klang zu bewahren.
  • Wenn der GPU-Speicher begrenzt ist, bevorzugen Sie S2-Pro fp8 oder zur Laufzeit quantisierte Optionen. Für maximale Wiedergabetreue verwenden Sie höhere Präzision.
  • Interpunktion ist wichtig. Kommas und Punkte verbessern die Phrasierung, und Tags, die an Satzgrenzen platziert werden, klingen natürlicher.
  • Für Mehrsprecher-Skripte halten Sie eine Äußerung pro Zeile und prefixen Sie immer mit dem richtigen [speaker_n]-Label, um die Trennung zu wahren.

Ressourcen:

  • Fish Audio S2-Pro Modellkarte: Hugging Face
  • S2-Pro fp8 Variante: Hugging Face
  • Fish-Speech Projekt: GitHub
  • ComfyUI Fish Audio S2 Knoten: GitHub
  • Whisper large-v3: GitHub

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Saganaki22 für ComfyUI-FishAudioS2 Custom Nodes und Fish Audio für das S2-Pro Modell für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen

  • Saganaki22/ComfyUI-FishAudioS2 Custom Nodes
    • GitHub: Saganaki22/ComfyUI-FishAudioS2
  • Fish Audio/S2-Pro Model
    • Hugging Face: fishaudio/s2-pro

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen ihrer Autoren und Betreiber.

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio: Fortgeschrittenes Video-zu-Audio-Modell für hochwertige Audiogenerierung.

Ace Step 1.5 | Kommerzieller KI-Musikgenerator

Verwandelt Text in vollständige Songs mit intelligenter Planung und Diffusionskraft.

Stable Audio Open 1.0 | Text-zu-Musik-Werkzeug

Verwandelt Textvorgaben nahtlos und schnell in filmische Musik.

ACE-Step Musikgenerierung | KI-Audioerstellung

Erzeugen Sie Studioqualität-Musik 15× schneller mit bahnbrechender Diffusionstechnologie.

SkyReels V1 | Human-Focused Videoerstellung

Erstellen Sie filmische menschliche Videos mit echten Gesichtsausdrücken und natürlichen Bewegungen aus Text oder Bildern.

Hunyuan3D-2 | Spitzentechnologie 3D-Assets Generator

Erzeugen Sie präzise texturierte 3D-Assets aus Bildern mit hochmoderner KI-Technologie.

Gesicht zu Viele | 3D, Emoji, Pixel, Ton, Spielzeug, Videospiel

nutzt LoRA-Modelle, ControlNet und InstantID für fortschrittliche Gesicht-zu-viele Transformationen

Stable Fast 3D | ComfyUI 3D Pack

Erstellen Sie atemberaubende 3D-Inhalte mit Stable Fast 3D und ComfyUI 3D Pack.

Folge uns
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • E-Mail
  • Systemstatus
  • Partner
Ressourcen
  • Kostenloses ComfyUI Online
  • ComfyUI Anleitungen
  • RunComfy API
  • ComfyUI Tutorials
  • ComfyUI Nodes
  • Erfahre mehr
Rechtliches
  • Nutzungsbedingungen
  • Datenschutzrichtlinie
  • Cookie-Richtlinie
RunComfy
Urheberrecht 2026 RunComfy. Alle Rechte vorbehalten.

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.