Fish Audio S2 TTS 在 ComfyUI 中 | 情感、多講者、複製

ComfyUI Fish Audio S2 TTS Workflow

Fish Audio S2 TTS in ComfyUI | Emotion, Multi-Speaker, Cloning

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Fish Audio S2 TTS Examples

Fish Audio S2 TTS for ComfyUI：高質量 TTS、語音複製和多講者對話#

Fish Audio S2 TTS 是一個即用型 ComfyUI 工作流程，可以將文本轉換為自然語音，從短參考片段中複製聲音，並生成多講者對話。它由 Fish Audio S2‑Pro 系列驅動，並通過情感和韻律標籤（如 [excited]、[whisper] 和 [laughing]）支持豐富的風格控制。

此工作流程非常適合希望在 ComfyUI 中進行靈活、富有表情的語音合成的創作者、產品團隊和開發者。它包括可選的語音轉文本功能，用於快速轉錄捕獲、自動語言檢測和多種精度選擇，包括 fp8 和 sage_attention，用於高效推理。

注意： 在 2X Large 或更大的機器上運行此工作流程。較小的實例可能會出現內存不足（OOM）。

Comfyui Fish Audio S2 TTS 工作流程中的關鍵模型#

Fish Audio S2‑Pro — 用於單講者 TTS、語音複製和多講者對話的核心生成文本轉語音模型。支持廣泛的風格標籤和多語言合成 model card，並且是 Fish‑Speech 項目的一部分 repo。
Fish Audio S2‑Pro FP8 — S2‑Pro 的一個內存高效變體，能夠在最小質量損失的情況下減少 VRAM 需求，推薦用於受限的 GPU model card。
OpenAI Whisper large‑v3 — 可選的語音轉文本模型，用於在準備語音複製提示時自動轉錄您的參考音頻 repo。

如何使用 Comfyui Fish Audio S2 TTS 工作流程#

此工作流程包含三個可以獨立運行的主要路徑：TTS、Voice Clone 和 Multi Speaker Clone。一個可選的 Whisper STT 組可以生成語音複製的轉錄。每個路徑最後都有音頻預覽，因此您可以快速監控結果。

TTS 組#

FishS2TTS (#42) 節點執行直接的文本轉語音，使用 Fish Audio S2 TTS。在節點的文本框中輸入您的腳本，並添加風格標籤，如 [excited]、[pause] 或 [whisper]，以塑造情感和節奏。語言檢測是自動的，因此您可以用目標語言書寫，模型會自適應。選擇適合您 GPU 記憶體的 S2‑Pro 變體，例如 fp8 用於較輕的負載。輸出路由到 PreviewAudio 以便立即收聽。

Voice Clone 組#

使用 LoadAudio 提供目標聲音的短而乾淨的參考剪輯，然後將其路由到 FishS2VoiceCloneTTS (#14)。提供匹配您想要的說話風格的轉錄；準確的文本有助於模型保留節奏和口音。您可以從 STT 組驅動參考文本或自行輸入，並可以添加風格標籤以完善情感和表達。精度和注意力後端選擇在長線條中平衡速度、記憶體和穩定性。合成的克隆被發送到 PreviewAudio，以便您快速迭代。

Multi Speaker Clone 組#

使用 LoadAudio 節點為每個講者加載一個參考剪輯，然後將它們連接到 FishS2MultiSpeakerTTS (#41)。提供一個對話腳本，標記每個回合的 [speaker_1]、[speaker_2] 等。此模板默認包含兩個講者，並且節點支持擴展到多達八個不同的聲音。您可以混合敘述性散文、標籤和對話，以控制每個角色的流動和情感。最終的混音將被預覽，以便驗證時間和清晰度。

Whisper STT 用於語音複製（可選）#

Load Whisper (mtb) (#6) 與 large‑v3 為 Audio To Text (mtb) (#7) 提供動力，以自動轉錄參考剪輯。識別的文本由 ShowText|pysssss (#8) 顯示。一個小的切換開關由 ComfySwitchNode (#34) 和一個布爾控制構建，讓您在 STT 輸出（true）和您自己輸入的文本 Text Box line spot (#31)（false）之間選擇。這在您需要快速的基線轉錄或創建精確的複製提示時非常有用。

Comfyui Fish Audio S2 TTS 工作流程中的關鍵節點#

`FishS2TTS` (#42)#

通過可選的風格標籤和自動語言檢測從文本生成單講者語音。調整模型變體以匹配您的硬件，例如在 VRAM 緊張時選擇 fp8。使用種子控制以進行可重複的採集，並在探索替代交付時引入小變化。對於長腳本，選擇一個針對穩定性優化的注意力後端。

`FishS2VoiceCloneTTS` (#14)#

通過 reference_audio 和 reference_text 進行條件設定來創建複製的聲音。來自乾淨語音的結果更好，具有一致的語調和反映預期節奏的轉錄。風格標籤可以混合到最終文本中，以引導情緒，而不會損害身份。精度和注意力設置有助於在長線條中平衡質量和記憶體。

`FishS2MultiSpeakerTTS` (#41)#

通過將每個講者的參考音頻與帶有 [speaker_n] 標籤的對話配對來合成多講者對話。根據需要增加講者數量，並分配不同的剪輯以加強分離。保持每個講者的參考語調一致，以避免混合。在渲染多次拍攝場景時，使用種子進行確定性混音。

可選擇的額外功能#

謹慎使用風格標籤。從少量開始，如 [excited]、[whisper]、[emphasis]、[pause]，僅在需要時增加以達到清晰度。
對於語音複製，從參考的開始和結尾修剪靜音，並避免背景噪音以保持音色。
如果 GPU 記憶體有限，首選 S2‑Pro fp8 或運行時量化選項。為獲得最大保真度，使用更高的精度。
標點符號很重要。逗號和句號改善措辭，並且在子句邊界放置的標籤通常聽起來更自然。
對於多講者腳本，保持每行一個話語，並始終以正確的 [speaker_n] 標籤前綴以保持分離。

資源：

Fish Audio S2‑Pro 模型卡：Hugging Face
S2‑Pro fp8 變體：Hugging Face
Fish‑Speech 項目：GitHub
ComfyUI Fish Audio S2 節點：GitHub
Whisper large‑v3：GitHub

致謝#

此工作流程實施並基於以下作品和資源。我們感謝 Saganaki22 對 ComfyUI-FishAudioS2 自定義節點的貢獻，以及 Fish Audio 對 S2-Pro 模型的貢獻和維護。有關權威詳細信息，請參考下面鏈接的原始文檔和存儲庫。

資源#

Saganaki22/ComfyUI-FishAudioS2 自定義節點
- GitHub: Saganaki22/ComfyUI-FishAudioS2
Fish Audio/S2-Pro 模型
- Hugging Face: fishaudio/s2-pro

注意：使用所引用的模型、數據集和代碼受其作者和維護者提供的相應許可和條款約束。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

MultiTalk | Photo to Talking Video

毫秒級唇同步 + Wan2.1 = 15秒超詳細對話視頻！

Ace Step 1.5 | 商業級 AI 音樂生成器

使用智能規劃和擴散能力將文本轉換為完整歌曲。

Stable Audio Open 1.0 | 文本到音樂工具

將文本提示無縫快速地轉換為電影配樂。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

LTX 2.3 Outpainting | 無縫視頻畫面擴展

平滑擴展視頻場景，保持運動和透視的一致性。

LTX 2.3 Cozy Felt | 柔軟的文字轉影片創作工具

輕鬆將您的想法轉化為手工製作的毛氈風格影片。

MV-Adapter | 高解析度多視角生成器

從單一圖像或描述生成360度視角的任何事物。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Fish Audio S2 TTS | 富有表情的語音生成器