IndexTTS2 ComfyUI 工作流程 | 情感語音克隆與語音合成

IndexTTS2 ComfyUI workflow Workflow

IndexTTS2 ComfyUI workflow | Emotional Voice Cloning & Speech Synthesis

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

IndexTTS2 ComfyUI workflow Examples

IndexTTS2 ComfyUI 工作流程：使用參考音頻進行情感語音克隆#

這個 IndexTTS2 ComfyUI 工作流程將短音頻片段轉化為自然、富有表情的語音，匹配說話者的音色和風格。您提供乾淨的參考音頻、可選的情感提示和您的腳本；圖表生成高品質的語音克隆，並以 FLAC 格式導出以供存檔使用或以 MP3 格式快速分享。

這個工作流程圍繞 IndexTTS‑2 模型和 ComfyUI IndexTTS 節點構建，非常適合希望快速、可重複情感 TTS 的創作者、角色設計師、教育工作者和 RunComfy 用戶。所有操作都在 ComfyUI 內部進行，因此您可以檢查輸入、調整設置，並快速迭代旁白、對話和配音示例。

Comfyui IndexTTS2 ComfyUI 工作流程中的關鍵模型#

IndexTTS‑2 由 IndexTeam 開發。一個現代的文本轉語音系統，能夠進行參考條件語音克隆和表達性韻律控制。它基於短的說話者示例和可選的情感提示來從文本生成自然語音。請參閱 Hugging Face 上的模型卡和附帶的論文以獲取架構和訓練細節：IndexTTS‑2，IndexTTS 項目，IndexTTS‑2 論文。

如何使用 Comfyui IndexTTS2 ComfyUI 工作流程#

在高層次上，圖表需要三個輸入——參考音色音頻、文本和可選的情感音頻——然後進行生成並導出結果。以下組展示了添加輸入的位置以及它們如何連接到最終語音。

上傳語音參考音頻#

此組準備說話者的身份。將目標語音的乾淨樣本加載到 LoadAudio (#13)，理想情況下是一個清晰說話且沒有音樂或效果的單一說話者。使用 AudioCrop (#37) 隔離一個穩定的片段，以便系統學習一致的音色。具有穩定音高和中性表達的短片段通常會產生最可靠的克隆。裁剪的參考被轉發以調節生成器。

上傳文本#

在 PrimitiveStringMultiline (#14) 中輸入您的腳本。清晰的標點符號有助於模型推斷停頓和重音，因此請按照您希望被說出的方式撰寫文本。如果您計劃進行多句閱讀，請保持每個句子結構完整，避免使用表情符號或不常見的符號。文本直接流入合成節點進行渲染。

上傳情感參考音頻#

提供一個可選的片段，捕捉您想要的情感或表達方式——例如激動、冷靜或憂鬱——通過 LoadAudio (#15)。使用 AudioCrop (#38) 修剪以保留您想要模仿的表達部分。這與音色參考分開，專注於節奏、能量和音調。如果跳過此步驟，IndexTTS2 ComfyUI 工作流程將僅依賴文本進行韻律。

情感控制：使用情感參考音頻#

此區域將您的情感提示連接到生成器。裁剪的情感片段將情感音頻提示饋送到 IndexTTS2Run (#12) 的輸入，指導節奏和強度，同時保持目標語音。如果您沒有情感音頻示例，還可以使用節點的情感文本控件來微調風格。實踐中，情感音頻往往提供更強、更一致的表達性，而情感文本則提供較輕的引導。當您想要具體示例和文本提示時將它們結合使用。

生成和導出#

IndexTTS2Run (#12) 使用您的文本、音色參考和任何情感指導合成語音。輸出路由到 SaveAudio (#17) 以獲取無損 FLAC，並路由到 SaveAudioMP3 (#39) 以獲取小型、適合網絡的預覽。使用保存節點上的文件名字段在迭代過程中保持錄音井然有序。此設計使得在保持相同說話者身份的同時輕鬆 A/B 測試不同的文本或情感。

Comfyui IndexTTS2 ComfyUI 工作流程中的關鍵節點#

`IndexTTS2Run` (#12)#

這是包裝 IndexTTS‑2 的核心生成器，並公開了採樣、束搜索和情感調節的控制。調整 top_p、top_k 和 temperature 以平衡穩定性和多樣性——較低的值提供更一致的閱讀，較高的值增加自發性。使用 num_beams 當您希望節點搜索更多候選讀數時，交換速度以獲取質量。對於長腳本，max_mel_tokens 和 max_text_tokens_per_sentence 通過限制音頻和文本塊大小來幫助防止超出。情感可以通過 emo_audio_prompt、emo_alpha 來引導混合強度，或者使用 use_emo_text 和 emo_text 當您更喜歡文本提示時。根據您的硬件，提供了 deepspeed、custom_cuda_kernel 和 unload_model 等性能幫助器。節點實現由 ComfyUI IndexTTS 自訂節點提供：ComfyUI_IndexTTS，基礎模型在此記錄：IndexTTS‑2，IndexTTS 項目。

`AudioCrop` (#37) — 參考音色#

使用此節點從您的說話者樣本中隔離乾淨、穩定的摘錄。避免背景噪音、笑聲或極端情感，因為這些細節可能滲入克隆的語音中。裁剪到一致的音調可改善身份鎖定並減少不需要的工件。

`AudioCrop` (#38) — 情感提示#

此裁剪選擇控制交付的表達提示。選擇具有您想要的準確節奏或強度的部分，保持簡潔以避免稀釋信號。為了獲得最佳的一致性，盡可能使用與音色參考相同的說話者的情感提示。

可選附加功能#

保持參考音頻乾燥和單聲道；去除混響、背景音樂和重壓縮以獲得更乾淨的克隆。
有意標點。逗號、句號和問號幫助模型放置停頓和重音以匹配您的意圖。
為了可重複的錄音，在節點中禁用隨機性或保留關於文本和音頻選擇的筆記，以便您可以稍後重新生成相同的輸出。
如果 VRAM 緊張，啟用運行之間的模型卸載；它可能會增加少量時間成本但釋放其他圖表的內存。
尊重語音權利。僅使用您有權克隆的參考錄音，並在需要時披露合成語音。

致謝#

此工作流程實施並建立在以下工作和資源之上。我們對 RunningHub 提供的工作流程參考，RunComfy 提供的 Cloud Save 工作流程，Index Team 提供的 IndexTTS 和 IndexTTS-2，IndexTTS2 論文的作者，以及 billwuhao 提供的 ComfyUI IndexTTS 自訂節點的貢獻和維護表示感謝。欲了解權威詳情，請參考以下鏈接的原始文檔和存儲庫。

資源#

RunningHub/Workflow Reference
- 文件/發佈說明：RunningHub post
RunComfy/Cloud Save Workflow
- 文件/發佈說明：RunComfy workflow
index-tts/index-tts
- GitHub: index-tts/index-tts
IndexTeam/IndexTTS-2
- Hugging Face: IndexTeam/IndexTTS-2
IndexTTS2/Paper
- arXiv: 2506.21619
billwuhao/ComfyUI_IndexTTS
- GitHub: billwuhao/ComfyUI_IndexTTS

注意：所引用的模型、數據集和代碼的使用受制於其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

Fish Audio S2 TTS | 富有表情的語音生成器

快速製作栩栩如生的情感、風格和複製聲音的語音。

ChatterBox TTS ComfyUI | AI 語音生成器

快速輕鬆地在任何語言或風格中建立逼真的語音。

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

Woosh 音效生成 | Text2Audio + VideoSync

將提示和視頻轉換為尖銳的同步音效。

Z-Image 精調模型集 | 多風格生成器

輕鬆創建令人驚嘆的多風格和情感的精細圖像。

DreamID-Omni | 照片轉對話影片製作器

將照片瞬間轉化為超真實的對話影片。

SAM 3.1 ComfyUI | Native Segmentation & Tracking

對於圖像分割和物體跟蹤具有驚人的準確性。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

IndexTTS2 ComfyUI 工作流程 | 表達性語音生成器