ComfyUI>工作流程>IndexTTS2 ComfyUI 工作流程 | 表達性語音生成器

IndexTTS2 ComfyUI 工作流程 | 表達性語音生成器

Workflow Name: RunComfy/IndexTTS2-ComfyUI
Workflow ID: 0000...1447
通過基於 IndexTTS2 的文本轉語音圖表,您可以將簡短的音頻參考轉化為情感豐富的語音輸出,反映出真實的人類音調和細微差別。這個工具幫助您創建自然表達和精確情感控制的旁白、教程和對話。您可以調整音色條件,添加情感提示,並立即預覽結果。非常適合設計師和創作者尋求角色或故事項目的現實語音克隆。快速設置和導出選項簡化了工作流程的效率。

IndexTTS2 ComfyUI workflow Workflow

IndexTTS2 ComfyUI workflow | Emotional Voice Cloning & Speech Synthesis
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

IndexTTS2 ComfyUI workflow Examples

IndexTTS2 ComfyUI 工作流程:使用參考音頻進行情感語音克隆#

這個 IndexTTS2 ComfyUI 工作流程將短音頻片段轉化為自然、富有表情的語音,匹配說話者的音色和風格。您提供乾淨的參考音頻、可選的情感提示和您的腳本;圖表生成高品質的語音克隆,並以 FLAC 格式導出以供存檔使用或以 MP3 格式快速分享。

這個工作流程圍繞 IndexTTS‑2 模型和 ComfyUI IndexTTS 節點構建,非常適合希望快速、可重複情感 TTS 的創作者、角色設計師、教育工作者和 RunComfy 用戶。所有操作都在 ComfyUI 內部進行,因此您可以檢查輸入、調整設置,並快速迭代旁白、對話和配音示例。

Comfyui IndexTTS2 ComfyUI 工作流程中的關鍵模型#

  • IndexTTS‑2 由 IndexTeam 開發。一個現代的文本轉語音系統,能夠進行參考條件語音克隆和表達性韻律控制。它基於短的說話者示例和可選的情感提示來從文本生成自然語音。請參閱 Hugging Face 上的模型卡和附帶的論文以獲取架構和訓練細節:IndexTTS‑2IndexTTS 項目IndexTTS‑2 論文

如何使用 Comfyui IndexTTS2 ComfyUI 工作流程#

在高層次上,圖表需要三個輸入——參考音色音頻、文本和可選的情感音頻——然後進行生成並導出結果。以下組展示了添加輸入的位置以及它們如何連接到最終語音。

上傳語音參考音頻#

此組準備說話者的身份。將目標語音的乾淨樣本加載到 LoadAudio (#13),理想情況下是一個清晰說話且沒有音樂或效果的單一說話者。使用 AudioCrop (#37) 隔離一個穩定的片段,以便系統學習一致的音色。具有穩定音高和中性表達的短片段通常會產生最可靠的克隆。裁剪的參考被轉發以調節生成器。

上傳文本#

PrimitiveStringMultiline (#14) 中輸入您的腳本。清晰的標點符號有助於模型推斷停頓和重音,因此請按照您希望被說出的方式撰寫文本。如果您計劃進行多句閱讀,請保持每個句子結構完整,避免使用表情符號或不常見的符號。文本直接流入合成節點進行渲染。

上傳情感參考音頻#

提供一個可選的片段,捕捉您想要的情感或表達方式——例如激動、冷靜或憂鬱——通過 LoadAudio (#15)。使用 AudioCrop (#38) 修剪以保留您想要模仿的表達部分。這與音色參考分開,專注於節奏、能量和音調。如果跳過此步驟,IndexTTS2 ComfyUI 工作流程將僅依賴文本進行韻律。

情感控制:使用情感參考音頻#

此區域將您的情感提示連接到生成器。裁剪的情感片段將情感音頻提示饋送到 IndexTTS2Run (#12) 的輸入,指導節奏和強度,同時保持目標語音。如果您沒有情感音頻示例,還可以使用節點的情感文本控件來微調風格。實踐中,情感音頻往往提供更強、更一致的表達性,而情感文本則提供較輕的引導。當您想要具體示例和文本提示時將它們結合使用。

生成和導出#

IndexTTS2Run (#12) 使用您的文本、音色參考和任何情感指導合成語音。輸出路由到 SaveAudio (#17) 以獲取無損 FLAC,並路由到 SaveAudioMP3 (#39) 以獲取小型、適合網絡的預覽。使用保存節點上的文件名字段在迭代過程中保持錄音井然有序。此設計使得在保持相同說話者身份的同時輕鬆 A/B 測試不同的文本或情感。

Comfyui IndexTTS2 ComfyUI 工作流程中的關鍵節點#

IndexTTS2Run (#12)#

這是包裝 IndexTTS‑2 的核心生成器,並公開了採樣、束搜索和情感調節的控制。調整 top_ptop_ktemperature 以平衡穩定性和多樣性——較低的值提供更一致的閱讀,較高的值增加自發性。使用 num_beams 當您希望節點搜索更多候選讀數時,交換速度以獲取質量。對於長腳本,max_mel_tokensmax_text_tokens_per_sentence 通過限制音頻和文本塊大小來幫助防止超出。情感可以通過 emo_audio_promptemo_alpha 來引導混合強度,或者使用 use_emo_textemo_text 當您更喜歡文本提示時。根據您的硬件,提供了 deepspeedcustom_cuda_kernelunload_model 等性能幫助器。節點實現由 ComfyUI IndexTTS 自訂節點提供:ComfyUI_IndexTTS,基礎模型在此記錄:IndexTTS‑2IndexTTS 項目

AudioCrop (#37) — 參考音色#

使用此節點從您的說話者樣本中隔離乾淨、穩定的摘錄。避免背景噪音、笑聲或極端情感,因為這些細節可能滲入克隆的語音中。裁剪到一致的音調可改善身份鎖定並減少不需要的工件。

AudioCrop (#38) — 情感提示#

此裁剪選擇控制交付的表達提示。選擇具有您想要的準確節奏或強度的部分,保持簡潔以避免稀釋信號。為了獲得最佳的一致性,盡可能使用與音色參考相同的說話者的情感提示。

可選附加功能#

  • 保持參考音頻乾燥和單聲道;去除混響、背景音樂和重壓縮以獲得更乾淨的克隆。
  • 有意標點。逗號、句號和問號幫助模型放置停頓和重音以匹配您的意圖。
  • 為了可重複的錄音,在節點中禁用隨機性或保留關於文本和音頻選擇的筆記,以便您可以稍後重新生成相同的輸出。
  • 如果 VRAM 緊張,啟用運行之間的模型卸載;它可能會增加少量時間成本但釋放其他圖表的內存。
  • 尊重語音權利。僅使用您有權克隆的參考錄音,並在需要時披露合成語音。

致謝#

此工作流程實施並建立在以下工作和資源之上。我們對 RunningHub 提供的工作流程參考,RunComfy 提供的 Cloud Save 工作流程,Index Team 提供的 IndexTTS 和 IndexTTS-2,IndexTTS2 論文的作者,以及 billwuhao 提供的 ComfyUI IndexTTS 自訂節點的貢獻和維護表示感謝。欲了解權威詳情,請參考以下鏈接的原始文檔和存儲庫。

資源#

注意:所引用的模型、數據集和代碼的使用受制於其作者和維護者提供的各自許可和條款。

RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。