ChatterBox TTS ComfyUI:多模式 TTS、語音轉換、多語言和對話合成於一圖#
ChatterBox TTS ComfyUI 是一個緊湊且創作者友好的音頻工作流程,讓您可以從單一畫布中生成多種模式的語音:標準 TTS、快速草稿的 Turbo TTS、多語言敘述、參考引導的語音克隆、語音轉換和腳本化的雙人對話。它由 ComfyUI_Fill-ChatterBox 的 FL ChatterBox 節點套件提供動力,該套件整合了開源的 Resemble AI Chatterbox 項目。
使用此工作流程來原型化 AI 語音、將台詞本地化到其他語言、將一種表演轉換為另一種聲音,或阻止角色交流。佈局保持每條路徑分開,因此您可以並排試聽結果,快速決定哪種 ChatterBox TTS ComfyUI 模式適合您的任務。
Comfyui ChatterBox TTS ComfyUI 工作流程中的關鍵模型#
- Resemble AI Chatterbox TTS 模型。核心神經網絡 TTS,將腳本轉換為自然語音,並可選擇參考音頻來引導語音和風格。 Resemble AI Chatterbox
- Resemble AI Chatterbox Turbo TTS。低延遲 TTS 變體,針對需要快速採樣和迭代提示時進行優化。 Resemble AI Chatterbox
- Resemble AI Chatterbox Multilingual TTS。模型在多種語言中渲染文本,同時保留所選風格或參考語音。 Resemble AI Chatterbox
- Resemble AI Chatterbox Voice Conversion。將一個錄音的音色轉換為目標語音,同時保持時間和內容。 Resemble AI Chatterbox
如何使用 Comfyui ChatterBox TTS ComfyUI 工作流程#
此圖組織為從共享音頻輸入開始並流入 ChatterBox 節點的平行路徑,每個節點預覽其自身結果。載入或替換兩個輸入片段,然後觸發您想要的路徑。
輸入:參考和源音頻#
兩個 LoadAudio 節點提供可重用的輸入。 LoadAudio (#12) 作為風格或源參考提供多條路徑。 LoadAudio (#20) 作為替代參考或目標語音。您可以將這些指向短而乾淨的片段,代表您想模仿的說話風格或身份。兩者都接受常見的音頻文件,也可以從視頻中提取音頻。
帶有可選風格參考的標準 TTS#
FL_ChatterboxTTS (#16) 從您的腳本生成語音,並可以選擇從 LoadAudio (#12) 接收 audio_prompt 以捕捉語音和傳遞。輸入您的文本,如果想要語音相似性,連接合適的參考,並排隊節點。使用附加的 PreviewAudio 進行試聽。當您需要可重現的採樣時,固定種子,或隨機化以探索變化。
快速迭代的 Turbo TTS#
FL_ChatterboxTurboTTS (#15) 專注於快速合成,用於快速草稿和交互式編輯。如果您想調整語調或身份,則接受來自 LoadAudio (#20) 的 audio_prompt。在快速移動時保持腳本簡潔,並嘗試使用示例中的 "[laugh]" 這樣的標記來測試非語言提示。預覽輸出,然後切換到標準或多語言 TTS,如果您想要更豐富的傳遞。
多語言敘述#
FL_ChatterboxMultilingualTTS (#25) 在選定語言中呈現您的腳本,並可以從 audio_prompt 借用風格於 LoadAudio (#12)。選擇語言標籤(例如,圖中顯示的 English (en))並在該語言中提供文本。短參考片段有助於在不同語言中保持一致的口音或個性。在 PreviewAudio 中收聽並在措辭上進行迭代以提高清晰度。
語音轉換#
FL_ChatterboxVC (#19) 將 LoadAudio (#12) 中的 input_audio 行的音色轉換為 LoadAudio (#20) 的 target_voice。當您已經有一個時間完美的讀數,只想讓它由另一個聲音說出時,這是理想的。修剪靜音並保持目標語音乾淨以減少失真。使用預覽確認內容在身份變更時得到保留。
雙人對話合成#
FL_ChatterboxDialogTTS (#23) 將多行腳本轉換為單個 dialog_audio 軌道。提供可選的 speaker_A_Audio 和 speaker_B_Audio 來自兩個 LoadAudio 節點,來固定每個角色的語音。在腳本框中,使用 "SPEAKER A:" 和 "SPEAKER B:" 等前綴行來分配角色,如圖中所示。您可以通過添加參考片段到他們的輸入來擴展到角色 C 和 D。
預覽和比較#
每條路徑展開到自己的 PreviewAudio,因此您可以立即收聽並比較模式。一次運行一條路徑或排隊多條路徑,以在同一 ChatterBox TTS ComfyUI 會話中試聽標準、Turbo、多語言、轉換和對話輸出之間的差異。
Comfyui ChatterBox TTS ComfyUI 工作流程中的關鍵節點#
FL_ChatterboxTTS (#16)#
通用 TTS 接受腳本和可選的 audio_prompt 參考來模仿風格。當質量和可控性最重要時使用它。保持相同的參考片段以保持一致的身份,並在需要精確重現時鎖定種子。
FL_ChatterboxTurboTTS (#15)#
快速 TTS 用於編寫行、迭代提示或預覽標記想法。它也接受 audio_prompt 來引導語音。如果您注意到與標準路徑相比,韻律較弱,則使用相同的腳本和參考來使用 FL_ChatterboxTTS 完成。
FL_ChatterboxMultilingualTTS (#25)#
語言感知 TTS,能在切換語言時保持所選個性。選擇語言標籤並在該語言中提供文本。匹配的 audio_prompt 保持口音和能量與您的參考聲音一致。
FL_ChatterboxVC (#19)#
語音轉換將 input_audio 表演映射到 target_voice。使用乾淨、具代表性的目標片段和節奏良好的源讀數。為了獲得最佳效果,修剪長時間的靜音,並避免在任一片段中出現重度背景噪音。
FL_ChatterboxDialogTTS (#23)#
多語者 TTS,將標記的行解析為單一對話。為您計劃使用的每個角色輸入分配參考,然後結構化腳本,使用清晰的 "SPEAKER X:" 標籤。保持交替合理短,以便自然的節奏和後續的時間編輯。
可選附加#
- 保持參考片段短小、乾淨且富有表情;房間音和噪音會減少語音保真度。
- 當您需要在修訂中匹配時間和傳遞時,使用固定的種子;隨機化以探索替代方案。
- 如果某條路徑聽起來過於響亮或失真,則在合成之前對您的參考進行規範化並降低輸入增益。
- Turbo 非常適合提示探索;對有前途的行使用標準或多語言 TTS 重新運行以進行最終潤色。
- 如果您將一個話語放在每行並一致標記說話者,則對話腳本更易於維護。
- 如果您想直接從畫布導出文件,則在任何預覽後添加一個
SaveAudio節點。
ChatterBox TTS ComfyUI 為您提供了一個靈活的單圖遊樂場,可以在不切換上下文的情況下嘗試語音、語言和對話,所有這些都由 ComfyUI_Fill-ChatterBox 和 Resemble AI Chatterbox 支持。
致謝#
此工作流程實施並建立在以下作品和資源之上。我們感謝 filliptm 對 ComfyUI_Fill-ChatterBox 的貢獻,以及 Resemble AI 對 Chatterbox 的貢獻和維護。有關權威詳情,請參閱下方鏈接的原始文檔和資源庫。
資源#
- filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
- resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox
注意:使用參考的模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。


