ChatterBox TTS ComfyUI 工作流程 | 多語言語音與對話

ChatterBox TTS ComfyUI Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ChatterBox TTS ComfyUI Examples

ChatterBox TTS ComfyUI：多模式 TTS、語音轉換、多語言和對話合成於一圖#

ChatterBox TTS ComfyUI 是一個緊湊且創作者友好的音頻工作流程，讓您可以從單一畫布中生成多種模式的語音：標準 TTS、快速草稿的 Turbo TTS、多語言敘述、參考引導的語音克隆、語音轉換和腳本化的雙人對話。它由 ComfyUI_Fill-ChatterBox 的 FL ChatterBox 節點套件提供動力，該套件整合了開源的 Resemble AI Chatterbox 項目。

使用此工作流程來原型化 AI 語音、將台詞本地化到其他語言、將一種表演轉換為另一種聲音，或阻止角色交流。佈局保持每條路徑分開，因此您可以並排試聽結果，快速決定哪種 ChatterBox TTS ComfyUI 模式適合您的任務。

Comfyui ChatterBox TTS ComfyUI 工作流程中的關鍵模型#

Resemble AI Chatterbox TTS 模型。核心神經網絡 TTS，將腳本轉換為自然語音，並可選擇參考音頻來引導語音和風格。 Resemble AI Chatterbox
Resemble AI Chatterbox Turbo TTS。低延遲 TTS 變體，針對需要快速採樣和迭代提示時進行優化。 Resemble AI Chatterbox
Resemble AI Chatterbox Multilingual TTS。模型在多種語言中渲染文本，同時保留所選風格或參考語音。 Resemble AI Chatterbox
Resemble AI Chatterbox Voice Conversion。將一個錄音的音色轉換為目標語音，同時保持時間和內容。 Resemble AI Chatterbox

如何使用 Comfyui ChatterBox TTS ComfyUI 工作流程#

此圖組織為從共享音頻輸入開始並流入 ChatterBox 節點的平行路徑，每個節點預覽其自身結果。載入或替換兩個輸入片段，然後觸發您想要的路徑。

輸入：參考和源音頻#

兩個 LoadAudio 節點提供可重用的輸入。 LoadAudio (#12) 作為風格或源參考提供多條路徑。 LoadAudio (#20) 作為替代參考或目標語音。您可以將這些指向短而乾淨的片段，代表您想模仿的說話風格或身份。兩者都接受常見的音頻文件，也可以從視頻中提取音頻。

帶有可選風格參考的標準 TTS#

FL_ChatterboxTTS (#16) 從您的腳本生成語音，並可以選擇從 LoadAudio (#12) 接收 audio_prompt 以捕捉語音和傳遞。輸入您的文本，如果想要語音相似性，連接合適的參考，並排隊節點。使用附加的 PreviewAudio 進行試聽。當您需要可重現的採樣時，固定種子，或隨機化以探索變化。

快速迭代的 Turbo TTS#

FL_ChatterboxTurboTTS (#15) 專注於快速合成，用於快速草稿和交互式編輯。如果您想調整語調或身份，則接受來自 LoadAudio (#20) 的 audio_prompt。在快速移動時保持腳本簡潔，並嘗試使用示例中的 "[laugh]" 這樣的標記來測試非語言提示。預覽輸出，然後切換到標準或多語言 TTS，如果您想要更豐富的傳遞。

多語言敘述#

FL_ChatterboxMultilingualTTS (#25) 在選定語言中呈現您的腳本，並可以從 audio_prompt 借用風格於 LoadAudio (#12)。選擇語言標籤（例如，圖中顯示的 English (en)）並在該語言中提供文本。短參考片段有助於在不同語言中保持一致的口音或個性。在 PreviewAudio 中收聽並在措辭上進行迭代以提高清晰度。

語音轉換#

FL_ChatterboxVC (#19) 將 LoadAudio (#12) 中的 input_audio 行的音色轉換為 LoadAudio (#20) 的 target_voice。當您已經有一個時間完美的讀數，只想讓它由另一個聲音說出時，這是理想的。修剪靜音並保持目標語音乾淨以減少失真。使用預覽確認內容在身份變更時得到保留。

雙人對話合成#

FL_ChatterboxDialogTTS (#23) 將多行腳本轉換為單個 dialog_audio 軌道。提供可選的 speaker_A_Audio 和 speaker_B_Audio 來自兩個 LoadAudio 節點，來固定每個角色的語音。在腳本框中，使用 "SPEAKER A:" 和 "SPEAKER B:" 等前綴行來分配角色，如圖中所示。您可以通過添加參考片段到他們的輸入來擴展到角色 C 和 D。

預覽和比較#

每條路徑展開到自己的 PreviewAudio，因此您可以立即收聽並比較模式。一次運行一條路徑或排隊多條路徑，以在同一 ChatterBox TTS ComfyUI 會話中試聽標準、Turbo、多語言、轉換和對話輸出之間的差異。

Comfyui ChatterBox TTS ComfyUI 工作流程中的關鍵節點#

`FL_ChatterboxTTS` (#16)#

通用 TTS 接受腳本和可選的 audio_prompt 參考來模仿風格。當質量和可控性最重要時使用它。保持相同的參考片段以保持一致的身份，並在需要精確重現時鎖定種子。

`FL_ChatterboxTurboTTS` (#15)#

快速 TTS 用於編寫行、迭代提示或預覽標記想法。它也接受 audio_prompt 來引導語音。如果您注意到與標準路徑相比，韻律較弱，則使用相同的腳本和參考來使用 FL_ChatterboxTTS 完成。

`FL_ChatterboxMultilingualTTS` (#25)#

語言感知 TTS，能在切換語言時保持所選個性。選擇語言標籤並在該語言中提供文本。匹配的 audio_prompt 保持口音和能量與您的參考聲音一致。

`FL_ChatterboxVC` (#19)#

語音轉換將 input_audio 表演映射到 target_voice。使用乾淨、具代表性的目標片段和節奏良好的源讀數。為了獲得最佳效果，修剪長時間的靜音，並避免在任一片段中出現重度背景噪音。

`FL_ChatterboxDialogTTS` (#23)#

多語者 TTS，將標記的行解析為單一對話。為您計劃使用的每個角色輸入分配參考，然後結構化腳本，使用清晰的 "SPEAKER X:" 標籤。保持交替合理短，以便自然的節奏和後續的時間編輯。

可選附加#

保持參考片段短小、乾淨且富有表情；房間音和噪音會減少語音保真度。
當您需要在修訂中匹配時間和傳遞時，使用固定的種子；隨機化以探索替代方案。
如果某條路徑聽起來過於響亮或失真，則在合成之前對您的參考進行規範化並降低輸入增益。
Turbo 非常適合提示探索；對有前途的行使用標準或多語言 TTS 重新運行以進行最終潤色。
如果您將一個話語放在每行並一致標記說話者，則對話腳本更易於維護。
如果您想直接從畫布導出文件，則在任何預覽後添加一個 SaveAudio 節點。

ChatterBox TTS ComfyUI 為您提供了一個靈活的單圖遊樂場，可以在不切換上下文的情況下嘗試語音、語言和對話，所有這些都由 ComfyUI_Fill-ChatterBox 和 Resemble AI Chatterbox 支持。

致謝#

此工作流程實施並建立在以下作品和資源之上。我們感謝 filliptm 對 ComfyUI_Fill-ChatterBox 的貢獻，以及 Resemble AI 對 Chatterbox 的貢獻和維護。有關權威詳情，請參閱下方鏈接的原始文檔和資源庫。

資源#

filliptm/ComfyUI_Fill-ChatterBox
- GitHub: filliptm/ComfyUI_Fill-ChatterBox
resemble-ai/chatterbox
- GitHub: resemble-ai/chatterbox

注意：使用參考的模型、數據集和代碼需遵循其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

Fish Audio S2 TTS | 富有表情的語音生成器

快速製作栩栩如生的情感、風格和複製聲音的語音。

MultiTalk | Photo to Talking Video

毫秒級唇同步 + Wan2.1 = 15秒超詳細對話視頻！

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

立即將您的文本轉換為純 AI 創作的音樂。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

FireRed 圖像編輯 | 智能照片增強器

銳利的照片修復，忠實的色調和完美的細節控制。

FLUX | 新的藝術圖像生成

由 Black Forest Labs 開發的新圖像生成模型

Pose Control LipSync S2V | 表情豐富的視頻生成器

使用姿勢和音頻控制將圖像轉化為會說話、會動的角色。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

ChatterBox TTS ComfyUI | AI 語音生成器