ComfyUI MOSS TTS 工作流程 | 零樣本語音克隆與語音合成

ComfyUI MOSS TTS Workflow

想要運行這個工作流程嗎？

完全可操作的工作流程
沒有缺失的節點或模型
無需手動設置
具有驚豔的視覺效果

ComfyUI MOSS TTS Examples

ComfyUI MOSS TTS：文本轉語音、語音克隆、音效和對話於一個工作流程#

這個 ComfyUI MOSS TTS 工作流程使用 OpenMOSS MOSS-TTS 系列將文本轉換為生動的 24 kHz 語音。它涵蓋了快速單一說話者合成、從短參考片段進行零樣本語音克隆、描述性語音設計、程序音效以及多說話者對話，並可選擇每個說話者的參考。

基於官方 MOSS-TTS 節點堆疊和模型系列，平衡速度與質量。Local 1.7B 路徑在單一 GPU 上是實用的快速通道，而較大的 Delay 8B 模型則以速度換取更廣泛的能力和表達力。如果您需要可重用的提示、克隆語音或在 ComfyUI 中的對話，這個 ComfyUI MOSS TTS 工作流程是為您設計的。

ComfyUI MOSS TTS 工作流程中的關鍵模型#

OpenMOSS MOSS-TTS Local 1.7B。單 GPU 友好的文本轉語音轉換器，為日常生產工作提供快速、自然的 24 kHz 語音。模型卡：MOSS-TTS-Local-Transformer。
OpenMOSS MOSS-TTS Delay 8B。較大的模型系列，強調質量、說話者相似性和韻律，代價是速度和記憶體。模型卡：MOSS-TTS。
MOSS 音頻標記器。為 MOSS-TTS 模型架橋波形和離散標記的學習編解碼器，實現高保真解碼。模型卡：MOSS-Audio-Tokenizer。

有關實施細節和更新，請參閱官方存儲庫：OpenMOSS/MOSS-TTS 和推動此工作流程的節點堆疊 richservo/comfyui-moss-tts。

如何使用 ComfyUI MOSS TTS 工作流程#

此圖表分為五個獨立組。選擇符合您目標的組，運行它，然後在畫布中直接預覽音頻。您可以同時運行多個組以試聽不同的方法。

基本 TTS#

基本 TTS 組使用 Local 1.7B 快速路徑將純文本轉換為語音。在 MossTTSModelLoader (#1) 中加載模型，將文本提供給 MossTTSGenerate (#2)，然後在 PreviewAudio (#3) 中收聽。生成器根據您的提示來塑造發音和韻律，因此請使用標點符號自然書寫以控制節奏。當您希望重複獲取時，保持種子固定，或在探索交付變體時隨機化它。

語音克隆#

語音克隆組從短參考音頻片段進行零樣本語音克隆。使用 LoadAudio (#4) 導入乾淨的語音樣本，將其連接到 MossTTSGenerate (#6)，由 MossTTSModelLoader (#5) 驅動，並提供目標文本。模型從參考中提取說話者的音色和風格，並以該語音呈現您的新腳本。使用中性內容和最小背景噪音的參考以提高相似性，並保持適中長度以獲得最快的周轉。

語音設計#

語音設計從自然語言描述而不是示例片段創建新語音。MossTTSVoiceDesign (#9) 使用類似於 "溫暖、深沉的男性聲音，帶有輕微的英國口音" 的文本描述，結合您的腳本，合成 24 kHz 語音。該節點由通過 MossTTSModelLoader (#8) 加載的專用語音生成路徑驅動。這在您希望獲得一致、可重複的角色而不需尋找真實錄音時非常理想。使用年齡、音色、口音和能量等特徵來微調描述以引導聲音。

音效#

音效從文本提示生成非語音音頻，適用於床軌、過渡或環境層。使用 MossTTSSoundEffect (#12) 及其模型管道從 MossTTSModelLoader (#11)，像 "鐵皮屋頂上的大雨伴隨遠處雷聲" 的提示產生豐富、可循環的紋理。使用簡潔的名詞和動作來定義場景，然後添加一些形容詞來確定強度或距離。在 PreviewAudio (#13) 中預覽並快速迭代以適合您的混音。

多說話者對話#

多說話者對話組呈現有腳本的對話，具有可選的每個說話者參考片段。使用方括號標記的說話者標籤編寫腳本，例如 [S1] 你好。 和 [S2] 嗨！，然後將其傳遞給 MossTTSDialogue (#15)，在 MossTTSModelLoader (#14) 的模型管道下。您可以為 S1 和 S2 附加參考音頻輸入，以便為每個角色克隆特定語音，或者讓模型從文本上下文中選擇不同的說話者。此路徑非常適合問答、帶角色台詞的敘述或語音 UI 模擬。

ComfyUI MOSS TTS 工作流程中的關鍵節點#

`MossTTSModelLoader` (#1)#

加載所選的 OpenMOSS 模型系列並組裝內部 TTS 管道。選擇 Local 1.7B 變體以在單一 GPU 上快速迭代，或在優先考慮表達和相似性時切換到較大的 Delay 8B 模型。為每個任務系列保持一個加載器，以便每個下游分支保持自包含。

`MossTTSGenerate` (#2)#

主要的單一說話者合成器，消耗您的文本提示和可選的參考音頻以生成 24 kHz 語音。提供乾淨、標點明確的文本以獲得更清晰的節奏，並在需要零樣本克隆時連接短語音片段。在固定和隨機間切換種子以平衡可重現性和探索。

`MossTTSVoiceDesign` (#9)#

從描述性提示生成新語音以及要講的文本。專注於音色、年齡、口音和能量的描述來引導身份，同時保持簡潔。當授權或尋找真實語音不切實際時，這是強有力的選擇。

`MossTTSSoundEffect` (#12)#

從短文本描述合成非語音音頻。撰寫緊湊的提示，錨定來源、動作和空間，然後迭代以匹配場景。非常適合您在同一 ComfyUI MOSS TTS 圖中用於對話的環境和單次音效。

`MossTTSDialogue` (#15)#

解析帶方括號的說話者標籤，並將多輪對話呈現為單一音頻輸出。使用 [S1]、[S2] 等標記每行，並可選擇連接每個說話者的參考片段以在各回合中保持身份。保持行簡潔以獲得最可靠的說話者交接。

可選擴展#

以 Local 1.7B 模型開始進行快速草稿，然後在需要更強的相似性或更豐富的韻律時切換到 Delay 8B 檢查點。
對於零樣本克隆，使用帶最小混響和噪音的乾淨 5–15 秒語音片段以改善音色轉移。
在對話中，保持說話者標籤一致且不含標點如 [S1] 以避免解析錯誤。
使用 3–6 個特徵如音色、年齡、口音、風格和能量創建聲音設計提示以獲得可預測的結果。
在文本中使用標點和換行控制 ComfyUI MOSS TTS 輸出的停頓與節奏。
如果您想要自動文件導出以進行批量渲染，請在任何預覽後添加 SaveAudio 節點。

參考資料：OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

致謝#

此工作流程實現並基於以下作品和資源。我們對 richservo 的 ComfyUI MOSS-TTS 自定義節點、OpenMOSS 的 MOSS-TTS 存儲庫以及 OpenMOSS-Team 的 MOSS-TTS 模型（Delay 8B 和 Local 1.7B）和 MOSS 音頻標記器的貢獻和維護表示感謝。有關權威詳情，請參閱以下鏈接的原始文檔和存儲庫。

資源#

richservo/comfyui-moss-tts
- GitHub: richservo/comfyui-moss-tts
OpenMOSS/MOSS-TTS
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS (Delay 8B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
- GitHub: OpenMOSS/MOSS-TTS
- Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
- arXiv: 2603.18090
OpenMOSS-Team/MOSS-Audio-Tokenizer
- Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
- arXiv: 2602.10934

注意：使用參考的模型、數據集和代碼須遵循其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

Fish Audio S2 TTS | 富有表情的語音生成器

快速製作栩栩如生的情感、風格和複製聲音的語音。

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

立即將您的文本轉換為純 AI 創作的音樂。

ACE-Step 1.5XL Turbo comfyui 工作流程 | 文字轉音樂生成器

快速且清晰地將您的文字轉換為驚人的音樂。

外繪 | 擴展圖片

使用外繪節點和 ControlNet 修補模型輕鬆擴展圖像。

LTX 2.3 雙角色唇同步 LoRA | 說話場景生成器

構建栩栩如生的雙角色對話，配合同步的語音和表情。

AnimateDiff + QR Code ControlNet | 視覺效果 (VFX)

使用 AnimateDiff 和 ControlNet（包含 QRCode Monster 和 Lineart）創建迷人的視覺效果。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

ComfyUI MOSS TTS | AI 語音與語音生成器