logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流程>ComfyUI MOSS TTS | AI 語音與語音生成器

ComfyUI MOSS TTS | AI 語音與語音生成器

Workflow Name: RunComfy/ComfyUI-MOSS-TTS
Workflow ID: 0000...1401
透過這個工作流程,您可以使用 OpenMOSS 技術直接從文本中創建自然語音。它幫助您設計獨特的聲音,生成多個說話者的對話,並微調語音的情感音調。非常適合尋求多功能語音管道的音頻設計師或動畫師。支持快速本地和擴展大型模型,以達到性能平衡。在項目的工作流程中無縫自定義音調、音高和表達。

ComfyUI MOSS TTS:文本轉語音、語音克隆、音效和對話於一個工作流程

這個 ComfyUI MOSS TTS 工作流程使用 OpenMOSS MOSS-TTS 系列將文本轉換為生動的 24 kHz 語音。它涵蓋了快速單一說話者合成、從短參考片段進行零樣本語音克隆、描述性語音設計、程序音效以及多說話者對話,並可選擇每個說話者的參考。

基於官方 MOSS-TTS 節點堆疊和模型系列,平衡速度與質量。Local 1.7B 路徑在單一 GPU 上是實用的快速通道,而較大的 Delay 8B 模型則以速度換取更廣泛的能力和表達力。如果您需要可重用的提示、克隆語音或在 ComfyUI 中的對話,這個 ComfyUI MOSS TTS 工作流程是為您設計的。

ComfyUI MOSS TTS 工作流程中的關鍵模型

  • OpenMOSS MOSS-TTS Local 1.7B。單 GPU 友好的文本轉語音轉換器,為日常生產工作提供快速、自然的 24 kHz 語音。模型卡:MOSS-TTS-Local-Transformer。
  • OpenMOSS MOSS-TTS Delay 8B。較大的模型系列,強調質量、說話者相似性和韻律,代價是速度和記憶體。模型卡:MOSS-TTS。
  • MOSS 音頻標記器。為 MOSS-TTS 模型架橋波形和離散標記的學習編解碼器,實現高保真解碼。模型卡:MOSS-Audio-Tokenizer。

有關實施細節和更新,請參閱官方存儲庫:OpenMOSS/MOSS-TTS 和推動此工作流程的節點堆疊 richservo/comfyui-moss-tts。

如何使用 ComfyUI MOSS TTS 工作流程

此圖表分為五個獨立組。選擇符合您目標的組,運行它,然後在畫布中直接預覽音頻。您可以同時運行多個組以試聽不同的方法。

基本 TTS

基本 TTS 組使用 Local 1.7B 快速路徑將純文本轉換為語音。在 MossTTSModelLoader (#1) 中加載模型,將文本提供給 MossTTSGenerate (#2),然後在 PreviewAudio (#3) 中收聽。生成器根據您的提示來塑造發音和韻律,因此請使用標點符號自然書寫以控制節奏。當您希望重複獲取時,保持種子固定,或在探索交付變體時隨機化它。

語音克隆

語音克隆組從短參考音頻片段進行零樣本語音克隆。使用 LoadAudio (#4) 導入乾淨的語音樣本,將其連接到 MossTTSGenerate (#6),由 MossTTSModelLoader (#5) 驅動,並提供目標文本。模型從參考中提取說話者的音色和風格,並以該語音呈現您的新腳本。使用中性內容和最小背景噪音的參考以提高相似性,並保持適中長度以獲得最快的周轉。

語音設計

語音設計從自然語言描述而不是示例片段創建新語音。MossTTSVoiceDesign (#9) 使用類似於 "溫暖、深沉的男性聲音,帶有輕微的英國口音" 的文本描述,結合您的腳本,合成 24 kHz 語音。該節點由通過 MossTTSModelLoader (#8) 加載的專用語音生成路徑驅動。這在您希望獲得一致、可重複的角色而不需尋找真實錄音時非常理想。使用年齡、音色、口音和能量等特徵來微調描述以引導聲音。

音效

音效從文本提示生成非語音音頻,適用於床軌、過渡或環境層。使用 MossTTSSoundEffect (#12) 及其模型管道從 MossTTSModelLoader (#11),像 "鐵皮屋頂上的大雨伴隨遠處雷聲" 的提示產生豐富、可循環的紋理。使用簡潔的名詞和動作來定義場景,然後添加一些形容詞來確定強度或距離。在 PreviewAudio (#13) 中預覽並快速迭代以適合您的混音。

多說話者對話

多說話者對話組呈現有腳本的對話,具有可選的每個說話者參考片段。使用方括號標記的說話者標籤編寫腳本,例如 [S1] 你好。 和 [S2] 嗨!,然後將其傳遞給 MossTTSDialogue (#15),在 MossTTSModelLoader (#14) 的模型管道下。您可以為 S1 和 S2 附加參考音頻輸入,以便為每個角色克隆特定語音,或者讓模型從文本上下文中選擇不同的說話者。此路徑非常適合問答、帶角色台詞的敘述或語音 UI 模擬。

ComfyUI MOSS TTS 工作流程中的關鍵節點

MossTTSModelLoader (#1)

加載所選的 OpenMOSS 模型系列並組裝內部 TTS 管道。選擇 Local 1.7B 變體以在單一 GPU 上快速迭代,或在優先考慮表達和相似性時切換到較大的 Delay 8B 模型。為每個任務系列保持一個加載器,以便每個下游分支保持自包含。

MossTTSGenerate (#2)

主要的單一說話者合成器,消耗您的文本提示和可選的參考音頻以生成 24 kHz 語音。提供乾淨、標點明確的文本以獲得更清晰的節奏,並在需要零樣本克隆時連接短語音片段。在固定和隨機間切換種子以平衡可重現性和探索。

MossTTSVoiceDesign (#9)

從描述性提示生成新語音以及要講的文本。專注於音色、年齡、口音和能量的描述來引導身份,同時保持簡潔。當授權或尋找真實語音不切實際時,這是強有力的選擇。

MossTTSSoundEffect (#12)

從短文本描述合成非語音音頻。撰寫緊湊的提示,錨定來源、動作和空間,然後迭代以匹配場景。非常適合您在同一 ComfyUI MOSS TTS 圖中用於對話的環境和單次音效。

MossTTSDialogue (#15)

解析帶方括號的說話者標籤,並將多輪對話呈現為單一音頻輸出。使用 [S1]、[S2] 等標記每行,並可選擇連接每個說話者的參考片段以在各回合中保持身份。保持行簡潔以獲得最可靠的說話者交接。

可選擴展

  • 以 Local 1.7B 模型開始進行快速草稿,然後在需要更強的相似性或更豐富的韻律時切換到 Delay 8B 檢查點。
  • 對於零樣本克隆,使用帶最小混響和噪音的乾淨 5–15 秒語音片段以改善音色轉移。
  • 在對話中,保持說話者標籤一致且不含標點如 [S1] 以避免解析錯誤。
  • 使用 3–6 個特徵如音色、年齡、口音、風格和能量創建聲音設計提示以獲得可預測的結果。
  • 在文本中使用標點和換行控制 ComfyUI MOSS TTS 輸出的停頓與節奏。
  • 如果您想要自動文件導出以進行批量渲染,請在任何預覽後添加 SaveAudio 節點。

參考資料:OpenMOSS/MOSS-TTS • MOSS-TTS-Local-Transformer • MOSS-TTS • MOSS-Audio-Tokenizer • comfyui-moss-tts

致謝

此工作流程實現並基於以下作品和資源。我們對 richservo 的 ComfyUI MOSS-TTS 自定義節點、OpenMOSS 的 MOSS-TTS 存儲庫以及 OpenMOSS-Team 的 MOSS-TTS 模型(Delay 8B 和 Local 1.7B)和 MOSS 音頻標記器的貢獻和維護表示感謝。有關權威詳情,請參閱以下鏈接的原始文檔和存儲庫。

資源

  • richservo/comfyui-moss-tts
    • GitHub: richservo/comfyui-moss-tts
  • OpenMOSS/MOSS-TTS
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS (Delay 8B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-TTS-Local-Transformer (Local 1.7B)
    • GitHub: OpenMOSS/MOSS-TTS
    • Hugging Face: OpenMOSS-Team/MOSS-TTS-Local-Transformer
    • arXiv: 2603.18090
  • OpenMOSS-Team/MOSS-Audio-Tokenizer
    • Hugging Face: OpenMOSS-Team/MOSS-Audio-Tokenizer
    • arXiv: 2602.10934

注意:使用參考的模型、數據集和代碼須遵循其作者和維護者提供的各自許可和條款。

Want More ComfyUI Workflows?

Fish Audio S2 TTS | 富有表情的語音生成器

快速製作栩栩如生的情感、風格和複製聲音的語音。

MMAudio | Video-to-Audio

MMAudio:先進的視頻到音頻模型,用於高品質音頻生成。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術,以 15 倍速度生成錄音室品質的音樂。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

立即將您的文本轉換為純 AI 創作的音樂。

ACE-Step 1.5XL Turbo comfyui 工作流程 | 文字轉音樂生成器

快速且清晰地將您的文字轉換為驚人的音樂。

Flux UltraRealistic LoRA V2

Flux UltraRealistic LoRA V2

使用 Flux UltraRealistic LoRA V2 創建驚人的逼真圖像

LTX 2.3 首尾影格 | 無縫影片生成器

將影格轉換為超順暢、逼真的影片過渡效果。

IPAdapter Plus (V2) + AnimateLCM | ipiv 的形變

使用 IPAdapter Plus、ControlNet QRCode 和 AnimateLCM 快速創建形變視頻。

關注我們
  • 領英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 電子郵件
  • 系統狀態
  • 附屬
資源
  • 免費 ComfyUI 在線版
  • ComfyUI 指南
  • RunComfy API
  • RunComfy MCP
  • ComfyUI 教程
  • ComfyUI 節點
  • 了解更多
法律
  • 服務條款
  • 隱私政策
  • Cookie 政策
RunComfy
版權 2026 RunComfy. 保留所有權利。

RunComfy 是首選的 ComfyUI 平台,提供 ComfyUI 在線 環境和服務,以及 ComfyUI 工作流程 具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。