ComfyUI F5 TTS 工作流程 | 文字轉語音與語音克隆

ComfyUI F5 TTS Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI F5 TTS Examples

ComfyUI F5 TTS：一個工作流程中的零樣本文字轉語音和語音克隆#

這個 ComfyUI F5 TTS 工作流程讓您可以從文字生成自然語音，並直接在 ComfyUI 內克隆聲音。它由 ComfyUI-F5-TTS 自訂節點提供動力，並包括一個完整的參考克隆路徑：提供一個短的 WAV 和匹配的文字記錄來條件化模型，然後合成遵循參考說話者音色和風格的新台詞。圖表還附帶多個模型變體、語言和聲碼器的即用測試，因此您可以快速比較輸出並決定最適合旁白、配音、角色對話或產品演示的選擇。

一切都被安排成清晰的組別，因此您可以以兩種方式使用 ComfyUI F5 TTS：快速，一鍵式的英語、法語、德語和日語 TTS，或通過內建錄音機或配對文件進行語音克隆。包括一個緊湊的 Whisper 轉錄路徑，以幫助您在已有乾淨錄音時獲得準確的樣本文字記錄。

ComfyUI F5 TTS 工作流程中的關鍵模型#

Fish Audio F5-TTS。零樣本 TTS 從短參考中學習說話者的特徵，並在多個語言中產生高質量的語音。請參閱項目以獲取模型詳情和訓練背景。GitHub
OpenAI Whisper。語音識別在此用於自動轉錄您的參考片段，以確保樣本文字精確匹配，從而提高克隆質量。GitHub
BigVGAN。一個高保真神經聲碼器，可作為更清晰銳利輸出的解碼選項。GitHub
Vocos。一個快速、輕量的神經聲碼器替代方案，專注於速度和低延遲。GitHub
ComfyUI-F5-TTS 自訂節點。ComfyUI 集成將 F5-TTS 和兼容後端接入用於整個圖表的節點。GitHub

如何使用 ComfyUI F5 TTS 工作流程#

從高層次來看，工作流程提供了獨立的組別進行快速模型比較和專用的克隆通道。首先試聽預配置的組別以確認您偏好的聲音和聲碼器，然後移至使用自己的樣本進行克隆。下面的每個小節都解釋了該組別的功能和重要的輸入。

Audio From Inputs 測試#

此通道演示參考轉錄加條件化。LoadAudio (#4) 引入一個 WAV，Apply Whisper (#13) 轉錄它，並且 F5TTSAudioInputs (#26) 使用樣本音頻和 Whisper 文字來條件化語音以供預覽。提供乾淨的口語樣本，讓 Whisper 填寫文字記錄端口，以便配對精確匹配。如果您想直接提供文件，請在 ComfyUI/input 中放置配對的 .wav 和 .txt，然後重新啟動 ComfyUI，以便圖表能夠看到它們。

Multi voice 測試#

此組別在一條線中使用單個合成節點顯示風格切換。F5TTSAudio (#17) 讀取標有段落的腳本，因此您可以在一次通過中試聽多個角色風格或重音變化。這是一種快速了解 ComfyUI F5 TTS 如何處理對比音色或旁白與角色節奏的好方法。

Audio EN#

使用 F5TTSAudio (#15) 進行簡單的英語 TTS。輸入您的腳本並預覽以評估默認 F5 預設的基線發音和節奏。此通道非常適合在您決定克隆或多聲音混合之前快速迭代。

F5v1#

此路徑運行 F5TTSAudio (#33) 節點對抗 F5 v1 變體，以便您可以與主 F5 預設比較音調和韻律。使用與 EN 通道相同的文字，以便輕鬆判斷差異。選擇長期項目默認模型時很有幫助。

Audio FR#

此通道面向法語合成，使用 F5TTSAudio (#27) 配置法語預設。提供法語腳本並預覽輸出以檢查鼻音元音和連音處理。與 EN 通道來回切換以比較清晰度和速度。

Audio DE bigvgan#

此處 F5TTSAudio (#30) 使用德語預設和 BigVGAN 聲碼器進行更明亮、更清晰的解碼。當您需要更多存在感或錄音室般的光澤時，使用此通道。如果您更喜歡柔和的渲染，請與 Vocos 通道比較。

Audio JP#

此路徑使用 F5TTSAudio (#25) 配置日語預設。粘貼日語腳本以評估音調重音和音節時間。這是一個適合動漫風格閱讀或面向日本觀眾的產品線的良好起點。

E2 測試#

此組別使用 E2 兼容預設和 Vocos 聲碼器來測試替代後端。使用它來比較延遲和音色特徵與您的 F5 運行。

克隆您自己的聲音#

在 ComfyUI 中直接錄製、配對和克隆。按下 VrchAudioRecorderNode (#43) 中的麥克風並閱讀“Sample Text to Record”框中的提示 Textbox (#42)。錄音機將您的 WAV 路由到 F5TTSAudioInputs (#44)，並將您說的準確文字一起條件化模型的音色和風格，然後在 PreviewAudio (#45) 中預覽。為獲得最佳效果，請在安靜的房間中說話，並確保參考文字與您所說的完全一致；然後輸入您希望克隆語音說的新台詞並運行圖表。

ComfyUI F5 TTS 工作流程中的關鍵節點#

`F5TTSAudio` (#15)#

在 EN、FR、DE、JP、F5v1 和 E2 組中使用的核心單次通過 TTS 節點。提供您的腳本並選擇適合您語言和表達的模型預設和聲碼器。如果您想要可重現的拍攝，請保持種子固定；如果您想要多樣性，則在運行間隨機化。實現由 ComfyUI-F5-TTS 擴展提供。GitHub GitHub - FishAudio/F5-TTS

`F5TTSAudioInputs` (#44)#

克隆進入點，使用參考 WAV 和其匹配的文字記錄來構建說話者表示，然後在該聲音中合成新台詞。使用乾淨的樣本，保持一致的響度，並確保文字記錄精確，以最大化相似性並減少失真。此處切換模型預設或聲碼器，以獲得更明亮或更中性的解碼。GitHub - FishAudio/F5-TTS

`Apply Whisper` (#13)#

參考樣本的自動轉錄。選擇一個平衡速度和準確性的 Whisper 大小，以適應您的硬件和語言，然後將其輸出文字提供給克隆節點，以確保音頻和文字完美對齊。這防止了樣本文字與實際所說內容不同時可能發生的條件化錯誤。GitHub

`VrchAudioRecorderNode` (#43)#

一個圖內錄音機，捕捉短的口語提示以進行克隆，無需外部工具。按住錄製，釋放停止，立即聽到 ComfyUI F5 TTS 在您自己的聲音中的效果。將麥克風保持在近距離，並減少環境噪音以獲得最乾淨的效果。

可選補充#

使用 5 到 15 秒的乾淨語音作為參考，無音樂或效果。
確保樣本文字記錄與錄音完全匹配；即使是小的差異也會降低克隆保真度。
在同一條線上比較 Vocos 和 BigVGAN，以決定速度和細節。
需要一致的重拍時保持固定種子；探索風格時隨機化。
對於多語項目，首先試聽 EN、FR、DE 和 JP 通道，然後在對發音和節奏滿意後最終確定克隆。

感謝#

此工作流程實現並基於以下作品和資源構建。我們感謝 niknah 提供的 ComfyUI-F5-TTS 節點、niknah 提供的 F5TTS-test-all.json 示例工作流程，以及 r/StableDiffusion 社區提供的“在 ComfyUI 中使用 F5-TTS 進行語音克隆”指南的貢獻和維護。欲了解權威詳情，請參考以下鏈接的原始文檔和存儲庫。

資源#

niknah/ComfyUI-F5-TTS
- GitHub: niknah/ComfyUI-F5-TTS
niknah/ComfyUI-F5-TTS (Example Workflow: F5TTS-test-all.json)
- GitHub: example_workflows/F5TTS-test-all.json
r/StableDiffusion/Community Guide (Voice Cloning with F5-TTS in ComfyUI)
- GitHub: example_web_viewer_005_audio_web_viewer_f5_tts.json
- Docs / Release Notes: Effortlessly Clone Your Own Voice by using ComfyUI and Almost in Real-Time! (Step-by-Step Tutorial & Workflow Included)

注意：使用參考的模型、數據集和代碼受其作者和維護者提供的相應許可和條款的約束。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

EchoMimic | 音頻驅動的肖像動畫

生成與提供音頻同步的真實說話頭像和身體動作。

Hunyuan3D 2.1 | 圖像轉3D模型

從2.0大幅躍升：瞬間將照片轉換為令人驚嘆的3D模型。

MultiTalk | Photo to Talking Video

毫秒級唇同步 + Wan2.1 = 15秒超詳細對話視頻！

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) 用於高品質、多樣化的圖像生成。

Z-Image | 快速寫實基礎模型

超快速影像製作，擁有驚人的清晰度和完全控制。

Unsampling 的黏土風格

使用 Unsampling 方法將您的影片轉換為黏土風格。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

ComfyUI F5 TTS | 自然語音克隆引擎