Stable Audio 3.0 Medium Base 工作流程在 ComfyUI 中

ComfyUI Stable Audio 3.0 Medium Base workflow 工作流程

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio

想要運行這個工作流程嗎？

完全可操作的工作流程
沒有缺失的節點或模型
無需手動設置
具有驚豔的視覺效果

ComfyUI Stable Audio 3.0 Medium Base workflow 範例

Stable Audio 3.0 Medium Base 工作流程適用於在 ComfyUI 中長文本轉音頻#

這個 Stable Audio 3.0 Medium Base 工作流程將短文本想法轉換為更長、更音樂化的立體聲音頻。它圍繞 stable_audio_3_medium_base checkpoint 構建，使用 T5-Gemma 和 Qwen3.5 文本編碼器在 ComfyUI 中提供由提示驅動的音樂草圖、環境背景音、SFX 和單次音效，並具有可重現的設置。

該圖包括一個可選的類別感知重新提示系統，可以在合成之前將您的簡短想法擴展為密集的、準備製作的提示。您選擇類別、時長和種子，然後管道調整 Stable Audio 3 並渲染音頻，該音頻以 MP3 格式保存。工作流程遵循 Comfy-Org 提供的 Stable Audio 3.0 Medium Base 的官方模板和資產。請參閱 Comfy-Org/workflow_templates 和 Comfy-Org/stable-audio-3 的參考模板和模型。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的關鍵模型#

Stable Audio 3 Medium Base checkpoint。核心生成模型，從文本條件和潛在變量合成立體聲音頻。來源：Comfy-Org/stable-audio-3。
T5-Gemma Base UL2 文本編碼器。生成用於正面和負面提示的文本嵌入。打包的文本編碼器文件包含在 Stable Audio 3 存儲庫的 text_encoders 文件夾中：Comfy-Org/stable-audio-3。
Qwen3.5 2B 文本模型。支持可選的類別感知重新提示，將簡短想法擴展為詳細的音樂、樂器、SFX 或單次音效描述。來源：Comfy-Org/Qwen3.5。

如何使用 Comfyui Stable Audio 3.0 Medium Base 工作流程#

在高層次上，您提供一個短想法和一個目標時長。圖可以保持您的文字不變，或使用 Qwen3.5 通過類別模板重寫它們。結果被編碼為條件，由 Stable Audio 3 取樣，解碼為音頻並保存。

用戶輸入：提示和時長#

子圖 Audio Generation (Stable Audio 3 Medium Base) (#52) 暴露 user_input、duration、seed、use_reprompt 和 category。用簡單語言寫下一個簡短想法，例如風格、樂器列表、心情和可選的 BPM。選擇以秒為單位的片段長度並設置一個 seed 以便重現性或變化。當您想要模板驅動的重寫時，將 use_reprompt 打開，然後選擇一個 category，如 Music、Instrument、SFX 或 One-shot。

加載器：checkpoint 和文本編碼器#

CheckpointLoaderSimple (#25) 加載 stable_audio_3_medium_base.safetensors，提供稍後用於取樣和解碼的 MODEL 和 VAE。CLIPLoader (#26) 加載用於條件的 T5-Gemma 編碼器。第二個 CLIPLoader (#29) 加載驅動重新提示階段的 Qwen3.5 模型。

重新提示：JSON 模板和類別#

類別選擇器 CustomCombo (#43) 將系統提示的大型 JSON 提供給 JsonExtractString (#49)。選定的模板由 Text Replace (PROMPT TEMPLATE) (#38) 插入到一個元提示中。您的 user_input 由 Text Replace (USER INPUT) (#39) 注入，目標長度由 Text Replace (AUDIO LENGTH) (#40) 插入，保持重寫與您選擇的時長一致。

重新提示：Qwen TextGenerate#

TextGenerate (#28) 使用 Qwen3.5 將組裝好的模板加上您的想法轉換為一個簡明的、詳細的提示，遵循類別特定的規則。這個階段特別有助於更長的音樂結構和需要具體技術語言的 SFX。提示重寫是可預覽的，因此您可以快速迭代類別選擇和措辭。

在原始文本和重寫文本之間切換#

ComfySwitchNode (#34) 根據 use_reprompt 選擇您的原始文本或 Qwen 生成的重寫文本。把它打開以獲得結構化、長度匹配的重寫，或在您想要直接控制措辭時關閉它。這個簡單的切換使 A/B 測試變得簡單。

CLIP 編碼：條件#

CLIPTextEncode (#6) 將選擇的提示轉換為驅動模型的正面條件。第二個 CLIPTextEncode (#7) 默認提供一個中性負面條件。這對 Stable Audio 3 提供了清晰的指導，同時避免了意外的工件。

音頻生成：Stable Audio#

EmptyLatentAudio (#11) 創建一個匹配 duration 長度的音頻潛在變量。KSampler (#3) 使用 checkpoint 中的 Stable Audio 3 Medium Base MODEL 執行去噪過程。VAEDecodeAudio (#12) 將最終的潛在變量轉換為可聽的立體聲波形。由於相同的 duration 也影響重新提示，渲染的剪輯長度與重寫的文本保持同步。

保存和導出#

在子圖之外，SaveAudioMP3 (#19) 將結果寫入帶有有用前綴的 MP3 文件以便組織。當批量生成具有不同 seed 值或類別的採樣時使用此功能，然後試聽並保留您最喜歡的。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的關鍵節點#

ComfySwitchNode (#34)。在原始的 user_input 和 Qwen 生成的文本之間切換。打開它以獲得結構化、長度匹配的重寫，關閉它以獲得直接控制。
TextGenerate (#28)。運行 Qwen3.5，使用類別特定的系統提示來擴展想法。要自定義重寫風格，請編輯 JsonExtractString (#49) 中的類別模板和相鄰 Text Replace 節點中的粘合提示。
EmptyLatentAudio (#11)。設置剪輯長度。保持這與插入的 AUDIO_LENGTH 令牌一致，以便合成時間與文本意圖匹配。
KSampler (#3)。管理 Stable Audio 3 的去噪軌跡。調整 seed 以獲得變化，同時保持其他設置穩定，以便公平比較採樣。
SaveAudioMP3 (#19)。控制輸出文件名前綴和格式，以便從多次運行中快速構建庫。

可選附加功能#

從一兩句話的想法開始，命名類型或來源、關鍵樂器或紋理和心情。重新提示可以填寫 BPM 和編排等細節。
選擇與您的目標相匹配的類別：Music 用於完整曲目，Instrument 用於循環或音軌，SFX 用於環境和動作，One-shot 用於單獨的擊打。
保持目標內容的時長現實。非常長的片段計算更重，可能在您迭代時受益於穩定的 seed。
當結果感覺擁擠時，禁用重新提示並嘗試更簡單的短語，然後在您喜歡方向後重新啟用它。
為快速替代採樣，保持所有內容不變，只更改 seed。

致謝#

此工作流程實施並基於以下作品和資源。我們感謝 Comfy-Org 在 ComfyUI Stable Audio 3 Day-0 Support 文章、Comfy-Org 的官方 Stable Audio 3.0 Medium Base 工作流程模板、Comfy-Org 的 Stable Audio 3 模型文件和 Comfy-Org 的 Qwen3.5 編碼器模型文件的貢獻和維護。欲了解權威詳情，請參閱以下鏈接的原始文檔和存儲庫。

資源#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support 文章
- 文檔 / 發布說明: Stable Audio 3 Day-0 Support
Comfy-Org/官方 Stable Audio 3.0 Medium Base 工作流程模板
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 模型文件
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 編碼器模型文件
- Hugging Face: Comfy-Org/Qwen3.5

注意：引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | 文本到音樂工具

將文本提示無縫快速地轉換為電影配樂。

ACE-Step 音樂生成 | AI 音頻創作

通過突破性的擴散技術，以 15 倍速度生成錄音室品質的音樂。

Ace Step 1.5 | 商業級 AI 音樂生成器

使用智能規劃和擴散能力將文本轉換為完整歌曲。

ACE-Step 1.5XL Base 文本到音樂 | AI 音頻生成器

立即將您的文本轉換為純 AI 創作的音樂。

ACE-Step 1.5XL Turbo comfyui 工作流程 | 文字轉音樂生成器

快速且清晰地將您的文字轉換為驚人的音樂。

Wan2.2 動作轉移 V7 | AI 動作影片製作

讓您的角色動作如真人般精確且可控。

IndexTTS2 ComfyUI 工作流程 | 表達性語音生成器

克隆真實情感。瞬間以任何音調說話。

LTX-2.3 ICLoRA LipDub 工作流程 | 唇形同步影片生成器

將任何影片轉變為完美的唇形同步講話傑作。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

Stable Audio 3.0 Medium Base | 文本轉音樂生成器