ACE-Step 1.5XL Turbo 文字轉音樂 ComfyUI 工作流程
使用此專注於速度和重複性的 comfyui 工作流程,將緊湊的提示轉換為精緻的 MP3 音樂。它將 ACE-Step 1.5XL Turbo 生成器與其官方 VAE 和雙 Qwen 文字編碼器配對,然後直接導出到 MP3,便於預覽和重用。製作人、音效設計師和提示藝術家可以快速迭代,同時保持各次運行的一致性。
此 comfyui 工作流程中的關鍵模型
- ACE-Step 1.5XL Turbo (bf16)。核心擴散模型從文字條件生成音樂,優化以實現快速去噪和高品質音頻潛量。 模型文件
- ACE-Step 1.5 VAE。解碼器將音頻潛量轉換為最終波形,同時保留 ACE-Step 系列預期的音色和動態。 模型文件
- Qwen 0.6B ACE 1.5 文字編碼器。輕量級編碼器,將您的描述性提示轉換為生成器使用的條件向量。 模型文件
- Qwen 4B ACE 1.5 文字編碼器。較大的伴隨編碼器,豐富語義、風格提示、樂器和聲樂提示,以便更忠實地呈現。 模型文件
如何使用此 comfyui 工作流程
圖形組織為兩個主要組加上全局控制。您加載 ACE-Step 模型堆疊,描述您想要的音樂,設置歌曲持續時間和種子,然後採樣、解碼並導出到 MP3。
模型組
此部分初始化生成器預期的模型堆疊。UNETLoader (#104) 加載 ACE-Step 1.5XL Turbo,VAELoader (#106) 引入匹配的 ACE-Step 1.5 VAE,以便解碼保持忠實。DualCLIPLoader (#105) 配對 Qwen 0.6B 和 4B 文字編碼器以準備提示嵌入。UNet 通過 ModelSamplingAuraFlow (#78) 路由,應用模型所需的採樣配置,然後開始去噪。
提示組
在 TextEncodeAceStepAudio1.5 (#94) 中寫下有關類型、情緒、樂器、聲樂、節奏和製作風格的簡明描述。如果您使用歌詞或結構筆記,請在次要文本框中提供它們,以便編碼器可以調整措辭和動態。負面條件有意通過 ConditioningZeroOut (#47) 禁用,以保持輸出專注並簡化早期迭代。該節點還接受全局 duration 和 seed,確保條件與曲長和重現性設置保持一致。
持續時間和種子
使用 Float (Duration) (#99) 設置曲目長度(以秒為單位)。選擇 Int (Seed) (#109) 以便在編碼器和採樣器之間實現可重現的運行。保持相同的種子,同時僅更改提示,是 A/B 測試創意方向的可靠方法。對於廣泛探索,在您對提示感到滿意後改變種子。
潛音頻設置
EmptyAceStep1.5LatentAudio (#98) 構建一個匹配您選擇的持續時間的空音頻潛量。這充當採樣器在去噪期間填充的畫布。較長的持續時間需要更多計算,因此考慮從較短的開始以驗證提示,然後再擴大規模。工作流程將持續時間全球化,因此您的潛量和條件始終保持同步。
去噪和採樣
KSampler (#3) 使用 ACE-Step 1.5XL Turbo 模型和您的提示條件執行擴散過程。採樣器路徑通過 ModelSamplingAuraFlow (#78) 運行,以匹配模型預期的調度設置以實現穩定、快速收斂。使用相同的種子比較措辭或風格的變化,並且只有在調整提示後才調整採樣器設置。當採樣器完成時,您將擁有一個準備解碼的音頻潛量。
解碼和導出
VAEDecodeAudio (#18) 使用 ACE-Step 1.5 VAE 將潛量轉換為波形,以保留預期的音色。SaveAudioMP3 (#107) 寫入一個具有基礎文件名和可選版本標籤的 MP3,以便您可以組織錄音。MP3 非常適合快速審查和共享,您隨時可以重新渲染或重新導出為不同格式。結果會出現在您標準的 ComfyUI 輸出位置。
此 comfyui 工作流程中的關鍵節點
TextEncodeAceStepAudio1.5 (#94)
該節點使用配對的 Qwen 編碼器將您的音樂描述和可選歌詞轉換為生成器的條件。保持提示具體化關於類型、樂器、聲樂存在、節奏、情緒和混音特徵。確保節點的 duration 與全局歌曲長度匹配,以便結構和措辭保持一致。在措辭上進行迭代時使用固定的 seed,以了解術語如何影響編排和音色。
EmptyAceStep1.5LatentAudio (#98)
控制模型將填充的時間畫布。增加持續時間會增加內存和渲染時間,因此在提交更長的作品之前先在較短的草案上進行迭代。保持持續時間的變化有意識,因為即使使用相同的提示和種子,它們也可能改變感知的節奏和段落節奏。
KSampler (#3)
通過控制如何從潛量中去除噪聲來驅動質量、速度和整體質感。從提供的調度器路徑開始,只有在提示感覺正確後才調整採樣器設置。對於快速草稿,減少採樣工作量;對於更高的保真度,逐步增加,同時保持種子不變,以便輕鬆聽出差異。請參見 ComfyUI 存儲庫中的核心採樣器行為以獲得一般指導。ComfyUI 在 GitHub 上
SaveAudioMP3 (#107)
處理導出和文件命名,以便您可以目錄錄音。設置清晰的基本名稱和版本標籤以跟蹤迭代。如果您計劃進行母帶處理或進一步編輯,請將項目種子和提示保留在您的筆記中,以便在需要時使用替代導出設置重新渲染。
可選附加功能
- 將提示寫成簡短、有序的短語:類型、情緒、關鍵感覺、節奏、樂器、聲樂類型、製作風格。
- 保持歌詞簡潔並與選擇的持續時間對齊,以避免在結尾處出現匆忙的措辭。
- 在完善提示時鎖定種子,然後變化種子以探索使用相同簡報的替代編排。
- 從較短的持續時間開始以驗證方向,然後在核心聲音有效時擴展。
- 設計上禁用負面條件;只有在初步探索後需要嚴格排除時,才啟用並調整真負面提示。
致謝
此工作流程實現並建立在以下作品和資源之上。我們誠摯地感謝 Comfy.org 提供的 Audio ACE Step 1.5 XL Turbo 工作流程,以及 Comfy-Org 提供的 ACE-Step 1.5XL Turbo 擴散模型、ACE-Step 1.5 VAE、ACE-Step 1.5 文字編碼器 0.6B 和 ACE-Step 1.5 文字編碼器 4B 的貢獻和維護。欲知權威細節,請參閱以下鏈接的原始文檔和存儲庫。
資源
- Comfy.org/Audio ACE Step 1.5 XL Turbo 工作流程
- 文檔/釋出說明:工作流程頁面
- Comfy-Org/ACE-Step 1.5XL Turbo 擴散模型
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 文字編碼器 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 文字編碼器 4B
- Hugging Face: qwen_4b_ace15.safetensors
注意:引用的模型、數據集和代碼的使用受其作者和維護者提供的各自許可和條款的約束。
