Ace Step 1.5 文本到音樂工作流程 for ComfyUI
此模板使用 Ace Step 1.5 將簡短的創意簡報和可選的歌詞轉換為完成的 MP3。它專為希望從文本中快速生成高質量歌曲結構、聲樂和風格控制的音樂家、製作人和創作者設計。工作流程專注於直接的文本到音樂路徑,因此您可以在一次過程中從想法轉換為音頻。
Ace Step 1.5 將規劃模塊與擴散變壓器配對,以提供商業級音樂連續性,同時保持足夠輕便以適用於日常硬體。在這個 ComfyUI 圖中,Ace Step 1.5 接受風格提示加上歌詞,規劃編排,合成潛在音頻表示,然後解碼並保存為準備分享的文件。
Comfyui Ace Step 1.5 工作流程中的關鍵模型
- Ace Step 1.5 Turbo AIO 檢查點。基礎模型將文本和歌詞映射到音樂,並在音頻領域處理基於擴散的合成。可從 Hugging Face 的 Comfy-Org 獲得,作為 ComfyUI 文件集的一部分:Comfy-Org/ace_step_1.5_ComfyUI_files。
- Ace Step 1.5 文本編碼器。與檢查點一起打包,用於將您的散文提示和可選歌詞轉換為生成器的條件。在圖中由
TextEncodeAceStepAudio1.5節點暴露。 - Ace Step 1.5 音頻 VAE。也打包在檢查點中,用於將合成的潛在轉換為時域波形以進行導出。
如何使用 Comfyui Ace Step 1.5 工作流程
在高層次上,您加載 Ace Step 1.5 模型,選擇歌曲時長,描述音樂並粘貼歌詞,然後運行採樣以合成和解碼為 MP3。
步驟 1 - 加載模型
此組通過 CheckpointLoaderSimple (#97) 初始化核心資產。選擇 Ace Step 1.5 Turbo AIO 文件以一個步驟加載模型、其文本編碼器和音頻 VAE。ModelSamplingAuraFlow (#78) 節點附加了一個 Ace Step 1.5 兼容的採樣器配置,以便下游的 KSampler 可以使用預期的算法運行。設置完成後,其餘的工作流程可以完全由您的提示和時長驅動。
步驟 2 - 時長
這裡的 Song Duration (#99) 控制將秒數輸入 EmptyAceStep1.5LatentAudio (#98),為音軌預分配目標潛在長度。設置較短的時長有利於快速構思和風格檢查,而較長的值則讓 Ace Step 1.5 規劃更完整的段落。時長向前流動,以便編碼器和採樣器同意要生成多少結構。如果您稍後延長歌曲,請保持相同的種子以保留氛圍和主題。
步驟 3 - 提示
使用 TextEncodeAceStepAudio1.5 (#94) 描述風格、情緒、樂器和製作筆記,並可選地粘貼歌詞。Ace Step 1.5 讀取此信息以規劃旋律、和聲、節奏和聲樂措辭,並提供連貫的段落。seed (#102) 行使結果可重複或隨機化,根據您的偏好。ConditioningZeroOut (#47) 發送中性負面條件以減少衝突,這通常是音樂輸出的良好默認設置。如果您需要更嚴格的負面提示,請用自己的負面文本路徑替換該節點。
KSampler (#3)
此節點使用來自 ModelSamplingAuraFlow (#78) 的 Ace Step 1.5 模型連接、您的提示的正面條件、中性負面條件和預分配的潛在長度執行實際擴散過程。它將噪音轉換為反映您的文本指令和歌詞的結構化潛在。對於快速構思,您可以保持運行時間保守,然後在鎖定概念時提升質量。相同的種子在不同的採樣選擇中保持一致的結構,以便您進行 A/B 對比。
VAEDecodeAudio (#18)
採樣後,這個節點使用 Ace Step 1.5 VAE 將潛在音頻表示轉回時域波形。它保留了編碼期間規劃的音樂形式,同時平滑擴散期間引入的細節。輸出是一個準備導出的全頻帶音頻信號。
SaveAudioMP3 (#104)
最後,波形被寫入您的標準 ComfyUI 輸出中的 MP3 文件。選擇適合目標的比特率並進行渲染。這樣可以讓您獲得一個緊湊的可共享文件,同時保持原始潛在可用於重新運行,如果您調整提示或種子。
Comfyui Ace Step 1.5 工作流程中的關鍵節點
TextEncodeAceStepAudio1.5 (#94)
將您的創意簡報和歌詞轉換為 Ace Step 1.5 理解的條件。為了控制,調整語言、音樂調和節奏以引導措辭和和聲,並在您需要更多或更少形式變化時設置段落結構。使用描述性製作筆記,如流派、情緒和混音提示來錨定風格。保持歌詞簡潔且有節奏以改善聲樂措辭。
KSampler (#3)
驅動將規劃轉換為音頻潛在的擴散過程。增加步驟以獲得更多細節和穩定性,或減少步驟以獲得非常快速的預覽。如果您需要不同的瞬間行為,可以嘗試替代的採樣方法,然後保持種子不變以進行公平的比較。提高引導強度以更緊密地遵循您的 Ace Step 1.5 提示,降低它以獲得更自由的即興創作。
EmptyAceStep1.5LatentAudio (#98)
將目標歌曲長度分配為潛在張量,以便每個下游階段都在相同的持續時間上工作。將此設置為您希望在最終渲染中得到的秒數。較長的潛在需要更多計算,並可能從稍高的採樣器質量設置中受益。
ModelSamplingAuraFlow (#78)
附加了一個 Ace Step 1.5 兼容的採樣策略,平衡速度和音樂連貫性。當您需要響應迭代但仍保持全局結構完整時使用它。如果您嘗試不同的採樣器系列,請使用相同的種子來評估時間和瞬間如何改變。
SaveAudioMP3 (#104)
將解碼的波形導出為壓縮文件。選擇比特率以權衡大小和保真度以適合您的發佈或共享目的。對於存檔或混音,您可以在同一位置將其替換為 WAV 保存節點。
ConditioningZeroOut (#47)
提供中性負面條件,這是歌詞驅動的音樂生成的安全默認設置。如果您需要明確的排除項,例如無聲樂或更少的高頻工件,請用自定義的負面提示替換它。保持正面和負面指令在概念上明確區分以避免衝突。
可選附加項
- 從 30-60 秒開始驗證風格,然後延長持續時間以完成曲目,同時保持種子不變。
- 對於 Ace Step 1.5 的器樂曲,請在提示中明確指出或在負面提示路徑中放置 "no vocals"。
- 將歌詞視為可唱的行,具有自然的措辭和一致的音節數,以改善聲樂效果。
- 保存有潛力的種子以及提示,以便您可以在不丟失歌曲身份的情況下稍後重訪和升級。
有用的參考資料:GitHub 上的 ComfyUI 項目以獲取一般使用信息 ComfyUI 和 Hugging Face 上的 Ace Step 1.5 ComfyUI 文件以獲取檢查點和資產 Comfy-Org/ace_step_1.5_ComfyUI_files。
致謝
此工作流程實現並建立在以下作品和資源之上。我們感謝 Comfy.org 為 Ace Step 1.5 工作流程作出的貢獻和維護。有關權威細節,請參閱下面鏈接的原始文檔和存儲庫。
資源
- Comfy.org/Ace Step 1.5 Workflow Source
- 文檔 / 發布說明:Ace Step 1.5 is now available in ComfyUI
注意:引用模型、數據集和代碼的使用需遵循其作者和維護者提供的相應許可和條款。

