ACE-Step 音樂生成 | AI 音頻創作
ACE-Step 是一個突破性的開源音樂生成基礎模型,在生成速度和音樂品質之間架起橋樑。通過結合基於擴散的生成與 Sana 的深度壓縮自編碼器和輕量級線性變壓器,僅需 20 秒即可合成長達 4 分鐘的高品質音樂——比基於 LLM 的替代方案快 15 倍。該模型在保持音樂連貫性方面表現出色,同時提供對歌詞、聲音克隆和混音功能的高級控制。ComfyUI ACE-Step 工作流程
ComfyUI ACE-Step 範例
ComfyUI ACE-Step 說明
1. ComfyUI ACE-Step 工作流程是什麼?
ComfyUI ACE-Step 將新開發的 ACE-Step 音樂生成基礎模型集成到 ComfyUI 環境中。基於混合架構,結合基於擴散的生成與 Sana 的深度壓縮自編碼器 (DCAE) 和輕量級線性變壓器,ACE-Step 使超快高品質音樂生成成為可能,並具有卓越的控制能力。此工作流程使用戶能夠通過簡單的自然語言提示和歌詞,在多種風格和類型中創作原創音樂。
2. ComfyUI ACE-Step 的優勢:
- 前所未有的速度: 僅需 20 秒即可合成長達 4 分鐘的音樂——比基於 LLM 的替代方案快 15 倍
- 音樂連貫性: ACE-Step 在旋律、和聲和節奏維度上保持卓越品質
- 多語言支持: 在 19 種不同語言中生成音樂,在前 10 種語言中表現尤為出色
- 高級控制: 能夠進行聲音克隆、歌詞編輯、混音和曲目生成,並擁有精細的參數控制
- 創意靈活性: 支持多樣的音樂風格、類型和樂器,並具有多種描述格式
- 無縫集成: 直接插入 ComfyUI 工作流程,實現 AI 驅動的音頻創作
3. 如何使用 ComfyUI ACE-Step 工作流程
3.1 ComfyUI ACE-Step 的生成方法
ACE-Step 的示例設置:
- 準備輸入:
在
TextEncodeAceStepAudio
節點中:- 為音樂風格添加描述標籤(例如,"country rock, folk rock, southern rock, bluegrass, pop")
- 輸入帶有結構標籤的歌詞,如 [verse], [chorus], [bridge]
- 調整 lyrics_strength(默認為 1.00)
- 配置
KSampler
節點參數:- 調整步驟(ACE-Step 推薦為 50)
- 設置 cfg(默認為 4.0)
- 設置去噪值(默認為 1.00)
- 在
EmptyAceStepLatentAudio
節點中:- 設置所需的秒數(默認為 30.0)
- 設置 batch_size
- 點擊
Run
按鈕運行 ACE-Step 工作流程 - 在
SaveAudio
節點中:聆聽或保存您生成的音樂
ACE-Step 核心生成工作流程
- 最佳用途: 從文本描述和歌詞創作原創音樂
- 特徵:
- 快速生成(比 LLM 替代方案快 15 倍)
- 強大的音樂連貫性和品質
- 靈活的時間長度控制
ACE-Step 專業工作流程(基於 LoRA)
- Lyric2Vocal: ACE-Step 模型經過微調,可從歌詞生成高品質人聲
- Text2Samples: 專業的 ACE-Step 變體,用於生成樂器循環和樣本
- RapMachine: 為各種風格的說唱生成優化的 ACE-Step 模型
3.2 ComfyUI ACE-Step 的參數參考
TextEncodeAceStepAudio 節點: 此節點處理文本輸入以引導 ACE-Step 音樂生成。
clip
: 用於風格描述、類型和情緒的文本字段lyrics
: 用於歌曲歌詞的文本字段,帶有可選的結構標籤lyrics_strength
: 控制歌詞對生成的影響強度(默認:1.00)
KSampler 節點: 控制 ACE-Step 中的擴散採樣過程。
seed
: 設置隨機化種子以獲得可重現的結果control_after_generate
: 生成後種子行為的選項steps
: 擴散步驟數量(越高=精細化越多)cfg
: 無分類器指導比例(越高=越符合提示)sampler_name
: 用於採樣的算法(推薦使用 res_multistep)scheduler
: 噪音時程類型(推薦使用 simple)denoise
: 控制去噪程度(1.00 為完全去噪)
EmptyAceStepLatentAudio 節點: 初始化音頻生成空間。
seconds
: 生成音頻的持續時間(秒)batch_size
: 同時生成的樣本數量
VAEDecodeAudio 節點: 將潛在表示解碼為可聽格式。
samples
: 來自 KSampler 的輸入vae
: 用於解碼的 VAE 模型
SaveAudio 節點: 輸出最終的 ACE-Step 音頻結果。
filename_prefix
: 保存的音頻文件的前綴audio
: 用於預覽生成音頻的播放器
3.3. ComfyUI ACE-Step 的高級技術
變異生成:
- 調整方差參數以控制與原始 ACE-Step 生成的相似性
- 高方差創造更多不同的輸出,同時保留核心音樂元素
重繪:
- 有選擇地重新生成音頻的特定部分,同時保留其餘部分
- 用於修復有問題的片段而不改變整個作品
ACE-Step 中的歌詞編輯:
- 修改歌詞,同時保持旋律、聲音音色和伴奏
- 支持多語言編輯,同時保留音樂結構
聲音克隆:
- 保留聲音特徵,同時使用 ACE-Step 生成新內容
- 可以與歌詞編輯結合,用於靈活的聲音表演
風格轉移:
- 將新的音樂風格應用於現有作品
- 保留核心音樂結構,同時採用不同的類型特徵
3.4. ACE-Step 提示技巧:
針對一般音樂:
- 在 ACE-Step 提示中具體說明類型、情緒和樂器
- 示例提示:"electronic, rock, pop" 或 "funk, pop, soul, melodic"
- 更詳細的提示:"dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"
針對器樂音樂:
- 指定樂器和音樂特徵
- 示例提示:"saxophone, jazz" 或 "violin, solo, fast tempo"
- 更詳細的提示:"sonata, piano, Violin, B Flat Major, allegro"
多語言支持:
- ACE-Step 在以下語言中效果最佳:英語、中文、俄語、西班牙語、日語、德語、法語、葡萄牙語、意大利語、韓語
- 像中文、日語和韓語這樣的非拉丁文字語言支持良好
關於 ACE-Step 的更多信息
如需更多詳細信息和開發參考:
- 由 創建的原始 ACE-Step 模型
- 模型開發者:Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, 以及 Joe Guo
致謝
此工作流程由 ACE-Step 提供支持,由 ACE Studio 和 StepFun 共同開發。ComfyUI ACE-Step 集成 使得在 ComfyUI 環境中實現無縫音樂生成。全體榮譽歸於 ACE-Step 原始作者的開創性工作。