ACE-Step 音樂生成模型在 ComfyUI

1. ComfyUI ACE-Step 工作流程是什麼？

ComfyUI ACE-Step 將新開發的 ACE-Step 音樂生成基礎模型集成到 ComfyUI 環境中。基於混合架構，結合基於擴散的生成與 Sana 的深度壓縮自編碼器 (DCAE) 和輕量級線性變壓器，ACE-Step 使超快高品質音樂生成成為可能，並具有卓越的控制能力。此工作流程使用戶能夠通過簡單的自然語言提示和歌詞，在多種風格和類型中創作原創音樂。

2. ComfyUI ACE-Step 的優勢：

前所未有的速度： 僅需 20 秒即可合成長達 4 分鐘的音樂——比基於 LLM 的替代方案快 15 倍
音樂連貫性： ACE-Step 在旋律、和聲和節奏維度上保持卓越品質
多語言支持： 在 19 種不同語言中生成音樂，在前 10 種語言中表現尤為出色
高級控制： 能夠進行聲音克隆、歌詞編輯、混音和曲目生成，並擁有精細的參數控制
創意靈活性： 支持多樣的音樂風格、類型和樂器，並具有多種描述格式
無縫集成： 直接插入 ComfyUI 工作流程，實現 AI 驅動的音頻創作

3. 如何使用 ComfyUI ACE-Step 工作流程

3.1 ComfyUI ACE-Step 的生成方法

ACE-Step 的示例設置：

準備輸入：在 TextEncodeAceStepAudio 節點中：
- 為音樂風格添加描述標籤（例如，"country rock, folk rock, southern rock, bluegrass, pop"）
- 輸入帶有結構標籤的歌詞，如 [verse], [chorus], [bridge]
- 調整 lyrics_strength（默認為 1.00）
配置 KSampler 節點參數：
- 調整步驟（ACE-Step 推薦為 50）
- 設置 cfg（默認為 4.0）
- 設置去噪值（默認為 1.00）
在 EmptyAceStepLatentAudio 節點中：
- 設置所需的秒數（默認為 30.0）
- 設置 batch_size
點擊 Run 按鈕運行 ACE-Step 工作流程
在 SaveAudio 節點中：聆聽或保存您生成的音樂

ACE-Step 核心生成工作流程

最佳用途： 從文本描述和歌詞創作原創音樂
特徵：
- 快速生成（比 LLM 替代方案快 15 倍）
- 強大的音樂連貫性和品質
- 靈活的時間長度控制

ACE-Step 專業工作流程（基於 LoRA）

Lyric2Vocal： ACE-Step 模型經過微調，可從歌詞生成高品質人聲
Text2Samples： 專業的 ACE-Step 變體，用於生成樂器循環和樣本
RapMachine： 為各種風格的說唱生成優化的 ACE-Step 模型

3.2 ComfyUI ACE-Step 的參數參考

TextEncodeAceStepAudio 節點： 此節點處理文本輸入以引導 ACE-Step 音樂生成。

clip: 用於風格描述、類型和情緒的文本字段
lyrics: 用於歌曲歌詞的文本字段，帶有可選的結構標籤
lyrics_strength: 控制歌詞對生成的影響強度（默認：1.00）

KSampler 節點： 控制 ACE-Step 中的擴散採樣過程。

seed: 設置隨機化種子以獲得可重現的結果
control_after_generate: 生成後種子行為的選項
steps: 擴散步驟數量（越高=精細化越多）
cfg: 無分類器指導比例（越高=越符合提示）
sampler_name: 用於採樣的算法（推薦使用 res_multistep）
scheduler: 噪音時程類型（推薦使用 simple）
denoise: 控制去噪程度（1.00 為完全去噪）

EmptyAceStepLatentAudio 節點： 初始化音頻生成空間。

seconds: 生成音頻的持續時間（秒）
batch_size: 同時生成的樣本數量

VAEDecodeAudio 節點： 將潛在表示解碼為可聽格式。

samples: 來自 KSampler 的輸入
vae: 用於解碼的 VAE 模型

SaveAudio 節點： 輸出最終的 ACE-Step 音頻結果。

filename_prefix: 保存的音頻文件的前綴
audio: 用於預覽生成音頻的播放器

3.3. ComfyUI ACE-Step 的高級技術

變異生成：

調整方差參數以控制與原始 ACE-Step 生成的相似性
高方差創造更多不同的輸出，同時保留核心音樂元素

重繪：

有選擇地重新生成音頻的特定部分，同時保留其餘部分
用於修復有問題的片段而不改變整個作品

ACE-Step 中的歌詞編輯：

修改歌詞，同時保持旋律、聲音音色和伴奏
支持多語言編輯，同時保留音樂結構

聲音克隆：

保留聲音特徵，同時使用 ACE-Step 生成新內容
可以與歌詞編輯結合，用於靈活的聲音表演

風格轉移：

將新的音樂風格應用於現有作品
保留核心音樂結構，同時採用不同的類型特徵

3.4. ACE-Step 提示技巧：

針對一般音樂：

在 ACE-Step 提示中具體說明類型、情緒和樂器
示例提示："electronic, rock, pop" 或 "funk, pop, soul, melodic"
更詳細的提示："dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"

針對器樂音樂：

指定樂器和音樂特徵
示例提示："saxophone, jazz" 或 "violin, solo, fast tempo"
更詳細的提示："sonata, piano, Violin, B Flat Major, allegro"

多語言支持：

ACE-Step 在以下語言中效果最佳：英語、中文、俄語、西班牙語、日語、德語、法語、葡萄牙語、意大利語、韓語
像中文、日語和韓語這樣的非拉丁文字語言支持良好

關於 ACE-Step 的更多信息

如需更多詳細信息和開發參考：

由 ACE Studio and StepFun 創建的原始 ACE-Step 模型
模型開發者：Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, 以及 Joe Guo

致謝

此工作流程由 ACE-Step 提供支持，由 ACE Studio 和 StepFun 共同開發。ComfyUI ACE-Step 集成 使得在 ComfyUI 環境中實現無縫音樂生成。全體榮譽歸於 ACE-Step 原始作者的開創性工作。

Want More ComfyUI Workflows?

MMAudio | Video-to-Audio

MMAudio：先進的視頻到音頻模型，用於高品質音頻生成。

Sonic | 嘴形同步肖像動畫

Sonic為肖像提供高品質動畫的先進音頻驅動嘴形同步。

LatentSync| 唇同步模型

先進的音頻驅動唇同步技術。

MimicMotion | 人類動作視頻生成

使用 MimicMotion，通過參考圖像和動作序列生成高品質的人類動作視頻。

AnimateDiff + ControlNet | 卡通風格

讓您的視頻增添趣味性，將其轉換成生動的卡通。

Hunyuan LoRA

使用下載的 Hunyuan LoRA 在影片生成中控制風格和角色一致性。

Omni Kontext | 無縫場景整合

完美場景契合。獨特風格。身份不變。Kontext 保持真實。

Wan 2.1 影片重塑 | 一致的影片風格轉換

通過使用 Wan 2.1 影片重塑工作流程應用重塑的首幀來轉換您的影片風格。

關注我們

支持

資源

法律

RunComfy

RunComfy 是首選的 ComfyUI 平台，提供 ComfyUI 在線環境和服務，以及 ComfyUI 工作流程具有驚豔的視覺效果。 RunComfy還提供 AI Models, 幫助藝術家利用最新的AI工具創作出令人驚艷的藝術作品。

ACE-Step 音樂生成 | AI 音頻創作