ACE-Step 音乐生成模型在 ComfyUI 中

1. 什么是 ComfyUI ACE-Step 工作流程？

ComfyUI ACE-Step 将新开发的 ACE-Step 音乐生成基础模型集成到 ComfyUI 环境中。基于结合了扩散生成、Sana 的深度压缩自动编码器 (DCAE) 和轻量级线性变压器的混合架构，ACE-Step 实现了超快速的高质量音乐生成，并具有出色的控制能力。此工作流程允许用户使用简单的自然语言提示和歌词创建跨多种流派和风格的原创音乐。

2. ComfyUI ACE-Step 的优势：

前所未有的速度： 仅需 20 秒即可合成长达 4 分钟的音乐——比基于 LLM 的替代方案快 15 倍
音乐连贯性： ACE-Step 在旋律、和声和节奏维度上保持卓越的质量
多语言支持： 以 19 种不同语言生成音乐，在前 10 种语言中表现出色
高级控制： 支持语音克隆、歌词编辑、混音和轨道生成，具有精细参数
创意灵活性： 支持各种音乐风格、流派和乐器，具有多种描述格式
无缝集成： 直接插入 ComfyUI 工作流程，实现 AI 驱动的音频创作

3. 如何使用 ComfyUI ACE-Step 工作流程

3.1 使用 ComfyUI ACE-Step 的生成方法

ACE-Step 的示例设置：

准备输入：在 TextEncodeAceStepAudio 节点中：
- 添加音乐风格的描述标签（例如，"country rock, folk rock, southern rock, bluegrass, pop"）
- 输入带有结构标签的歌词，如 [verse], [chorus], [bridge]
- 调整 lyrics_strength（默认值为 1.00）
配置 KSampler 节点参数：
- 调整步骤（推荐 50 步用于 ACE-Step）
- 设置 cfg（默认值为 4.0）
- 设置去噪值（默认值为 1.00）
在 EmptyAceStepLatentAudio 节点中：
- 设置所需的秒数持续时间（默认值为 30.0）
- 设置 batch_size
点击 Run 按钮运行 ACE-Step 工作流程
在 SaveAudio 节点中：收听或保存您生成的音乐

ACE-Step 核心生成工作流程

最佳用途： 从文本描述和歌词创建原创音乐
特点：
- 快速生成（比 LLM 替代方案快 15 倍）
- 强大的音乐连贯性和质量
- 灵活的持续时间控制

ACE-Step 专用工作流程（基于 LoRA）

Lyric2Vocal： ACE-Step 模型经过微调，用于从歌词生成高质量的人声
Text2Samples： 专门的 ACE-Step 变体，用于制作乐器循环和样本
RapMachine： 优化的 ACE-Step 模型，用于各种风格的说唱生成

3.2 ComfyUI ACE-Step 的参数参考

TextEncodeAceStepAudio 节点： 此节点处理文本输入以指导 ACE-Step 音乐生成。

clip：用于风格描述、流派和情绪的文本字段
lyrics：带有可选结构标签的歌词文本字段
lyrics_strength：控制歌词对生成的影响强度（默认值：1.00）

KSampler 节点： 控制 ACE-Step 中的扩散采样过程。

seed：设置随机化种子以获得可重复的结果
control_after_generate：生成后种子行为的选项
steps：扩散步骤数（步数越多，精炼程度越高）
cfg：无分类器引导尺度（值越高，对提示的依从性越强）
sampler_name：用于采样的算法（推荐 res_multistep）
scheduler：噪声计划类型（推荐 simple）
denoise：控制噪声去除水平（1.00 为完全去噪）

EmptyAceStepLatentAudio 节点： 初始化音频生成空间。

seconds：生成音频的持续时间（以秒为单位）
batch_size：同时生成的样本数

VAEDecodeAudio 节点： 将潜在表示解码为可听格式。

samples：来自 KSampler 的输入
vae：用于解码的 VAE 模型

SaveAudio 节点： 输出最终的 ACE-Step 音频结果。

filename_prefix：保存音频文件的前缀
audio：用于预览生成音频的播放器

3.3. 使用 ComfyUI ACE-Step 的高级技术

变体生成：

调整方差参数以控制与原始 ACE-Step 生成的相似性
较高的方差会产生更多不同的输出，同时保留核心音乐元素

重绘：

选择性地再生成音频的特定部分，同时保留其余部分
适用于修复有问题的片段而不更改整个作品

ACE-Step 中的歌词编辑：

修改歌词，同时保持旋律、人声音色和伴奏
支持多语言编辑，同时保持音乐结构

语音克隆：

在生成新内容时保留人声特征
可以与歌词编辑结合使用，实现灵活的人声表演

风格转移：

将新的音乐风格应用于现有作品
在采用不同流派特征的同时保持核心音乐结构

3.4. ACE-Step 提示技巧：

对于通用音乐：

在 ACE-Step 提示中具体说明流派、情绪和乐器
示例提示："electronic, rock, pop" 或 "funk, pop, soul, melodic"
更详细的提示："dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"

对于器乐音乐：

指定乐器和音乐特征
示例提示："saxophone, jazz" 或 "violin, solo, fast tempo"
更详细的提示："sonata, piano, Violin, B Flat Major, allegro"

对于多语言支持：

ACE-Step 在以下语言中效果最佳：英语、中文、俄语、西班牙语、日语、德语、法语、葡萄牙语、意大利语、韩语
像中文、日语和韩语这样的非拉丁文字语言支持良好

关于 ACE-Step 的更多信息

有关更多详细信息和开发参考：

ACE Studio 和 StepFun 的原始 ACE-Step 模型
模型开发者：Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, 和 Joe Guo

致谢

此工作流程由 ACE-Step 提供支持，由 ACE Studio 和 StepFun 共同开发。ComfyUI ACE-Step 集成 使得在 ComfyUI 环境中实现无缝的音乐生成。全体荣誉归于 ACE-Step 原作者的开创性工作。

Want More ComfyUI Workflows?

MMAudio | 视频到音频

MMAudio：用于高质量音频生成的先进视频到音频模型。

Sonic | 唇同步肖像动画

Sonic 为肖像提供高级音频驱动的唇同步，具备高质量的动画效果。

LatentSync| 口型同步模型

先进的音频驱动口型同步技术。

Flux Consistent Characters | Input Image

使用您的图像创建一致的角色，并确保它们看起来统一。

Flux Kontext 360 Degree LoRA

生成具有深度和空间控制的沉浸式 360 风格图像。

ComfyUI F5 TTS | 自然语音克隆引擎

将文字转换为丰富且富有表现力的声音，具有自然的音调控制。

CHORD模型 | AI PBR纹理生成器

快速将图像转换为真实的PBR纹理贴图。

HunyuanCustom | 多主体视频生成器

创建具有卓越身份保留能力的双主体视频。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

ACE-Step 音乐生成 | AI 音频创作