ACE-Step 音乐生成 | AI 音频创作
ACE-Step 是一种突破性的开源音乐生成基础模型,弥合了生成速度和音乐质量之间的差距。通过将基于扩散的生成与 Sana 的深度压缩自动编码器和轻量级线性变压器相结合,它能够在短短 20 秒内合成长达 4 分钟的高质量音乐——速度比基于 LLM 的替代方案快 15 倍。该模型在保持音乐连贯性的同时,还提供对歌词、语音克隆和混音功能的高级控制。ComfyUI ACE-Step 工作流程
ComfyUI ACE-Step 示例
ComfyUI ACE-Step 描述
1. 什么是 ComfyUI ACE-Step 工作流程?
ComfyUI ACE-Step 将新开发的 ACE-Step 音乐生成基础模型集成到 ComfyUI 环境中。基于结合了扩散生成、Sana 的深度压缩自动编码器 (DCAE) 和轻量级线性变压器的混合架构,ACE-Step 实现了超快速的高质量音乐生成,并具有出色的控制能力。此工作流程允许用户使用简单的自然语言提示和歌词创建跨多种流派和风格的原创音乐。
2. ComfyUI ACE-Step 的优势:
- 前所未有的速度: 仅需 20 秒即可合成长达 4 分钟的音乐——比基于 LLM 的替代方案快 15 倍
- 音乐连贯性: ACE-Step 在旋律、和声和节奏维度上保持卓越的质量
- 多语言支持: 以 19 种不同语言生成音乐,在前 10 种语言中表现出色
- 高级控制: 支持语音克隆、歌词编辑、混音和轨道生成,具有精细参数
- 创意灵活性: 支持各种音乐风格、流派和乐器,具有多种描述格式
- 无缝集成: 直接插入 ComfyUI 工作流程,实现 AI 驱动的音频创作
3. 如何使用 ComfyUI ACE-Step 工作流程
3.1 使用 ComfyUI ACE-Step 的生成方法
ACE-Step 的示例设置:
- 准备输入:
在
TextEncodeAceStepAudio
节点中:- 添加音乐风格的描述标签(例如,"country rock, folk rock, southern rock, bluegrass, pop")
- 输入带有结构标签的歌词,如 [verse], [chorus], [bridge]
- 调整 lyrics_strength(默认值为 1.00)
- 配置
KSampler
节点参数:- 调整步骤(推荐 50 步用于 ACE-Step)
- 设置 cfg(默认值为 4.0)
- 设置去噪值(默认值为 1.00)
- 在
EmptyAceStepLatentAudio
节点中:- 设置所需的秒数持续时间(默认值为 30.0)
- 设置 batch_size
- 点击
Run
按钮运行 ACE-Step 工作流程 - 在
SaveAudio
节点中:收听或保存您生成的音乐
ACE-Step 核心生成工作流程
- 最佳用途: 从文本描述和歌词创建原创音乐
- 特点:
- 快速生成(比 LLM 替代方案快 15 倍)
- 强大的音乐连贯性和质量
- 灵活的持续时间控制
ACE-Step 专用工作流程(基于 LoRA)
- Lyric2Vocal: ACE-Step 模型经过微调,用于从歌词生成高质量的人声
- Text2Samples: 专门的 ACE-Step 变体,用于制作乐器循环和样本
- RapMachine: 优化的 ACE-Step 模型,用于各种风格的说唱生成
3.2 ComfyUI ACE-Step 的参数参考
TextEncodeAceStepAudio 节点: 此节点处理文本输入以指导 ACE-Step 音乐生成。
clip
:用于风格描述、流派和情绪的文本字段lyrics
:带有可选结构标签的歌词文本字段lyrics_strength
:控制歌词对生成的影响强度(默认值:1.00)
KSampler 节点: 控制 ACE-Step 中的扩散采样过程。
seed
:设置随机化种子以获得可重复的结果control_after_generate
:生成后种子行为的选项steps
:扩散步骤数(步数越多,精炼程度越高)cfg
:无分类器引导尺度(值越高,对提示的依从性越强)sampler_name
:用于采样的算法(推荐 res_multistep)scheduler
:噪声计划类型(推荐 simple)denoise
:控制噪声去除水平(1.00 为完全去噪)
EmptyAceStepLatentAudio 节点: 初始化音频生成空间。
seconds
:生成音频的持续时间(以秒为单位)batch_size
:同时生成的样本数
VAEDecodeAudio 节点: 将潜在表示解码为可听格式。
samples
:来自 KSampler 的输入vae
:用于解码的 VAE 模型
SaveAudio 节点: 输出最终的 ACE-Step 音频结果。
filename_prefix
:保存音频文件的前缀audio
:用于预览生成音频的播放器
3.3. 使用 ComfyUI ACE-Step 的高级技术
变体生成:
- 调整方差参数以控制与原始 ACE-Step 生成的相似性
- 较高的方差会产生更多不同的输出,同时保留核心音乐元素
重绘:
- 选择性地再生成音频的特定部分,同时保留其余部分
- 适用于修复有问题的片段而不更改整个作品
ACE-Step 中的歌词编辑:
- 修改歌词,同时保持旋律、人声音色和伴奏
- 支持多语言编辑,同时保持音乐结构
语音克隆:
- 在生成新内容时保留人声特征
- 可以与歌词编辑结合使用,实现灵活的人声表演
风格转移:
- 将新的音乐风格应用于现有作品
- 在采用不同流派特征的同时保持核心音乐结构
3.4. ACE-Step 提示技巧:
对于通用音乐:
- 在 ACE-Step 提示中具体说明流派、情绪和乐器
- 示例提示:"electronic, rock, pop" 或 "funk, pop, soul, melodic"
- 更详细的提示:"dark, death rock, metal, hardcore, electric guitar, powerful, bass, drums, 110 bpm, G major"
对于器乐音乐:
- 指定乐器和音乐特征
- 示例提示:"saxophone, jazz" 或 "violin, solo, fast tempo"
- 更详细的提示:"sonata, piano, Violin, B Flat Major, allegro"
对于多语言支持:
- ACE-Step 在以下语言中效果最佳:英语、中文、俄语、西班牙语、日语、德语、法语、葡萄牙语、意大利语、韩语
- 像中文、日语和韩语这样的非拉丁文字语言支持良好
关于 ACE-Step 的更多信息
有关更多详细信息和开发参考:
- 的原始 ACE-Step 模型
- 模型开发者:Junmin Gong, Sean Zhao, Sen Wang, Shengyuan Xu, 和 Joe Guo
致谢
此工作流程由 ACE-Step 提供支持,由 ACE Studio 和 StepFun 共同开发。ComfyUI ACE-Step 集成 使得在 ComfyUI 环境中实现无缝的音乐生成。全体荣誉归于 ACE-Step 原作者的开创性工作。