ACE-Step 1.5XL 基础文本到音乐在 ComfyUI

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL 基础文本到音乐：ComfyUI 的提示到歌曲工作流#

此工作流使用 ACE-Step 1.5XL 基础扩散系列将自然语言描述转化为成品音频。它将基础模型与其 ACE Step VAE 和双 Qwen 文本编码器配对，以确保结果完全在音乐领域，而非 TTS 或语音。如果您想要具有可预测结构、节奏和乐器的提示驱动 AI 音乐，这个 ACE-Step 1.5XL 基础文本到音乐管道是一个专注的最小设置，可以快速从想法到 MP3。

专为制作人、声音设计师和创作者设计，图表强调清晰性：选择模型、设置时长、编写音乐提示，然后生成并保存。ACE-Step 1.5XL 基础文本到音乐工作流足够紧凑以实现快速迭代，同时在详细的编曲、键和节奏上保持表现力。

Comfyui ACE-Step 1.5XL 基础文本到音乐工作流中的关键模型#

ACE-Step 1.5 XL Base (bf16) 扩散模型。生成性的骨干，将音频潜在变量去噪成连贯的音乐短语和纹理。模型文件
ACE Step 1.5 VAE。配对的变分自编码器，在潜在空间和波形域之间进行编码/解码，保持音色和混音平衡。模型文件
Qwen 4B ACE15 文本编码器。为 ACE 适配的大型文本编码器，从提示中捕捉丰富的音乐语义、结构和编曲线索。模型文件
Qwen 0.6B ACE15 文本编码器。一个更轻量的 ACE 适配编码器，优先考虑速度和资源效率，同时保持强大的提示理解能力。模型文件

如何使用 Comfyui ACE-Step 1.5XL 基础文本到音乐工作流#

图表分为三个组，流入生成和导出：模型、时长和提示。您加载模型，选择目标长度，描述音乐，然后采样器创建潜在变量，VAE 解码为音频。

模型#

此组加载核心资产。UNETLoader (#104) 选择 ACE-Step 1.5 XL Base 扩散检查点，VAELoader (#106) 加载匹配的 ACE Step 1.5 VAE，以便解码质量与训练一致。DualCLIPLoader (#105) 引入两个 Qwen ACE15 编码器；工作流联合使用它们，因此丰富的文本提示转化为强大的音乐条件。

时长#

这里决定作品的长度。Song Duration (#99) 设置目标长度（秒），并向前传递，以便潜在画布和文本条件一致。PrimitiveInt (#109) 提供种子，让您锁定精确结果以实现可重复性，或进行变更以探索替代演绎。

提示#

这是语言变成音乐的地方。在 TextEncodeAceStepAudio1.5 (#94) 中编写您的描述，包括节奏（BPM）、拍号、调性、编排、乐器、编曲、声乐存在和混音笔记等有用的音乐元数据。节点发出积极的条件；ConditioningZeroOut (#47) 提供一个中性的负路径，以便生成保持专注于您的描述。EmptyAceStep1.5LatentAudio (#98) 初始化所选时长的潜在音频时间线。ModelSamplingAuraFlow (#78) 将基础模型适配为适合 ACE-Step 音频的调度器。KSampler (#3) 将模型、条件、潜在变量和种子结合生成音乐潜在变量。VAEDecodeAudio (#18) 将潜在变量转换回波形，SaveAudioMP3 (#107) 将结果写入 MP3 文件，准备分享。

Comfyui ACE-Step 1.5XL 基础文本到音乐工作流中的关键节点#

`TextEncodeAceStepAudio1.5` (#94)#

将您的提示转化为扩散模型可以遵循的条件。它接受音乐细节，如节奏、拍号、调性、编排笔记、乐器、语言和可选的声乐意图。为获得最佳效果，请具体说明流派、感觉和混音位置，并保持结构性提示简洁，以便模型在请求的时长内保持连贯性。

`EmptyAceStep1.5LatentAudio` (#98)#

为作品创建潜在音频“画布”。将其秒数与您在 Song Duration (#99) 中设置的时长匹配，并在文本编码器中引用，以避免意外截断或填充。较长的画布邀请更渐进的发展，而较短的画布适合循环、提示和片段。

`ModelSamplingAuraFlow` (#78)#

配置适合 ACE-Step 音频的采样策略。按提供的方式使用以获得稳定的结果；仅在您有特定的调度器偏好时调整，因为它与 KSampler (#3) 中的步数和指导交互。

`KSampler` (#3)#

执行将条件转化为音频潜在变量的去噪。这里的关键杠杆是采样器类型、步数和种子。增加步数以细化细节，代价是时间；比较提示时保持种子不变，以便将变化归因于文本而非随机性。

`DualCLIPLoader` (#105)#

加载两个 Qwen ACE15 文本编码器。如果您可以访问两者，请先激活 4B 编码器以获得更丰富的语言理解；当您需要更快的迭代或更低的内存使用时，切换到 0.6B 变体。在评估细微提示编辑时，保持编码器选择一致。

`ConditioningZeroOut` (#47)#

提供一个中性的负路径。如果您想抑制特定的伪影或远离语音内容，您可以用实际的负提示节点替换此项；否则，零负值保持 ACE-Step 1.5XL 基础文本到音乐生成专注于您的积极描述。

可选附加项#

使用紧凑的配方开始提示：流派 + 情绪 + 节奏 + 拍号 + 调性 + 乐器 + 编排 + 混音笔记。
使用明确的音乐动词和角色（主导、垫底、低音、打击乐），以便模型在混音中分配空间，避免语音内容。
在 A/B 测试提示时固定种子，然后变化种子以探索获胜想法的替代演绎。
在 Song Duration (#99)、TextEncodeAceStepAudio1.5 (#94) 和 EmptyAceStep1.5LatentAudio (#98) 中保持时长一致，以便预测短语。
选择 Qwen 4B 以获得更丰富的提示理解或 0.6B 以获得速度；在迭代时保持您的选择一致，以便进行公平比较。

致谢#

此工作流实现并建立在以下作品和资源之上。我们感谢 Comfy.org 为 audio_ace_step1_5_xl_base 工作流，Comfy-Org 为 ACE Step 1.5 XL Base 扩散模型和 ACE Step 1.5 VAE，以及 Qwen 团队为 0.6B 和 4B ACE15 文本编码器的贡献和维护。有关权威的详细信息，请参阅下面链接的原始文档和存储库。

资源#

Comfy.org/工作流源页面
- 文档 / 发布说明：audio_ace_step1_5_xl_base 工作流页面
Comfy-Org/ACE Step 1.5 XL Base 扩散模型
- Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
Comfy-Org/ACE Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/Qwen 0.6B ACE15 文本编码器
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/Qwen 4B ACE15 文本编码器
- Hugging Face: qwen_4b_ace15.safetensors

注意：使用所引用的模型、数据集和代码需遵守其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

ACE-Step 音乐生成 | AI 音频创作

利用突破性的扩散技术，生成录音室质量的音乐，速度提高 15 倍。

Ace Step 1.5 | 商业级AI音乐生成器

通过智能规划和扩散能力将文本转化为完整的歌曲。

Stable Audio Open 1.0 | 文本到音乐工具

将文本提示无缝快速地转化为电影音乐。

MMAudio | 视频到音频

MMAudio：用于高质量音频生成的先进视频到音频模型。

Woosh音效生成 | Text2Audio + VideoSync

将提示和视频转换为清晰同步的音频效果。

使用 Unsampling 的粘土风格

使用 Unsampling 方法将您的视频转换为粘土风格。

CHORD模型 | AI PBR纹理生成器

快速将图像转换为真实的PBR纹理贴图。

Qwen 图像编辑 | 精准 AI 照片编辑

通过风格、重新照明和对象控制精度快速编辑照片。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

ACE-Step 1.5XL 基础文本到音乐 | AI 音频生成器