Ace Step 1.5文本到音乐工作流程用于ComfyUI
此模板将简短的创意简报和可选歌词通过Ace Step 1.5转化为完成的MP3。它专为希望通过文本快速生成高质量歌曲的音乐家、制作人和创作者设计,具有连贯的结构、声乐和风格控制。工作流程专注于直接的文本到音乐路径,因此您可以在一次传递中从想法转化为音频。
Ace Step 1.5将规划模块与扩散变压器配对,以提供商业级的音乐连续性,同时仍然足够轻量以适用于日常硬件。在此ComfyUI图中,Ace Step 1.5接受风格提示加上歌词,规划编排,合成潜在音频表示,随后解码并保存为可共享的文件。
Comfyui Ace Step 1.5工作流程中的关键模型
- Ace Step 1.5 Turbo AIO检查点。基础模型将文本和歌词映射到音乐,并处理音频域中的基于扩散的合成。可在Hugging Face的Comfy-Org作为ComfyUI文件集的一部分获取:Comfy-Org/ace_step_1.5_ComfyUI_files。
- Ace Step 1.5文本编码器。随检查点一起打包,用于将您的散文提示和可选歌词转换为生成器的条件。在图中通过
TextEncodeAceStepAudio1.5节点展示。 - Ace Step 1.5音频VAE。也在检查点中打包,用于将合成的潜在音频解码为时间域波形以导出。
如何使用Comfyui Ace Step 1.5工作流程
在高层次上,您加载Ace Step 1.5模型,选择歌曲持续时间,描述音乐并粘贴歌词,然后运行采样以合成并解码为MP3。
步骤1 - 加载模型
此组通过CheckpointLoaderSimple (#97)初始化核心资产。选择Ace Step 1.5 Turbo AIO文件加载模型、其文本编码器和音频VAE一步到位。ModelSamplingAuraFlow (#78)节点附加了Ace Step 1.5兼容的采样配置,以便下游的KSampler可以按预期的算法运行。设置好这一点后,其余的工作流程可以完全由您的提示和持续时间驱动。
步骤2 - 持续时间
这里,Song Duration (#99)控制将秒数传递给EmptyAceStep1.5LatentAudio (#98),该控制为轨道预分配目标潜在长度。设置较短的长度非常适合快速构思和风格检查,而较长的值则让Ace Step 1.5规划更完整的部分。持续时间向前流动,以便编码器和采样器就生成多少结构达成一致。如果您后来延长歌曲,请保持相同的种子以保留氛围和主题。
步骤3 - 提示
使用TextEncodeAceStepAudio1.5 (#94)描述风格、情绪、器乐和制作说明,并可选地粘贴歌词。Ace Step 1.5读取这些内容以规划旋律、和声、节奏和声乐措辞,确保段落连贯。seed (#102)行使结果可重复或随机化,随您所愿。ConditioningZeroOut (#47)发送一个中性的负条件以减少冲突,通常是音乐输出的不错默认值。如果您想要更严格的负提示,请用您自己的负文本路径替换该节点。
KSampler (#3)
此节点使用来自ModelSamplingAuraFlow (#78)的Ace Step 1.5模型连接、您的提示的正向条件、中性负条件和预分配的潜在长度执行实际的扩散过程。它将噪声转化为反映您的文本指令和歌词的结构化潜在体。对于快速构思,您可以保持运行时间保守,然后在锁定概念时提高质量。相同的种子在不同的采样器选择中保持一致的结构,因此您可以进行A/B比较。
VAEDecodeAudio (#18)
采样后,此节点使用Ace Step 1.5 VAE将潜在音频表示转换回时间域波形。它保留了编码期间规划的音乐形式,同时平滑扩散过程中引入的细节。输出是一个全频段音频信号,准备好导出。
SaveAudioMP3 (#104)
最后,波形被写入您的标准ComfyUI输出中的MP3文件。选择适合目标的比特率并渲染。这为您提供了一个紧凑的可共享文件,同时保留了原始潜在文件以供重新运行,如果您调整提示或种子。
Comfyui Ace Step 1.5工作流程中的关键节点
TextEncodeAceStepAudio1.5 (#94)
将您的创意简报和歌词转化为Ace Step 1.5能够理解的条件。为了控制,调整语言、音乐调和节奏以指导措辞和和声,并在您需要更多或更少形式变化时设置段落结构。使用描述性的制作说明,如流派、情绪和混音提示来锚定风格。保持歌词简洁和有节奏,以改善声乐措辞。
KSampler (#3)
驱动将规划转化为音频潜在体的扩散过程。增加步骤以增加细节和稳定性,或减少步骤以进行非常快速的预览。如果您想要不同的瞬态行为,尝试替代采样器方法,然后保持种子固定以确保比较公平。提高指导强度以更严格地遵循您的Ace Step 1.5提示,降低它以获得更自由的即兴演奏。
EmptyAceStep1.5LatentAudio (#98)
分配目标歌曲长度为潜在张量,以便每个下游阶段都在相同的持续时间上工作。将此设置为您在最终渲染中希望的秒数。较长的潜在体需要更多的计算,可能会受益于采样器中稍高的质量设置。
ModelSamplingAuraFlow (#78)
附加了Ace Step 1.5兼容的采样策略,平衡速度和音乐连贯性。当您希望响应迭代仍保持整体结构完整时使用它。如果您尝试不同的采样器系列,请使用相同的种子来评估时间和瞬态的变化。
SaveAudioMP3 (#104)
将解码的波形导出为压缩文件。选择比特率以针对您的发布或共享目的在大小和保真度之间进行权衡。对于存档或混音,您可以在相同位置将其替换为WAV保存节点。
ConditioningZeroOut (#47)
提供中性的负条件,这是一个安全的默认设置,用于歌词驱动的音乐生成。如果您需要明确的排除项,如无声乐或较少的高频伪影,请用自定义负提示替换它。保持正负指令在概念上截然不同以避免冲突。
可选附加功能
- 从30–60秒开始验证风格,然后延长持续时间以完成轨道,同时保持种子固定。
- 对于Ace Step 1.5的器乐作品,请在提示中明确说明或在负提示路径中加入“无声乐”。
- 将歌词视为可唱的台词,具有自然的措辞和一致的音节数,以改善声乐效果。
- 保存有前途的种子及其提示,以便您以后可以不丢失歌曲特性的情况下重新访问和升级。
有用的参考:ComfyUI项目在GitHub上的一般使用信息 ComfyUI 和Hugging Face上的Ace Step 1.5 ComfyUI文件以获取检查点和资产 Comfy-Org/ace_step_1.5_ComfyUI_files。
致谢
此工作流程实现并建立在以下作品和资源的基础上。我们感谢Comfy.org为Ace Step 1.5工作流程做出的贡献和维护。有关权威细节,请参阅下面链接的原始文档和存储库。
资源
- Comfy.org/Ace Step 1.5工作流程来源
- 文档 / 发布说明:Ace Step 1.5现在在ComfyUI中可用
注意:引用的模型、数据集和代码的使用受其作者和维护者提供的各自许可证和条款的约束。

