此工作流使用 Stable Audio Open 1.0 将普通文本转化为原创音乐和音景。它专为作曲家、声音设计师和创作者设计,能够在不离开 ComfyUI 的情况下快速、可控地生成音频。您只需编写提示,设置目标时长,图表就会渲染一个反映您风格、情绪、节奏和配器的 MP3。
在后台,工作流使用基于 T5 的文本编码器对您的文本进行编码,在潜在音频空间中运行 Stable Audio 的扩散过程,然后解码为波形并保存结果。通过清晰的提示指导和简单的长度控制,Stable Audio 生成变得可预测且可重复,适用于电影、环境或实验性曲目。
图表从模型加载到提示调节,然后采样、解码和保存。组的组织使您可以一次设置模型,调整长度,编写提示并渲染。
此组初始化核心资产。CheckpointLoaderSimple (#4) 加载 Stable Audio Open 1.0 检查点,其中包括扩散模型及其音频 VAE。CLIPLoader (#10) 加载用于调节的基于 T5 的文本编码器。加载后,这些模型为 Stable Audio 生成提供了基础,并在后续运行中保持驻留。
此组定义音频的长度。EmptyLatentAudio (#11) 创建一个具有所选时长的空潜在轨道,以便采样器知道要生成多少帧。较长的片段会消耗更多时间和内存,因此请从适度开始,然后逐步扩展。通过增加批次维度来探索想法时,您还可以制作多个变体。
此组将文本转化为扩散过程的指导信号。使用 CLIPTextEncode (#6) 编写包含乐器、流派、情绪、节奏和制作提示的正面提示,例如:“华丽的电影管弦乐队,扫荡的弦乐和铜管乐器,深沉的打击乐,环境垫,90 BPM,振奋人心。”使用 CLIPTextEncode (#7) 编写负面提示以抑制伪影,例如“刺耳的噪音、剪辑、失真。”它们共同引导 Stable Audio 朝向您想要的纹理和结构。
KSampler (#3) 执行将空潜在变量转化为由文本编码指导的音乐潜在变量的扩散步骤。VAEDecodeAudio (#12) 将潜在音频转换回波形。最后,SaveAudioMP3 (#19) 写入一个 MP3 文件,以便您可以查看或直接拖入时间线。对于迭代工作,请调整文件名前缀以保持版本有序。
CLIPTextEncode (#6)
此节点将您的正面提示编码为 Stable Audio 遵循的调节。优先考虑清晰的乐器列表、流派、情绪、节奏或 BPM,以及诸如“温暖”、“低保真”、“电影”或“环境”之类的制作术语。微妙的措辞变化可以显著影响构图。请参阅 ComfyUI 核心节点以了解一般行为。ComfyUI
CLIPTextEncode (#7)
负面提示有助于避免不需要的音色或混音问题。添加描述要去除的术语,例如“刺耳的、金属响声、故障弹出、无线电嘶嘶声。”保持简洁通常会产生更清晰的 Stable Audio 渲染。ComfyUI
EmptyLatentAudio (#11)
控制片段的秒数和可选的批次计数以获得多种变体。增加秒数以获得较长的作品,注意计算随长度而缩放。使用批量生成可以从单个提示中试听多个 Stable Audio 版本。ComfyUI
KSampler (#3)
驱动音频潜在变量的扩散过程。最具影响力的控制是 steps、sampler、cfg 和 seed。提高 steps 以获得更精细的细节,调整 cfg 以平衡提示遵从性与创造性,并设置固定的 seed 以重现或改变想法。请参阅 ComfyUI 的采样器说明以获得一般指导。ComfyUI
SaveAudioMP3 (#19)
将最终波形导出为 MP3。使用 filename_prefix 给版本标记标签并保持迭代整洁。在比较提示或种子时,将多个版本并排保存可以更快地选择 Stable Audio。ComfyUI
seed,然后更改 seed 以探索新的 Stable Audio 变体。深入阅读的资源:Stable Audio 模型详细信息和示例 here,ComfyUI 核心和节点行为 here,以及 T5-Base 模型卡片 here。
此工作流实现并建立在以下作品和资源之上。我们感谢 Stability AI 提供的 Stable Audio Open,感谢 comfyanonymous (ComfyUI) 提供的 ComfyUI 节点和工作流参考,以及感谢 Comfy-Org 和 ComfyUI-Wiki 提供的 Stable Audio Open 1.0 检查点和 T5-Base 文本编码器的贡献和维护。有关权威细节,请参阅以下链接的原始文档和存储库。
注意:使用引用的模型、数据集和代码需遵守其作者和维护者提供的相应许可和条款。
RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Playground, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。