Stable Audio 3.0 Medium Base 工作流程在 ComfyUI 中

ComfyUI Stable Audio 3.0 Medium Base workflow 工作流程

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio

想要运行这个工作流吗？

完全可操作的工作流
没有缺失的节点或模型
无需手动设置
具有惊艳的视觉效果

ComfyUI Stable Audio 3.0 Medium Base workflow 示例

Stable Audio 3.0 Medium Base 在 ComfyUI 中的长文本到音频工作流程#

此 Stable Audio 3.0 Medium Base 工作流程将短文本想法转化为更长、更具音乐感的立体声音频。它围绕 stable_audio_3_medium_base 检查点构建，使用 T5-Gemma 和 Qwen3.5 文本编码器来提供以提示为驱动的音乐草图、环境床、音效和单次声音，并在 ComfyUI 中具有可重复的设置。

图中包括一个可选的类别感知重提示系统，可以在合成之前将您的简短想法扩展为密集、生产就绪的提示。您选择类别、时长和种子，然后管道条件稳定音频3并生成音频，保存为 MP3。工作流程遵循 Comfy-Org 为 Stable Audio 3.0 Medium Base 提供的官方模板和资产。请参阅 Comfy-Org/workflow_templates 和 Comfy-Org/stable-audio-3 上的参考模板和模型。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的关键模型#

Stable Audio 3 Medium Base 检查点。核心生成模型，从文本条件和潜在变量合成立体声音频。来源：Comfy-Org/stable-audio-3。
T5-Gemma Base UL2 文本编码器。生成用于条件 Stable Audio 3 的正负提示的文本嵌入。打包的文本编码器文件包含在 Stable Audio 3 存储库的 text_encoders 文件夹下：Comfy-Org/stable-audio-3。
Qwen3.5 2B 文本模型。驱动可选的类别感知重提示，将简短想法扩展为详细的音乐、乐器、音效或单次描述。来源：Comfy-Org/Qwen3.5。

如何使用 Comfyui Stable Audio 3.0 Medium Base 工作流程#

在高层次上，您提供一个简短的想法和目标持续时间。图可以保持您的文字不变，或使用 Qwen3.5 通过类别模板重写它们。结果被编码为条件，由 Stable Audio 3 采样，解码为音频并保存。

用户输入：提示和持续时间#

子图 Audio Generation (Stable Audio 3 Medium Base) (#52) 暴露 user_input、duration、seed、use_reprompt 和 category。用简单的语言写一个简短的想法，例如风格、乐器列表、情绪和可选的 BPM。选择以秒为单位的剪辑长度并设置 seed 以实现可重复性或变化。当您希望进行模板驱动的重写时，打开 use_reprompt，然后选择一个 category，例如音乐、乐器、音效或单次声音。

加载器：检查点和文本编码器#

CheckpointLoaderSimple (#25) 加载 stable_audio_3_medium_base.safetensors，提供稍后用于采样和解码的 MODEL 和 VAE。CLIPLoader (#26) 加载用于条件的 T5-Gemma 编码器。第二个 CLIPLoader (#29) 加载驱动重提示阶段的 Qwen3.5 模型。

重提示：JSON 模板和类别#

类别选择器 CustomCombo (#43) 将大量系统提示的 JSON 提供给 JsonExtractString (#49)。选择的模板由 Text Replace (PROMPT TEMPLATE) (#38) 插入到元提示中。您的 user_input 由 Text Replace (USER INPUT) (#39) 注入，目标长度使用 Text Replace (AUDIO LENGTH) (#40) 插入，保持重写与您选择的持续时间一致。

重提示：Qwen TextGenerate#

TextGenerate (#28) 使用 Qwen3.5 将组装的模板加上您的想法转化为简洁、详细的提示，遵循类别特定规则。此阶段特别有助于较长的音乐结构和音效，其中具体的技术语言很重要。提示重写是可预览的，因此您可以快速迭代类别选择和措辞。

在原始和重写文本之间切换#

ComfySwitchNode (#34) 根据 use_reprompt 选择您的原始文本或 Qwen 生成的重写文本。打开它以获得结构化、长度匹配的重写，或关闭它以直接控制措辞。这个简单的开关使得 A/B 测试变得简单。

CLIP 编码：条件#

CLIPTextEncode (#6) 将选择的提示转换为驱动模型的正条件。默认情况下，第二个 CLIPTextEncode (#7) 提供中性负条件。这种配对为 Stable Audio 3 提供了清晰的指导，同时避免了意外的伪影。

音频生成：Stable Audio#

EmptyLatentAudio (#11) 创建一个音频潜在变量，其长度与 duration 匹配。KSampler (#3) 使用来自检查点的 Stable Audio 3 Medium Base MODEL 执行去噪过程。VAEDecodeAudio (#12) 将最终潜在变量转换为可听见的立体声波形。由于相同的 duration 也通知重提示，渲染的剪辑长度和重写文本保持同步。

保存和导出#

在子图之外，SaveAudioMP3 (#19) 将结果写入带有有用前缀的 MP3 文件以便于组织。批量生成具有不同 seed 值或类别的拍摄时使用此功能，然后试听并保留您喜欢的。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的关键节点#

ComfySwitchNode (#34)。在原始 user_input 和 Qwen 生成的文本之间切换。打开它以获得结构化、长度匹配的重写，或关闭它以直接控制。
TextGenerate (#28)。使用类别特定的系统提示运行 Qwen3.5 以扩展想法。要自定义重写样式，请编辑 JsonExtractString (#49) 中的类别模板和相邻 Text Replace 节点中的粘合提示。
EmptyLatentAudio (#11)。设置剪辑长度。保持这与插入的 AUDIO_LENGTH 标记对齐，以便合成时间与文本意图匹配。
KSampler (#3)。管理稳定音频 3 的去噪轨迹。调整 seed 以获取变化，同时保持其他设置稳定，以便公平比较拍摄。
SaveAudioMP3 (#19)。控制输出文件名前缀和格式，以便从多次运行中快速构建库。

可选附加功能#

从一两句想法开始，命名类型或来源、主要乐器或纹理以及情绪。重提示可以填充 BPM 和编排等细节。
选择与您的目标匹配的类别：音乐用于完整曲目，乐器用于循环或干声，音效用于环境和动作，单次声音用于孤立的打击。
为您的目标内容保持持续时间现实。非常长的剪辑计算量较大，您在迭代时可能受益于稳定的 seed。
当结果感觉拥挤时，禁用重提示并尝试更简单的短语，然后在您喜欢方向时重新启用它。
为快速替代拍摄，保持所有设置不变，仅更改 seed。

致谢#

此工作流程实现并构建在以下作品和资源之上。我们感谢 Comfy-Org 提供的 ComfyUI Stable Audio 3 Day-0 Support 文章，Comfy-Org 提供的官方 Stable Audio 3.0 Medium Base 工作流程模板，Comfy-Org 提供的 Stable Audio 3 模型文件，以及 Comfy-Org 提供的 Qwen3.5 编码器模型文件的贡献和维护。有关权威详情，请参阅下面链接的原始文档和存储库。

资源#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support 文章
- 文档 / 发布说明：Stable Audio 3 Day-0 Support
Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 模型文件
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 编码器模型文件
- Hugging Face: Comfy-Org/Qwen3.5

注意：使用参考的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | 文本到音乐工具

将文本提示无缝快速地转化为电影音乐。

ACE-Step 音乐生成 | AI 音频创作

利用突破性的扩散技术，生成录音室质量的音乐，速度提高 15 倍。

Ace Step 1.5 | 商业级AI音乐生成器

通过智能规划和扩散能力将文本转化为完整的歌曲。

ACE-Step 1.5XL 基础文本到音乐 | AI 音频生成器

即时将您的文本转化为纯 AI 创作的音乐。

ACE-Step 1.5XL Turbo comfyui 工作流 | 文本到音乐生成器

快速清晰地将您的文本转化为精彩的音乐。

Qwen Image Edit Plus 2511 LoRA 推断 | AI Toolkit ComfyUI

使用单个 RCQwenImageEditPlus2511 自定义节点，在 ComfyUI 预览中保持 AI Toolkit 训练的 Qwen Image Edit Plus 2511 LoRA 编辑对齐。

Z-Image | 快速逼真的基础模型

超快速图像生成器，具有惊人的清晰度和完全控制。

Flux一致角色

简化AI角色创建并确保外观一致。

关注我们

支持

资源

法律

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Stable Audio 3.0 Medium Base | 文本到音乐生成器