ComfyUI>工作流>Stable Audio 3.0 Medium Base | 文本到音乐生成器

Stable Audio 3.0 Medium Base | 文本到音乐生成器

Workflow Name: RunComfy/Stable-Audio-3-Medium
Workflow ID: 0000...1435
通过此官方音频生成设置,您可以将文本提示转换为富有表现力的高质量音乐和环境音频。它支持延长播放时间、平滑的音调过渡和灵活的声音分层。非常适合声音设计师、音乐家或实验文本到音频生成的开发人员。工作流程使用 T5Gemma 和 Qwen3.5 编码器来提高提示准确性和输出质量。其可重复的结构确保专业音频项目的一致创意结果。

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

Stable Audio 3.0 Medium Base 在 ComfyUI 中的长文本到音频工作流程#

此 Stable Audio 3.0 Medium Base 工作流程将短文本想法转化为更长、更具音乐感的立体声音频。它围绕 stable_audio_3_medium_base 检查点构建,使用 T5-Gemma 和 Qwen3.5 文本编码器来提供以提示为驱动的音乐草图、环境床、音效和单次声音,并在 ComfyUI 中具有可重复的设置。

图中包括一个可选的类别感知重提示系统,可以在合成之前将您的简短想法扩展为密集、生产就绪的提示。您选择类别、时长和种子,然后管道条件稳定音频3并生成音频,保存为 MP3。工作流程遵循 Comfy-Org 为 Stable Audio 3.0 Medium Base 提供的官方模板和资产。请参阅 Comfy-Org/workflow_templatesComfy-Org/stable-audio-3 上的参考模板和模型。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的关键模型#

  • Stable Audio 3 Medium Base 检查点。核心生成模型,从文本条件和潜在变量合成立体声音频。来源:Comfy-Org/stable-audio-3
  • T5-Gemma Base UL2 文本编码器。生成用于条件 Stable Audio 3 的正负提示的文本嵌入。打包的文本编码器文件包含在 Stable Audio 3 存储库的 text_encoders 文件夹下:Comfy-Org/stable-audio-3
  • Qwen3.5 2B 文本模型。驱动可选的类别感知重提示,将简短想法扩展为详细的音乐、乐器、音效或单次描述。来源:Comfy-Org/Qwen3.5

如何使用 Comfyui Stable Audio 3.0 Medium Base 工作流程#

在高层次上,您提供一个简短的想法和目标持续时间。图可以保持您的文字不变,或使用 Qwen3.5 通过类别模板重写它们。结果被编码为条件,由 Stable Audio 3 采样,解码为音频并保存。

用户输入:提示和持续时间#

子图 Audio Generation (Stable Audio 3 Medium Base) (#52) 暴露 user_inputdurationseeduse_repromptcategory。用简单的语言写一个简短的想法,例如风格、乐器列表、情绪和可选的 BPM。选择以秒为单位的剪辑长度并设置 seed 以实现可重复性或变化。当您希望进行模板驱动的重写时,打开 use_reprompt,然后选择一个 category,例如音乐、乐器、音效或单次声音。

加载器:检查点和文本编码器#

CheckpointLoaderSimple (#25) 加载 stable_audio_3_medium_base.safetensors,提供稍后用于采样和解码的 MODELVAECLIPLoader (#26) 加载用于条件的 T5-Gemma 编码器。第二个 CLIPLoader (#29) 加载驱动重提示阶段的 Qwen3.5 模型。

重提示:JSON 模板和类别#

类别选择器 CustomCombo (#43) 将大量系统提示的 JSON 提供给 JsonExtractString (#49)。选择的模板由 Text Replace (PROMPT TEMPLATE) (#38) 插入到元提示中。您的 user_inputText Replace (USER INPUT) (#39) 注入,目标长度使用 Text Replace (AUDIO LENGTH) (#40) 插入,保持重写与您选择的持续时间一致。

重提示:Qwen TextGenerate#

TextGenerate (#28) 使用 Qwen3.5 将组装的模板加上您的想法转化为简洁、详细的提示,遵循类别特定规则。此阶段特别有助于较长的音乐结构和音效,其中具体的技术语言很重要。提示重写是可预览的,因此您可以快速迭代类别选择和措辞。

在原始和重写文本之间切换#

ComfySwitchNode (#34) 根据 use_reprompt 选择您的原始文本或 Qwen 生成的重写文本。打开它以获得结构化、长度匹配的重写,或关闭它以直接控制措辞。这个简单的开关使得 A/B 测试变得简单。

CLIP 编码:条件#

CLIPTextEncode (#6) 将选择的提示转换为驱动模型的正条件。默认情况下,第二个 CLIPTextEncode (#7) 提供中性负条件。这种配对为 Stable Audio 3 提供了清晰的指导,同时避免了意外的伪影。

音频生成:Stable Audio#

EmptyLatentAudio (#11) 创建一个音频潜在变量,其长度与 duration 匹配。KSampler (#3) 使用来自检查点的 Stable Audio 3 Medium Base MODEL 执行去噪过程。VAEDecodeAudio (#12) 将最终潜在变量转换为可听见的立体声波形。由于相同的 duration 也通知重提示,渲染的剪辑长度和重写文本保持同步。

保存和导出#

在子图之外,SaveAudioMP3 (#19) 将结果写入带有有用前缀的 MP3 文件以便于组织。批量生成具有不同 seed 值或类别的拍摄时使用此功能,然后试听并保留您喜欢的。

Comfyui Stable Audio 3.0 Medium Base 工作流程中的关键节点#

  • ComfySwitchNode (#34)。在原始 user_input 和 Qwen 生成的文本之间切换。打开它以获得结构化、长度匹配的重写,或关闭它以直接控制。
  • TextGenerate (#28)。使用类别特定的系统提示运行 Qwen3.5 以扩展想法。要自定义重写样式,请编辑 JsonExtractString (#49) 中的类别模板和相邻 Text Replace 节点中的粘合提示。
  • EmptyLatentAudio (#11)。设置剪辑长度。保持这与插入的 AUDIO_LENGTH 标记对齐,以便合成时间与文本意图匹配。
  • KSampler (#3)。管理稳定音频 3 的去噪轨迹。调整 seed 以获取变化,同时保持其他设置稳定,以便公平比较拍摄。
  • SaveAudioMP3 (#19)。控制输出文件名前缀和格式,以便从多次运行中快速构建库。

可选附加功能#

  • 从一两句想法开始,命名类型或来源、主要乐器或纹理以及情绪。重提示可以填充 BPM 和编排等细节。
  • 选择与您的目标匹配的类别:音乐用于完整曲目,乐器用于循环或干声,音效用于环境和动作,单次声音用于孤立的打击。
  • 为您的目标内容保持持续时间现实。非常长的剪辑计算量较大,您在迭代时可能受益于稳定的 seed
  • 当结果感觉拥挤时,禁用重提示并尝试更简单的短语,然后在您喜欢方向时重新启用它。
  • 为快速替代拍摄,保持所有设置不变,仅更改 seed

致谢#

此工作流程实现并构建在以下作品和资源之上。我们感谢 Comfy-Org 提供的 ComfyUI Stable Audio 3 Day-0 Support 文章,Comfy-Org 提供的官方 Stable Audio 3.0 Medium Base 工作流程模板,Comfy-Org 提供的 Stable Audio 3 模型文件,以及 Comfy-Org 提供的 Qwen3.5 编码器模型文件的贡献和维护。有关权威详情,请参阅下面链接的原始文档和存储库。

资源#

注意:使用参考的模型、数据集和代码需遵循其作者和维护者提供的相应许可证和条款。

RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。