logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>工作流>ACE-Step 1.5XL 基础文本到音乐 | AI 音频生成器

ACE-Step 1.5XL 基础文本到音乐 | AI 音频生成器

Workflow Name: RunComfy/ACE-Step-1.5XL-Base-text-to-music
Workflow ID: 0000...1396
此工作流让您可以使用集成的扩散设置从文本提示中创建复杂的音乐作品。基于 ACE-Step 1.5XL 基础模型,它结合了先进的 VAE 和 Qwen 编码器,以创建清晰、结构化的音频。您可以无需编辑或后期处理即可生成可用的高质量音乐。它完全专注于音乐生成,而非语音或 TTS。适合寻求自定义文本驱动音频结果的设计师、创作者和声音工程师。

ACE-Step 1.5XL 基础文本到音乐:ComfyUI 的提示到歌曲工作流

此工作流使用 ACE-Step 1.5XL 基础扩散系列将自然语言描述转化为成品音频。它将基础模型与其 ACE Step VAE 和双 Qwen 文本编码器配对,以确保结果完全在音乐领域,而非 TTS 或语音。如果您想要具有可预测结构、节奏和乐器的提示驱动 AI 音乐,这个 ACE-Step 1.5XL 基础文本到音乐管道是一个专注的最小设置,可以快速从想法到 MP3。

专为制作人、声音设计师和创作者设计,图表强调清晰性:选择模型、设置时长、编写音乐提示,然后生成并保存。ACE-Step 1.5XL 基础文本到音乐工作流足够紧凑以实现快速迭代,同时在详细的编曲、键和节奏上保持表现力。

Comfyui ACE-Step 1.5XL 基础文本到音乐工作流中的关键模型

  • ACE-Step 1.5 XL Base (bf16) 扩散模型。生成性的骨干,将音频潜在变量去噪成连贯的音乐短语和纹理。模型文件
  • ACE Step 1.5 VAE。配对的变分自编码器,在潜在空间和波形域之间进行编码/解码,保持音色和混音平衡。模型文件
  • Qwen 4B ACE15 文本编码器。为 ACE 适配的大型文本编码器,从提示中捕捉丰富的音乐语义、结构和编曲线索。模型文件
  • Qwen 0.6B ACE15 文本编码器。一个更轻量的 ACE 适配编码器,优先考虑速度和资源效率,同时保持强大的提示理解能力。模型文件

如何使用 Comfyui ACE-Step 1.5XL 基础文本到音乐工作流

图表分为三个组,流入生成和导出:模型、时长和提示。您加载模型,选择目标长度,描述音乐,然后采样器创建潜在变量,VAE 解码为音频。

模型

此组加载核心资产。UNETLoader (#104) 选择 ACE-Step 1.5 XL Base 扩散检查点,VAELoader (#106) 加载匹配的 ACE Step 1.5 VAE,以便解码质量与训练一致。DualCLIPLoader (#105) 引入两个 Qwen ACE15 编码器;工作流联合使用它们,因此丰富的文本提示转化为强大的音乐条件。

时长

这里决定作品的长度。Song Duration (#99) 设置目标长度(秒),并向前传递,以便潜在画布和文本条件一致。PrimitiveInt (#109) 提供种子,让您锁定精确结果以实现可重复性,或进行变更以探索替代演绎。

提示

这是语言变成音乐的地方。在 TextEncodeAceStepAudio1.5 (#94) 中编写您的描述,包括节奏(BPM)、拍号、调性、编排、乐器、编曲、声乐存在和混音笔记等有用的音乐元数据。节点发出积极的条件;ConditioningZeroOut (#47) 提供一个中性的负路径,以便生成保持专注于您的描述。EmptyAceStep1.5LatentAudio (#98) 初始化所选时长的潜在音频时间线。ModelSamplingAuraFlow (#78) 将基础模型适配为适合 ACE-Step 音频的调度器。KSampler (#3) 将模型、条件、潜在变量和种子结合生成音乐潜在变量。VAEDecodeAudio (#18) 将潜在变量转换回波形,SaveAudioMP3 (#107) 将结果写入 MP3 文件,准备分享。

Comfyui ACE-Step 1.5XL 基础文本到音乐工作流中的关键节点

TextEncodeAceStepAudio1.5 (#94)

将您的提示转化为扩散模型可以遵循的条件。它接受音乐细节,如节奏、拍号、调性、编排笔记、乐器、语言和可选的声乐意图。为获得最佳效果,请具体说明流派、感觉和混音位置,并保持结构性提示简洁,以便模型在请求的时长内保持连贯性。

EmptyAceStep1.5LatentAudio (#98)

为作品创建潜在音频“画布”。将其秒数与您在 Song Duration (#99) 中设置的时长匹配,并在文本编码器中引用,以避免意外截断或填充。较长的画布邀请更渐进的发展,而较短的画布适合循环、提示和片段。

ModelSamplingAuraFlow (#78)

配置适合 ACE-Step 音频的采样策略。按提供的方式使用以获得稳定的结果;仅在您有特定的调度器偏好时调整,因为它与 KSampler (#3) 中的步数和指导交互。

KSampler (#3)

执行将条件转化为音频潜在变量的去噪。这里的关键杠杆是采样器类型、步数和种子。增加步数以细化细节,代价是时间;比较提示时保持种子不变,以便将变化归因于文本而非随机性。

DualCLIPLoader (#105)

加载两个 Qwen ACE15 文本编码器。如果您可以访问两者,请先激活 4B 编码器以获得更丰富的语言理解;当您需要更快的迭代或更低的内存使用时,切换到 0.6B 变体。在评估细微提示编辑时,保持编码器选择一致。

ConditioningZeroOut (#47)

提供一个中性的负路径。如果您想抑制特定的伪影或远离语音内容,您可以用实际的负提示节点替换此项;否则,零负值保持 ACE-Step 1.5XL 基础文本到音乐生成专注于您的积极描述。

可选附加项

  • 使用紧凑的配方开始提示:流派 + 情绪 + 节奏 + 拍号 + 调性 + 乐器 + 编排 + 混音笔记。
  • 使用明确的音乐动词和角色(主导、垫底、低音、打击乐),以便模型在混音中分配空间,避免语音内容。
  • 在 A/B 测试提示时固定种子,然后变化种子以探索获胜想法的替代演绎。
  • 在 Song Duration (#99)、TextEncodeAceStepAudio1.5 (#94) 和 EmptyAceStep1.5LatentAudio (#98) 中保持时长一致,以便预测短语。
  • 选择 Qwen 4B 以获得更丰富的提示理解或 0.6B 以获得速度;在迭代时保持您的选择一致,以便进行公平比较。

致谢

此工作流实现并建立在以下作品和资源之上。我们感谢 Comfy.org 为 audio_ace_step1_5_xl_base 工作流,Comfy-Org 为 ACE Step 1.5 XL Base 扩散模型和 ACE Step 1.5 VAE,以及 Qwen 团队为 0.6B 和 4B ACE15 文本编码器的贡献和维护。有关权威的详细信息,请参阅下面链接的原始文档和存储库。

资源

  • Comfy.org/工作流源页面
    • 文档 / 发布说明:audio_ace_step1_5_xl_base 工作流页面
  • Comfy-Org/ACE Step 1.5 XL Base 扩散模型
    • Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
  • Comfy-Org/ACE Step 1.5 VAE
    • Hugging Face: ace_1.5_vae.safetensors
  • Comfy-Org/Qwen 0.6B ACE15 文本编码器
    • Hugging Face: qwen_0.6b_ace15.safetensors
  • Comfy-Org/Qwen 4B ACE15 文本编码器
    • Hugging Face: qwen_4b_ace15.safetensors

注意:使用所引用的模型、数据集和代码需遵守其作者和维护者提供的各自许可和条款。

Want More ComfyUI Workflows?

ACE-Step 音乐生成 | AI 音频创作

利用突破性的扩散技术,生成录音室质量的音乐,速度提高 15 倍。

Ace Step 1.5 | 商业级AI音乐生成器

通过智能规划和扩散能力将文本转化为完整的歌曲。

Stable Audio Open 1.0 | 文本到音乐工具

将文本提示无缝快速地转化为电影音乐。

MMAudio | 视频到音频

MMAudio:用于高质量音频生成的先进视频到音频模型。

Woosh音效生成 | Text2Audio + VideoSync

将提示和视频转换为清晰同步的音频效果。

ByteDance USO | 统一风格与主题生成器

ByteDance USO 使主题和风格融合变得简单而强大。

LTX 2.3 首尾帧 | 无缝视频生成器

快速将关键帧转化为超顺滑、逼真的视频过渡。

Vid2Vid 第2部分 | SDXL 风格转移

通过专注于原始视频的构图和遮罩,增强 Vid2Vid 的创意。

关注我们
  • 领英
  • Facebook
  • Instagram
  • Twitter
支持
  • Discord
  • 电子邮件
  • 系统状态
  • 附属
资源
  • 免费 ComfyUI 在线版
  • ComfyUI 指南
  • RunComfy API
  • ComfyUI 教程
  • ComfyUI 节点
  • 了解更多
法律
  • 服务条款
  • 隐私政策
  • Cookie 政策
RunComfy
版权 2026 RunComfy. 保留所有权利。

RunComfy 是首选的 ComfyUI 平台,提供 ComfyUI 在线 环境和服务,以及 ComfyUI 工作流 具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。