ACE-Step 1.5XL Base текст в музыку в ComfyUI

ComfyUI ACE-Step 1.5XL Base text to music Workflow

ACE-Step 1.5XL Base text to music in ComfyUI | AI Audio Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Base text to music Examples

ACE-Step 1.5XL Base текст в музыку: Рабочий процесс от подсказки к песне для ComfyUI#

Этот рабочий процесс превращает описания на естественном языке в готовое аудио, используя семейство диффузий ACE-Step 1.5XL Base. Он сочетает базовую модель с её ACE Step VAE и двойными текстовыми кодировщиками Qwen, чтобы результаты оставались в музыкальной области, а не в TTS или речи. Если вам нужна AI музыка, основанная на подсказках, с предсказуемой структурой, темпами и инструментовкой, этот рабочий процесс ACE-Step 1.5XL Base текст в музыку — это сфокусированная, минимальная настройка, которая быстро переводит вас от идеи к MP3.

Разработанный для продюсеров, звуковых дизайнеров и создателей, график подчеркивает ясность: выберите модели, установите продолжительность, напишите музыкальную подсказку, затем создайте и сохраните. Рабочий процесс ACE-Step 1.5XL Base текст в музыку достаточно компактный для быстрой итерации, оставаясь выразительным для детализированных аранжировок, ключей и темпов.

Ключевые модели в рабочем процессе Comfyui ACE-Step 1.5XL Base текст в музыку#

ACE-Step 1.5 XL Base (bf16) модель диффузии. Генеративная основа, которая устраняет шум аудиолатентов в связные музыкальные фразы и текстуры. Файл модели
ACE Step 1.5 VAE. Парный вариационный автоэнкодер, который кодирует/декодирует между латентным пространством и доменом волновой формы, сохраняя тембр и баланс микса. Файл модели
Qwen 4B ACE15 текстовый кодировщик. Большой текстовый кодировщик, адаптированный для ACE, который улавливает богатую музыкальную семантику, структуру и аранжировочные подсказки из подсказки. Файл модели
Qwen 0.6B ACE15 текстовый кодировщик. Более легкий кодировщик, адаптированный для ACE, который приоритизирует скорость и эффективность ресурсов, сохраняя сильное понимание подсказок. Файл модели

Как использовать рабочий процесс Comfyui ACE-Step 1.5XL Base текст в музыку#

График организован в три группы, которые переходят в генерацию и экспорт: Модель, Продолжительность и Подсказка. Вы загружаете модели, выбираете целевую длину, описываете музыку, затем семплер создает латенты, которые VAE декодирует в аудио.

Модель#

Эта группа загружает основные ресурсы. UNETLoader (#104) выбирает контрольную точку диффузии ACE-Step 1.5 XL Base, а VAELoader (#106) загружает соответствующий ACE Step 1.5 VAE, чтобы качество декодирования соответствовало обучению. DualCLIPLoader (#105) включает оба кодировщика Qwen ACE15; рабочий процесс использует их совместно, чтобы богатые текстовые подсказки переводились в сильное музыкальное условие.

Продолжительность#

Здесь вы решаете, какой длины должно быть произведение. Song Duration (#99) устанавливает целевую длину в секундах и передает её вперед, чтобы латентное полотно и текстовое условие совпадали. PrimitiveInt (#109) предоставляет семя, позволяя вам фиксировать точные результаты для воспроизводимости или менять его для изучения альтернативных вариантов.

Подсказка#

Здесь язык становится музыкой. Напишите свое описание в TextEncodeAceStepAudio1.5 (#94), включая полезные музыкальные метаданные, такие как темп (BPM), размер, ключ, инструментовка, аранжировка, наличие вокала и заметки о миксе. Узел излучает положительное условие; ConditioningZeroOut (#47) обеспечивает нейтральный отрицательный путь, чтобы генерация оставалась сосредоточенной на вашем описании. EmptyAceStep1.5LatentAudio (#98) инициализирует латентную аудиоленту на выбранную продолжительность. ModelSamplingAuraFlow (#78) адаптирует базовую модель к планировщику, подходящему для ACE-Step аудио. KSampler (#3) комбинирует модель, условие, латент и семя для генерации музыкального латента. VAEDecodeAudio (#18) преобразует латент обратно в волновую форму, а SaveAudioMP3 (#107) записывает результат в MP3 файл, готовый для обмена.

Ключевые узлы в рабочем процессе Comfyui ACE-Step 1.5XL Base текст в музыку#

`TextEncodeAceStepAudio1.5` (#94)#

Преобразует вашу подсказку в условие, которое может следовать модель диффузии. Он принимает музыкальные детали, такие как темп, размер, ключ, заметки об аранжировке, инструментовку, язык и намерение вокала. Для наилучших результатов будьте конкретны в отношении жанра, ощущения и размещения микса, и сохраняйте структурные подсказки краткими, чтобы модель могла поддерживать связность в течение запрошенной длительности.

`EmptyAceStep1.5LatentAudio` (#98)#

Создает латентное аудио "полотно" для произведения. Соответствуйте его секунды тому, что вы установили в Song Duration (#99) и упомянули в текстовом кодировщике, чтобы избежать непреднамеренного обрезания или добавления. Более длинные полотна приглашают более постепенное развитие, в то время как более короткие подходят для циклов, сигналов и джинглов.

`ModelSamplingAuraFlow` (#78)#

Настраивает стратегию семплирования, адаптированную для ACE-Step аудио. Используйте её как предоставлено для стабильных результатов; настраивайте только если у вас есть конкретное предпочтение планировщика, так как это взаимодействует с количеством шагов и направлением в KSampler (#3).

`KSampler` (#3)#

Выполняет устранение шума, которое превращает условие в аудиолатенты. Ключевые рычаги здесь — тип семплера, количество шагов и семя. Увеличивайте шаги, чтобы уточнить детали за счет времени, и сохраняйте семя фиксированным при сравнении подсказок, чтобы вы могли приписывать изменения тексту, а не случайности.

`DualCLIPLoader` (#105)#

Загружает оба текстовых кодировщика Qwen ACE15. Если у вас есть доступ к обоим, начните с активного кодировщика 4B для более богатого понимания языка; переключайтесь на вариант 0.6B, когда вам нужны более быстрые итерации или меньшее использование памяти. Держите выбор кодировщика постоянным в течение съемок при оценке тонких правок подсказок.

`ConditioningZeroOut` (#47)#

Обеспечивает нейтральный отрицательный путь. Если вы хотите подавить определенные артефакты или отказаться от речевого контента, вы можете заменить это на реальный узел отрицательной подсказки; в противном случае обнуленный отрицательный оставляет генерацию ACE-Step 1.5XL Base текст в музыку сосредоточенной на вашем положительном описании.

Дополнительные опции#

Начинайте подсказки с компактного рецепта: жанр + настроение + темп + размер + ключ + инструментовка + аранжировка + заметки о миксе.
Используйте явные музыкальные глаголы и роли (лид, пад, бас, ударные), чтобы модель размещала пространство в миксе и избегала контента, похожего на речь.
Фиксируйте семя при A/B тестировании подсказок, затем варьируйте семя, чтобы изучить альтернативные исполнения выигрышной идеи.
Держите продолжительность согласованной между Song Duration (#99), TextEncodeAceStepAudio1.5 (#94) и EmptyAceStep1.5LatentAudio (#98) для предсказуемой фразировки.
Выбирайте Qwen 4B для более богатого понимания подсказок или 0.6B для скорости; держите ваш выбор постоянным, пока вы итеративно делаете сравнения справедливыми.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью отмечаем Comfy.org за рабочий процесс audio_ace_step1_5_xl_base, Comfy-Org за модель диффузии ACE Step 1.5 XL Base и ACE Step 1.5 VAE, а также команду Qwen за текстовые кодировщики 0.6B и 4B ACE15 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.

Ресурсы#

Comfy.org/Workflow source page
- Документы / Примечания к выпуску: audio_ace_step1_5_xl_base workflow page
Comfy-Org/ACE Step 1.5 XL Base diffusion model
- Hugging Face: acestep_v1.5_xl_base_bf16.safetensors
Comfy-Org/ACE Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/Qwen 0.6B ACE15 text encoder
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/Qwen 4B ACE15 text encoder
- Hugging Face: qwen_4b_ace15.safetensors

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Генерация звукового эффекта Woosh | Text2Audio + VideoSync

Преобразует подсказки и видео в резкие синхронизированные аудиоэффекты.

Wan2.2 S2V | Генератор Звука в Видео

Превращает ваш аудиоклип в реалистичное, синхронизированное видео из одного изображения

LTX 2.3 Sulphur изображение в видео рабочий процесс | Генератор кинематографа

Быстро и плавно превращает неподвижные изображения в сцены кинематографического движения.

Камера с эффектом наезда - Motion LoRA для Wan 2.1

Одно изображение на входе, кадры с эффектом наезда на выходе. Никакой сложности.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

ACE-Step 1.5XL Base текст в музыку | AI Sound Generator