ACE-Step 1.5XL Turbo comfyui workflow | Быстрый AI преобразователь текста в музыку

ComfyUI ACE-Step 1.5XL Turbo Workflow

ACE-Step 1.5XL Turbo comfyui workflow | Fast AI Text-to-Music

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI ACE-Step 1.5XL Turbo Examples

ACE-Step 1.5XL Turbo Text-to-Music ComfyUI Workflow#

Преобразуйте компактные подсказки в отшлифованную музыку MP3 с помощью этого comfyui workflow, ориентированного на скорость и повторяемость. Он сочетает генератор ACE-Step 1.5XL Turbo с его официальным VAE и двумя текстовыми кодировщиками Qwen, затем экспортирует прямо в MP3 для легкого предварительного просмотра и повторного использования. Продюсеры, звуковые дизайнеры и художники по подсказкам могут быстро повторять, сохраняя результаты последовательными в разных запусках.

Основные модели в этом comfyui workflow#

ACE-Step 1.5XL Turbo (bf16). Основная модель диффузии, которая синтезирует музыку из текстового условия, оптимизированная для быстрого удаления шума и высококачественных аудио латентов. Файл модели
ACE-Step 1.5 VAE. Декодер, который превращает аудио латенты в конечную звуковую волну, сохраняя тембр и динамику, ожидаемые семейством ACE-Step. Файл модели
Qwen 0.6B ACE 1.5 текстовый кодировщик. Легкий кодировщик, который преобразует ваше описательное предложение в векторы условий, используемые генератором. Файл модели
Qwen 4B ACE 1.5 текстовый кодировщик. Более крупный сопутствующий кодировщик, который обогащает семантику, стилистические намеки, инструменты и вокальные подсказки для более точного рендеринга. Файл модели

Как использовать этот comfyui workflow#

Граф организован в две основные группы плюс глобальные элементы управления. Вы загружаете стек моделей ACE-Step, описываете музыку, которую хотите, устанавливаете длительность песни и seed, затем выбираете, декодируете и экспортируете в MP3.

Группа моделей#

Этот раздел инициализирует стек моделей, который ожидает генератор. UNETLoader (#104) загружает ACE-Step 1.5XL Turbo, а VAELoader (#106) добавляет соответствующий ACE-Step 1.5 VAE, чтобы декодирование оставалось верным. DualCLIPLoader (#105) объединяет текстовые кодировщики Qwen 0.6B и 4B для подготовки эмбеддингов подсказки. UNet направляется через ModelSamplingAuraFlow (#78), который применяет конфигурацию сэмплера, требуемую моделью перед началом удаления шума.

Группа подсказок#

Напишите краткое описание жанра, настроения, инструментов, вокалов, темпа и стиля производства в TextEncodeAceStepAudio1.5 (#94). Если вы используете тексты или структурные заметки, предоставьте их во вторичном текстовом поле, чтобы кодировщики могли условно формировать фразы и динамику. Отрицательное условие намеренно отключено через ConditioningZeroOut (#47), чтобы сосредоточить выходы и упростить ранние итерации. Узел также принимает глобальные duration и seed, гарантируя, что условия остаются согласованными с длиной трека и вашими настройками воспроизводимости.

Длительность и seed#

Установите длину трека в секундах, используя Float (Duration) (#99). Выберите seed в Int (Seed) (#109), чтобы сделать запуски воспроизводимыми как для кодировщика, так и для сэмплера. Сохраняя тот же seed, изменяя только подсказку, — это надежный способ тестирования творческих направлений. Для широкого исследования измените seed после того, как вы останетесь довольны подсказкой.

Настройка латентного аудио#

EmptyAceStep1.5LatentAudio (#98) создает пустое аудио латентное, соответствующее выбранной вами длительности. Это действует как холст, который сэмплер заполнит в процессе удаления шума. Более длительные длительности требуют больше вычислений, поэтому рассмотрите возможность начать с более коротких, чтобы подтвердить подсказку, прежде чем увеличивать масштаб. Рабочий процесс проводит длительность глобально, так что ваши латенты и условия всегда остаются синхронизированными.

Удаление шума и сэмплирование#

KSampler (#3) выполняет процесс диффузии, используя модель ACE-Step 1.5XL Turbo и ваше условие подсказки. Путь сэмплера проходит через ModelSamplingAuraFlow (#78), чтобы соответствовать настройкам планировщика, ожидаемым моделью для стабильной, быстрой сходимости. Используйте тот же seed, чтобы сравнивать изменения в формулировке или стиле, и изменяйте настройки сэмплера только после того, как ваша подсказка будет настроена. Когда сэмплер завершится, у вас будет аудио латентное, готовое к декодированию.

Декодирование и экспорт#

VAEDecodeAudio (#18) преобразует латентное в звуковую волну с помощью ACE-Step 1.5 VAE, чтобы сохранить предполагаемый тембр. SaveAudioMP3 (#107) записывает MP3 с базовым именем файла и дополнительным тегом версии, чтобы вы могли организовать дубли. MP3 идеально подходит для быстрого просмотра и обмена, и вы всегда можете повторно рендерить или экспортировать в другой формат позже. Результат появляется в вашем стандартном месте вывода ComfyUI.

Ключевые узлы в этом comfyui workflow#

`TextEncodeAceStepAudio1.5` (#94)#

Этот узел переводит ваше музыкальное описание и возможные тексты в условия для генератора, используя сопряженные кодировщики Qwen. Держите подсказки конкретными по жанру, инструментарию, наличию вокала, темпу, настроению и характеру микса. Убедитесь, что duration узла соответствует глобальной длине песни, чтобы структура и фразировка оставались согласованными. Используйте фиксированный seed, пока изменяете формулировку, чтобы понять, как термины влияют на аранжировку и тембр.

`EmptyAceStep1.5LatentAudio` (#98)#

Управляет временным холстом, который модель заполнит. Увеличение длительности увеличивает память и время рендеринга, поэтому сначала экспериментируйте с более короткими черновиками, прежде чем переходить к более длинным работам. Держите изменения длительности осознанными, поскольку они могут изменить воспринимаемый темп и темп разделов, даже с той же подсказкой и seed.

`KSampler` (#3)#

Управляет качеством, скоростью и общей текстурой, контролируя, как шум удаляется из латента. Начните с предоставленного пути планировщика и изменяйте настройки сэмплера только после того, как подсказка будет подходящей. Для быстрых черновиков уменьшите усилия по выборке; для более высокого качества увеличивайте его постепенно, сохраняя seed постоянным, чтобы различия было легко услышать. См. основное поведение сэмплера в репозитории ComfyUI для общей информации. ComfyUI на GitHub

`SaveAudioMP3` (#107)#

Обрабатывает экспорт и именование файлов, чтобы вы могли каталогизировать дубли. Установите четкое базовое имя и тег версии, чтобы отслеживать итерации. Если вы планируете мастеринг или дальнейшее редактирование, сохраняйте проектный seed и подсказку в своих заметках, чтобы вы могли повторно рендерить с альтернативными настройками экспорта при необходимости.

Дополнительные возможности#

Пишите подсказки как короткие, упорядоченные фразы: жанр, настроение, ключевое ощущение, темп, инструменты, тип вокала, стиль производства.
Держите тексты краткими и соответствующими выбранной длительности, чтобы избежать спешки в фразировке ближе к концу.
Заблокируйте seed, пока уточняете подсказку, затем изменяйте seed, чтобы исследовать альтернативные аранжировки с тем же брифом.
Начните с более коротких длительностей, чтобы подтвердить направление, затем увеличивайте масштаб, когда основной звук работает.
Отрицательное условие отключено по умолчанию; включайте и настраивайте истинно отрицательную подсказку только если вам нужны строгие исключения после начального исследования.

Признания#

Этот рабочий процесс реализует и опирается на следующие работы и ресурсы. Мы искренне благодарим Comfy.org за Audio ACE Step 1.5 XL Turbo workflow и Comfy-Org за ACE-Step 1.5XL Turbo диффузионную модель, ACE-Step 1.5 VAE, ACE-Step 1.5 текстовый кодировщик 0.6B и ACE-Step 1.5 текстовый кодировщик 4B за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.

Ресурсы#

Comfy.org/Audio ACE Step 1.5 XL Turbo workflow
- Документация / Примечания к выпуску: Страница рабочего процесса
Comfy-Org/ACE-Step 1.5XL Turbo диффузионная модель
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
Comfy-Org/ACE-Step 1.5 текстовый кодировщик 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
Comfy-Org/ACE-Step 1.5 текстовый кодировщик 4B
- Hugging Face: qwen_4b_ace15.safetensors

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.

Want More ComfyUI Workflows?

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Генерация звукового эффекта Woosh | Text2Audio + VideoSync

Преобразует подсказки и видео в резкие синхронизированные аудиоэффекты.

Qwen Image Edit 2509 | Редактор нескольких изображений

Превратите 2-3 изображения в один безупречно отредактированный шедевр мгновенно.

IC-Light | Перезаписка видео | AnimateDiff

Перезаписывайте ваши видео с картами освещения и подсказками

Boogu Image Edit ComfyUI workflow | Умное переписывание фотографий

Редактируйте фотографии умно, не теряя стиль и структуру.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

ACE-Step 1.5XL Turbo comfyui workflow | Генератор текста в музыку