ACE-Step 1.5XL Turbo Text-to-Music ComfyUI Workflow
Преобразуйте компактные подсказки в отшлифованную музыку MP3 с помощью этого comfyui workflow, ориентированного на скорость и повторяемость. Он сочетает генератор ACE-Step 1.5XL Turbo с его официальным VAE и двумя текстовыми кодировщиками Qwen, затем экспортирует прямо в MP3 для легкого предварительного просмотра и повторного использования. Продюсеры, звуковые дизайнеры и художники по подсказкам могут быстро повторять, сохраняя результаты последовательными в разных запусках.
Основные модели в этом comfyui workflow
- ACE-Step 1.5XL Turbo (bf16). Основная модель диффузии, которая синтезирует музыку из текстового условия, оптимизированная для быстрого удаления шума и высококачественных аудио латентов. Файл модели
- ACE-Step 1.5 VAE. Декодер, который превращает аудио латенты в конечную звуковую волну, сохраняя тембр и динамику, ожидаемые семейством ACE-Step. Файл модели
- Qwen 0.6B ACE 1.5 текстовый кодировщик. Легкий кодировщик, который преобразует ваше описательное предложение в векторы условий, используемые генератором. Файл модели
- Qwen 4B ACE 1.5 текстовый кодировщик. Более крупный сопутствующий кодировщик, который обогащает семантику, стилистические намеки, инструменты и вокальные подсказки для более точного рендеринга. Файл модели
Как использовать этот comfyui workflow
Граф организован в две основные группы плюс глобальные элементы управления. Вы загружаете стек моделей ACE-Step, описываете музыку, которую хотите, устанавливаете длительность песни и seed, затем выбираете, декодируете и экспортируете в MP3.
Группа моделей
Этот раздел инициализирует стек моделей, который ожидает генератор. UNETLoader (#104) загружает ACE-Step 1.5XL Turbo, а VAELoader (#106) добавляет соответствующий ACE-Step 1.5 VAE, чтобы декодирование оставалось верным. DualCLIPLoader (#105) объединяет текстовые кодировщики Qwen 0.6B и 4B для подготовки эмбеддингов подсказки. UNet направляется через ModelSamplingAuraFlow (#78), который применяет конфигурацию сэмплера, требуемую моделью перед началом удаления шума.
Группа подсказок
Напишите краткое описание жанра, настроения, инструментов, вокалов, темпа и стиля производства в TextEncodeAceStepAudio1.5 (#94). Если вы используете тексты или структурные заметки, предоставьте их во вторичном текстовом поле, чтобы кодировщики могли условно формировать фразы и динамику. Отрицательное условие намеренно отключено через ConditioningZeroOut (#47), чтобы сосредоточить выходы и упростить ранние итерации. Узел также принимает глобальные duration и seed, гарантируя, что условия остаются согласованными с длиной трека и вашими настройками воспроизводимости.
Длительность и seed
Установите длину трека в секундах, используя Float (Duration) (#99). Выберите seed в Int (Seed) (#109), чтобы сделать запуски воспроизводимыми как для кодировщика, так и для сэмплера. Сохраняя тот же seed, изменяя только подсказку, — это надежный способ тестирования творческих направлений. Для широкого исследования измените seed после того, как вы останетесь довольны подсказкой.
Настройка латентного аудио
EmptyAceStep1.5LatentAudio (#98) создает пустое аудио латентное, соответствующее выбранной вами длительности. Это действует как холст, который сэмплер заполнит в процессе удаления шума. Более длительные длительности требуют больше вычислений, поэтому рассмотрите возможность начать с более коротких, чтобы подтвердить подсказку, прежде чем увеличивать масштаб. Рабочий процесс проводит длительность глобально, так что ваши латенты и условия всегда остаются синхронизированными.
Удаление шума и сэмплирование
KSampler (#3) выполняет процесс диффузии, используя модель ACE-Step 1.5XL Turbo и ваше условие подсказки. Путь сэмплера проходит через ModelSamplingAuraFlow (#78), чтобы соответствовать настройкам планировщика, ожидаемым моделью для стабильной, быстрой сходимости. Используйте тот же seed, чтобы сравнивать изменения в формулировке или стиле, и изменяйте настройки сэмплера только после того, как ваша подсказка будет настроена. Когда сэмплер завершится, у вас будет аудио латентное, готовое к декодированию.
Декодирование и экспорт
VAEDecodeAudio (#18) преобразует латентное в звуковую волну с помощью ACE-Step 1.5 VAE, чтобы сохранить предполагаемый тембр. SaveAudioMP3 (#107) записывает MP3 с базовым именем файла и дополнительным тегом версии, чтобы вы могли организовать дубли. MP3 идеально подходит для быстрого просмотра и обмена, и вы всегда можете повторно рендерить или экспортировать в другой формат позже. Результат появляется в вашем стандартном месте вывода ComfyUI.
Ключевые узлы в этом comfyui workflow
TextEncodeAceStepAudio1.5 (#94)
Этот узел переводит ваше музыкальное описание и возможные тексты в условия для генератора, используя сопряженные кодировщики Qwen. Держите подсказки конкретными по жанру, инструментарию, наличию вокала, темпу, настроению и характеру микса. Убедитесь, что duration узла соответствует глобальной длине песни, чтобы структура и фразировка оставались согласованными. Используйте фиксированный seed, пока изменяете формулировку, чтобы понять, как термины влияют на аранжировку и тембр.
EmptyAceStep1.5LatentAudio (#98)
Управляет временным холстом, который модель заполнит. Увеличение длительности увеличивает память и время рендеринга, поэтому сначала экспериментируйте с более короткими черновиками, прежде чем переходить к более длинным работам. Держите изменения длительности осознанными, поскольку они могут изменить воспринимаемый темп и темп разделов, даже с той же подсказкой и seed.
KSampler (#3)
Управляет качеством, скоростью и общей текстурой, контролируя, как шум удаляется из латента. Начните с предоставленного пути планировщика и изменяйте настройки сэмплера только после того, как подсказка будет подходящей. Для быстрых черновиков уменьшите усилия по выборке; для более высокого качества увеличивайте его постепенно, сохраняя seed постоянным, чтобы различия было легко услышать. См. основное поведение сэмплера в репозитории ComfyUI для общей информации. ComfyUI на GitHub
SaveAudioMP3 (#107)
Обрабатывает экспорт и именование файлов, чтобы вы могли каталогизировать дубли. Установите четкое базовое имя и тег версии, чтобы отслеживать итерации. Если вы планируете мастеринг или дальнейшее редактирование, сохраняйте проектный seed и подсказку в своих заметках, чтобы вы могли повторно рендерить с альтернативными настройками экспорта при необходимости.
Дополнительные возможности
- Пишите подсказки как короткие, упорядоченные фразы: жанр, настроение, ключевое ощущение, темп, инструменты, тип вокала, стиль производства.
- Держите тексты краткими и соответствующими выбранной длительности, чтобы избежать спешки в фразировке ближе к концу.
- Заблокируйте seed, пока уточняете подсказку, затем изменяйте seed, чтобы исследовать альтернативные аранжировки с тем же брифом.
- Начните с более коротких длительностей, чтобы подтвердить направление, затем увеличивайте масштаб, когда основной звук работает.
- Отрицательное условие отключено по умолчанию; включайте и настраивайте истинно отрицательную подсказку только если вам нужны строгие исключения после начального исследования.
Признания
Этот рабочий процесс реализует и опирается на следующие работы и ресурсы. Мы искренне благодарим Comfy.org за Audio ACE Step 1.5 XL Turbo workflow и Comfy-Org за ACE-Step 1.5XL Turbo диффузионную модель, ACE-Step 1.5 VAE, ACE-Step 1.5 текстовый кодировщик 0.6B и ACE-Step 1.5 текстовый кодировщик 4B за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.
Ресурсы
- Comfy.org/Audio ACE Step 1.5 XL Turbo workflow
- Документация / Примечания к выпуску: Страница рабочего процесса
- Comfy-Org/ACE-Step 1.5XL Turbo диффузионная модель
- Hugging Face: acestep_v1.5_xl_turbo_bf16.safetensors
- Comfy-Org/ACE-Step 1.5 VAE
- Hugging Face: ace_1.5_vae.safetensors
- Comfy-Org/ACE-Step 1.5 текстовый кодировщик 0.6B
- Hugging Face: qwen_0.6b_ace15.safetensors
- Comfy-Org/ACE-Step 1.5 текстовый кодировщик 4B
- Hugging Face: qwen_4b_ace15.safetensors
Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.
