Stable Audio 3.0 Medium Base рабочий процесс в ComfyUI

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

Stable Audio 3.0 Medium Base рабочий процесс для длинного текста в аудио в ComfyUI#

Этот рабочий процесс Stable Audio 3.0 Medium Base превращает короткие текстовые идеи в более длинное, более музыкальное стерео аудио. Он построен вокруг контрольной точки stable_audio_3_medium_base с текстовыми кодировщиками T5-Gemma и Qwen3.5 для создания музыки на основе подсказок, фоновых звуковых дорожек, SFX и одиночных звуков с воспроизводимыми настройками в ComfyUI.

График включает необязательную систему повторного запроса, учитывающую категорию, которая может расширить вашу краткую идею до плотной, готовой к производству подсказки перед синтезом. Вы выбираете категорию, продолжительность и seed, затем конвейер настраивает Stable Audio 3 и рендерит аудио, которое сохраняется как MP3. Рабочий процесс следует официальному шаблону и ресурсам, предоставленным Comfy-Org для Stable Audio 3.0 Medium Base. См. референсный шаблон и модели на Comfy-Org/workflow_templates и Comfy-Org/stable-audio-3.

Ключевые модели в Comfyui Stable Audio 3.0 Medium Base рабочем процессе#

Stable Audio 3 Medium Base контрольная точка. Основная генеративная модель, которая синтезирует стерео аудио из текстового условия и латентов. Источник: Comfy-Org/stable-audio-3.
T5-Gemma Base UL2 текстовый кодировщик. Создает текстовые векторы, используемые для условия Stable Audio 3 для положительных и отрицательных подсказок. Упакованный файл текстового кодировщика включен в папку text_encoders репозитория Stable Audio 3: Comfy-Org/stable-audio-3.
Qwen3.5 2B текстовая модель. Обеспечивает опциональную систему повторного запроса, учитывающую категорию, которая расширяет короткую идею до детализированного описания музыки, инструмента, SFX или одиночного звука. Источник: Comfy-Org/Qwen3.5.

Как использовать Comfyui Stable Audio 3.0 Medium Base рабочий процесс#

На высоком уровне вы предоставляете короткую идею и целевую продолжительность. График может оставить ваши слова как есть или использовать Qwen3.5 для их переписывания через шаблон категории. Результат кодируется для условия, сэмплируется Stable Audio 3, декодируется в аудио и сохраняется.

Вводы пользователя: подсказка и продолжительность#

Подграф Audio Generation (Stable Audio 3 Medium Base) (#52) открывает user_input, duration, seed, use_reprompt и category. Напишите краткую идею на простом языке, например, стиль, список инструментов, настроение и необязательный BPM. Выберите длину клипа в секундах и установите seed для воспроизводимости или вариации. Включите use_reprompt, когда хотите переписывание с использованием шаблона, затем выберите category, такую как Music, Instrument, SFX или One-shot.

Загрузчики: контрольная точка и текстовые кодировщики#

CheckpointLoaderSimple (#25) загружает stable_audio_3_medium_base.safetensors, предоставляя MODEL и VAE, используемые позже для сэмплирования и декодирования. CLIPLoader (#26) загружает кодировщик T5-Gemma, используемый для условия. Второй CLIPLoader (#29) загружает модель Qwen3.5, которая управляет стадией повторного запроса.

Повторный запрос: JSON шаблоны и категория#

Селектор категории CustomCombo (#43) подает большой JSON системных подсказок в JsonExtractString (#49). Выбранный шаблон вставляется в мета-подсказку с помощью Text Replace (PROMPT TEMPLATE) (#38). Ваш user_input вводится через Text Replace (USER INPUT) (#39), а целевая длина вставляется с помощью Text Replace (AUDIO LENGTH) (#40), сохраняя переписывание в соответствии с выбранной продолжительностью.

Повторный запрос: Qwen TextGenerate#

TextGenerate (#28) использует Qwen3.5 для преобразования собранного шаблона и вашей идеи в краткую, детализированную подсказку, которая следует правилам, специфичным для категории. Этот этап особенно полезен для более длинных музыкальных структур и для SFX, где важен конкретный технический язык. Переписывание подсказки можно предварительно просмотреть, чтобы быстро изменять выбор категории и формулировку.

Переключение между оригинальным и переписанным текстом#

ComfySwitchNode (#34) выбирает либо ваш оригинальный текст, либо переписывание, сгенерированное Qwen, в зависимости от use_reprompt. Оставьте его включенным для структурированных, согласованных с длиной переписок или выключите, когда хотите буквального контроля над формулировкой. Этот простой переключатель делает A/B тестирование простым.

CLIP кодирование: условие#

CLIPTextEncode (#6) преобразует выбранную подсказку в положительное условие, которое управляет моделью. Второй CLIPTextEncode (#7) по умолчанию предоставляет нейтральное отрицательное условие. Эта пара обеспечивает Stable Audio 3 четким руководством, избегая непреднамеренных артефактов.

Генерация аудио: Stable Audio#

EmptyLatentAudio (#11) создает латентное аудио, длина которого соответствует duration. KSampler (#3) выполняет процесс устранения шума, используя MODEL Stable Audio 3 Medium Base из контрольной точки. VAEDecodeAudio (#12) превращает конечное латентное в слышимую стереофоническую волну. Поскольку та же duration также информирует переписывание, длина рендерного клипа и переписанный текст остаются синхронизированными.

Сохранение и экспорт#

Вне подграфа, SaveAudioMP3 (#19) записывает результат в MP3 файл с полезным префиксом для организации. Используйте это при пакетной генерации дублей с различными значениями seed или категориями, затем прослушайте и сохраните ваши любимые.

Ключевые узлы в Comfyui Stable Audio 3.0 Medium Base рабочем процессе#

ComfySwitchNode (#34). Переключает между оригинальным user_input и текстом, сгенерированным Qwen. Включите его для структурированных, согласованных с длиной переписок или выключите для прямого контроля.
TextGenerate (#28). Запускает Qwen3.5 с системной подсказкой, специфичной для категории, чтобы расширять идеи. Чтобы настроить стиль переписывания, отредактируйте шаблоны категорий в JsonExtractString (#49) и соединительные подсказки в соседних узлах Text Replace.
EmptyLatentAudio (#11). Устанавливает длину клипа. Поддерживайте это в соответствии с вставленным токеном AUDIO_LENGTH, чтобы время синтеза соответствовало текстовому намерению.
KSampler (#3). Управляет траекторией устранения шума для Stable Audio 3. Настройте seed для вариаций, сохраняя другие настройки стабильными для справедливого сравнения дублей.
SaveAudioMP3 (#19). Управляет префиксом имени файла вывода и форматом для быстрой сборки библиотеки из нескольких запусков.

Дополнительные возможности#

Начните с одной или двух предложений, которые указывают жанр или источник, ключевые инструменты или текстуры и настроение. Повторный запрос может заполнить детали, такие как BPM и аранжировка.
Выберите категорию, соответствующую вашей цели: Music для полных треков, Instrument для лупов или стемов, SFX для окружений и действий, One-shot для изолированных ударов.
Поддерживайте продолжительность реалистичной для вашего целевого контента. Очень длинные клипы тяжелее в вычислении и могут выиграть от стабильного seed, пока вы итеративно работаете.
Когда результаты кажутся переполненными, отключите повторный запрос и попробуйте более простую фразу, затем снова включите его, когда вам понравится направление.
Для быстрых альтернативных дублей оставьте все постоянным и измените только seed.

Благодарности#

Этот рабочий процесс реализует и расширяет следующие работы и ресурсы. Мы благодарно признаем Comfy-Org за статью поддержки ComfyUI Stable Audio 3 Day-0, Comfy-Org за официальный шаблон рабочего процесса Stable Audio 3.0 Medium Base, Comfy-Org за файлы моделей Stable Audio 3 и Comfy-Org за файлы модели кодировщика Qwen3.5 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, перечисленным ниже.

Ресурсы#

Comfy-Org/ComfyUI Stable Audio 3 Day-0 Support Article
- Документы / Примечания к выпуску: Stable Audio 3 Day-0 Support
Comfy-Org/Official Stable Audio 3.0 Medium Base Workflow Template
- GitHub: Comfy-Org/workflow_templates
Comfy-Org/Stable Audio 3 Model Files
- Hugging Face: Comfy-Org/stable-audio-3
Comfy-Org/Qwen3.5 Encoder Model Files
- Hugging Face: Comfy-Org/Qwen3.5

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

Ace Step 1.5 | Генератор Музыки Коммерческого Уровня с ИИ

Преобразует текст в полные песни с умным планированием и мощью диффузии.

ACE-Step 1.5XL Base текст в музыку | AI Sound Generator

Мгновенно превращает ваш текст в музыку, созданную ИИ.

ACE-Step 1.5XL Turbo comfyui workflow | Генератор текста в музыку

Преобразует ваш текст в потрясающую музыку быстро и четко.

Z-Image | Быстрая фотореалистичная базовая модель

Супербыстрый генератор изображений с потрясающей ясностью и полным контролем.

Wan2.2 Fun Camera | Кинематографическое движение из изображений

Превратите статические изображения в живые кинематографические кадры с плавными движениями камеры.

OmniGen | Изображение-в-изображение

OmniGen: Изменение изображений на основе эталонных изображений и подсказок

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Stable Audio 3.0 Medium Base | Генератор текста в музыку