ComfyUI>Рабочие процессы>Stable Audio 3.0 Medium Base | Генератор текста в музыку

Stable Audio 3.0 Medium Base | Генератор текста в музыку

Workflow Name: RunComfy/Stable-Audio-3-Medium
Workflow ID: 0000...1435
С этой официальной настройкой генерации аудио вы можете превращать текстовые подсказки в выразительную, высококачественную музыку и фоновое аудио. Поддерживает расширенное воспроизведение, плавные тональные переходы и гибкое наложение звука. Отлично подходит для звуковых дизайнеров, музыкантов или разработчиков, экспериментирующих с генерацией текста в аудио. Рабочий процесс использует кодировщики T5Gemma и Qwen3.5 для улучшения точности подсказок и качества вывода. Его воспроизводимая структура обеспечивает стабильные креативные результаты для профессиональных аудиопроектов.

ComfyUI Stable Audio 3.0 Medium Base workflow Workflow

Stable Audio 3.0 Medium Base workflow in ComfyUI | Text-to-Audio
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI Stable Audio 3.0 Medium Base workflow Examples

Stable Audio 3.0 Medium Base рабочий процесс для длинного текста в аудио в ComfyUI#

Этот рабочий процесс Stable Audio 3.0 Medium Base превращает короткие текстовые идеи в более длинное, более музыкальное стерео аудио. Он построен вокруг контрольной точки stable_audio_3_medium_base с текстовыми кодировщиками T5-Gemma и Qwen3.5 для создания музыки на основе подсказок, фоновых звуковых дорожек, SFX и одиночных звуков с воспроизводимыми настройками в ComfyUI.

График включает необязательную систему повторного запроса, учитывающую категорию, которая может расширить вашу краткую идею до плотной, готовой к производству подсказки перед синтезом. Вы выбираете категорию, продолжительность и seed, затем конвейер настраивает Stable Audio 3 и рендерит аудио, которое сохраняется как MP3. Рабочий процесс следует официальному шаблону и ресурсам, предоставленным Comfy-Org для Stable Audio 3.0 Medium Base. См. референсный шаблон и модели на Comfy-Org/workflow_templates и Comfy-Org/stable-audio-3.

Ключевые модели в Comfyui Stable Audio 3.0 Medium Base рабочем процессе#

  • Stable Audio 3 Medium Base контрольная точка. Основная генеративная модель, которая синтезирует стерео аудио из текстового условия и латентов. Источник: Comfy-Org/stable-audio-3.
  • T5-Gemma Base UL2 текстовый кодировщик. Создает текстовые векторы, используемые для условия Stable Audio 3 для положительных и отрицательных подсказок. Упакованный файл текстового кодировщика включен в папку text_encoders репозитория Stable Audio 3: Comfy-Org/stable-audio-3.
  • Qwen3.5 2B текстовая модель. Обеспечивает опциональную систему повторного запроса, учитывающую категорию, которая расширяет короткую идею до детализированного описания музыки, инструмента, SFX или одиночного звука. Источник: Comfy-Org/Qwen3.5.

Как использовать Comfyui Stable Audio 3.0 Medium Base рабочий процесс#

На высоком уровне вы предоставляете короткую идею и целевую продолжительность. График может оставить ваши слова как есть или использовать Qwen3.5 для их переписывания через шаблон категории. Результат кодируется для условия, сэмплируется Stable Audio 3, декодируется в аудио и сохраняется.

Вводы пользователя: подсказка и продолжительность#

Подграф Audio Generation (Stable Audio 3 Medium Base) (#52) открывает user_input, duration, seed, use_reprompt и category. Напишите краткую идею на простом языке, например, стиль, список инструментов, настроение и необязательный BPM. Выберите длину клипа в секундах и установите seed для воспроизводимости или вариации. Включите use_reprompt, когда хотите переписывание с использованием шаблона, затем выберите category, такую как Music, Instrument, SFX или One-shot.

Загрузчики: контрольная точка и текстовые кодировщики#

CheckpointLoaderSimple (#25) загружает stable_audio_3_medium_base.safetensors, предоставляя MODEL и VAE, используемые позже для сэмплирования и декодирования. CLIPLoader (#26) загружает кодировщик T5-Gemma, используемый для условия. Второй CLIPLoader (#29) загружает модель Qwen3.5, которая управляет стадией повторного запроса.

Повторный запрос: JSON шаблоны и категория#

Селектор категории CustomCombo (#43) подает большой JSON системных подсказок в JsonExtractString (#49). Выбранный шаблон вставляется в мета-подсказку с помощью Text Replace (PROMPT TEMPLATE) (#38). Ваш user_input вводится через Text Replace (USER INPUT) (#39), а целевая длина вставляется с помощью Text Replace (AUDIO LENGTH) (#40), сохраняя переписывание в соответствии с выбранной продолжительностью.

Повторный запрос: Qwen TextGenerate#

TextGenerate (#28) использует Qwen3.5 для преобразования собранного шаблона и вашей идеи в краткую, детализированную подсказку, которая следует правилам, специфичным для категории. Этот этап особенно полезен для более длинных музыкальных структур и для SFX, где важен конкретный технический язык. Переписывание подсказки можно предварительно просмотреть, чтобы быстро изменять выбор категории и формулировку.

Переключение между оригинальным и переписанным текстом#

ComfySwitchNode (#34) выбирает либо ваш оригинальный текст, либо переписывание, сгенерированное Qwen, в зависимости от use_reprompt. Оставьте его включенным для структурированных, согласованных с длиной переписок или выключите, когда хотите буквального контроля над формулировкой. Этот простой переключатель делает A/B тестирование простым.

CLIP кодирование: условие#

CLIPTextEncode (#6) преобразует выбранную подсказку в положительное условие, которое управляет моделью. Второй CLIPTextEncode (#7) по умолчанию предоставляет нейтральное отрицательное условие. Эта пара обеспечивает Stable Audio 3 четким руководством, избегая непреднамеренных артефактов.

Генерация аудио: Stable Audio#

EmptyLatentAudio (#11) создает латентное аудио, длина которого соответствует duration. KSampler (#3) выполняет процесс устранения шума, используя MODEL Stable Audio 3 Medium Base из контрольной точки. VAEDecodeAudio (#12) превращает конечное латентное в слышимую стереофоническую волну. Поскольку та же duration также информирует переписывание, длина рендерного клипа и переписанный текст остаются синхронизированными.

Сохранение и экспорт#

Вне подграфа, SaveAudioMP3 (#19) записывает результат в MP3 файл с полезным префиксом для организации. Используйте это при пакетной генерации дублей с различными значениями seed или категориями, затем прослушайте и сохраните ваши любимые.

Ключевые узлы в Comfyui Stable Audio 3.0 Medium Base рабочем процессе#

  • ComfySwitchNode (#34). Переключает между оригинальным user_input и текстом, сгенерированным Qwen. Включите его для структурированных, согласованных с длиной переписок или выключите для прямого контроля.
  • TextGenerate (#28). Запускает Qwen3.5 с системной подсказкой, специфичной для категории, чтобы расширять идеи. Чтобы настроить стиль переписывания, отредактируйте шаблоны категорий в JsonExtractString (#49) и соединительные подсказки в соседних узлах Text Replace.
  • EmptyLatentAudio (#11). Устанавливает длину клипа. Поддерживайте это в соответствии с вставленным токеном AUDIO_LENGTH, чтобы время синтеза соответствовало текстовому намерению.
  • KSampler (#3). Управляет траекторией устранения шума для Stable Audio 3. Настройте seed для вариаций, сохраняя другие настройки стабильными для справедливого сравнения дублей.
  • SaveAudioMP3 (#19). Управляет префиксом имени файла вывода и форматом для быстрой сборки библиотеки из нескольких запусков.

Дополнительные возможности#

  • Начните с одной или двух предложений, которые указывают жанр или источник, ключевые инструменты или текстуры и настроение. Повторный запрос может заполнить детали, такие как BPM и аранжировка.
  • Выберите категорию, соответствующую вашей цели: Music для полных треков, Instrument для лупов или стемов, SFX для окружений и действий, One-shot для изолированных ударов.
  • Поддерживайте продолжительность реалистичной для вашего целевого контента. Очень длинные клипы тяжелее в вычислении и могут выиграть от стабильного seed, пока вы итеративно работаете.
  • Когда результаты кажутся переполненными, отключите повторный запрос и попробуйте более простую фразу, затем снова включите его, когда вам понравится направление.
  • Для быстрых альтернативных дублей оставьте все постоянным и измените только seed.

Благодарности#

Этот рабочий процесс реализует и расширяет следующие работы и ресурсы. Мы благодарно признаем Comfy-Org за статью поддержки ComfyUI Stable Audio 3 Day-0, Comfy-Org за официальный шаблон рабочего процесса Stable Audio 3.0 Medium Base, Comfy-Org за файлы моделей Stable Audio 3 и Comfy-Org за файлы модели кодировщика Qwen3.5 за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, перечисленным ниже.

Ресурсы#

Примечание: Использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.