Генерация звукового эффекта Woosh в ComfyUI

ComfyUI Woosh Sound Effect Generation Workflow

Woosh Sound Effect Generation in ComfyUI | Text2Audio + VideoSync

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Woosh Sound Effect Generation Examples

Генерация звукового эффекта Woosh: аудио, обусловленное подсказками и видео, в ComfyUI#

Генерация звукового эффекта Woosh — это рабочий процесс ComfyUI, который преобразует текстовые подсказки или видеоклипы в отточенные звуковые эффекты с использованием базовой модели Woosh от Sony Research. Он создан для создателей, которым нужно одно место для Фоли, основанного на подсказках, строго соответствующего видео звукового дизайна и быстрого переключения между высококачественными и быстрыми дистиллированными вариантами.

Рабочий процесс раскрывает обе семьи моделей Woosh: Flow/DFlow для text‑to‑audio и VFlow/DVFlow для video‑to‑audio. Общий сэмплер управляет генерацией на обоих путях, выводя аудио для немедленного предварительного просмотра и, в видео пути, предварительные просмотры кадров, которые рекомбинируются для быстрого создания дэйлисов. В основе он полагается на официальные узлы ComfyUI Woosh и VideoHelperSuite для бесперебойного ввода-вывода видео, так что Генерация звукового эффекта Woosh остается быстрой и простой, оставаясь гибкой. Ссылки: SonyResearch/Woosh, drbaph/Woosh на Hugging Face, статья, ComfyUI-Woosh, ComfyUI-VideoHelperSuite.

Ключевые модели в рабочем процессе Генерации звукового эффекта Woosh Comfyui#

Sony Research Woosh — Flow: основной генератор text‑to‑audio, используемый для высококачественного Фоли и амбиента, обученный с целями сопоставления потоков. См. SonyResearch/Woosh и статья.
Sony Research Woosh — DFlow: дистиллированная модель text‑to‑audio, оптимизированная для скорости с гораздо меньшим количеством шагов сэмплирования, идеальна для быстрого итеративного процесса. Веса доступны через drbaph/Woosh.
Sony Research Woosh — VFlow‑8s: генератор, обусловленный видео, который синхронизирует начало и текстуры аудио с визуальными движениями для video‑to‑audio. См. SonyResearch/Woosh.
Sony Research Woosh — DVFlow‑8s: дистиллированная модель video‑to‑audio для рабочих процессов с ориентацией на реальное время и быстрых предварительных просмотров. Веса: drbaph/Woosh.
Woosh‑AE: аудио автоэнкодер, используемый для реконструкции волновых форм из латентов модели; требуется всеми генераторами. Веса: drbaph/Woosh.
TextConditionerA и TextConditionerV: модули текстового кондиционирования, которые внедряют подсказки соответствующим образом для text‑to‑audio или video‑to‑audio прогонов. Подробности и использование задокументированы в ComfyUI-Woosh и статья.

Как использовать рабочий процесс Генерации звукового эффекта Woosh Comfyui#

Этот рабочий процесс имеет две параллельные группы, которые вы можете запускать независимо: Видео в Аудио для звукового дизайна, соответствующего видео, и Текст в Аудио для чистого Фоли, основанного на подсказках. Обе группы сходятся на одной и той же логике сэмплера и быстром предварительном просмотре аудио, делая Генерацию звукового эффекта Woosh последовательной в использовании независимо от входных данных.

Видео в Аудио#

Группа Видео в Аудио загружает клип, выравнивает кадры и кондиционирование, а затем генерирует синхронизированный звук. Начните с подачи вашего клипа в VHS_LoadVideo (#34); он извлекает кадры с выбранной вами частотой, чтобы нижестоящие узлы видели чистую, ограниченную последовательность. Эти кадры упаковываются как поток кондиционирования видео WooshLoadVideo (#37), который стандартизирует продолжительность, чтобы генератор получал стабильные окна.

Выберите модель, обусловленную видео, в WooshLoadFlow (#7), обычно VFlow для верности или DVFlow для скорости. Укажите короткую описательную подсказку в сэмплере (для стиля или намерения) и установите WooshTextEncode (#19) на V2A, чтобы текст был внедрен с правильной ветвью кондиционирования. Запустите WooshSample (#38) для синтеза аудио; он выводит как audio для PreviewAudio (#9), так и video_frames, которые переходят в VHS_VideoCombine (#33) для быстрого сшитого предварительного просмотра, сохраняя Генерацию звукового эффекта Woosh компактной для редакторского просмотра.

Текст в Аудио#

Группа Текст в Аудио фокусируется на чистой генерации, основанной на подсказках. Выберите модель в WooshLoadFlow (#40), используя Flow, когда вам нужно максимальное качество, и DFlow, когда вам нужны очень быстрые, итеративные проходы. Установите WooshTextEncode (#41) на T2A, чтобы ваша подсказка была внедрена для генерации только текста. Введите ваше описание в WooshSample (#39) и выполните; результат отправляется в PreviewAudio (#43) для мгновенного прослушивания. Этот путь сохраняет Генерацию звукового эффекта Woosh легкой, когда вы создаете библиотеки или накладываете эффекты без изображения.

Ключевые узлы в рабочем процессе Генерации звукового эффекта Woosh Comfyui#

`WooshSample` (#38)#

Центральный сэмплер для генерации, обусловленной видео. Настройте подсказку, чтобы управлять стилем и началом, затем отрегулируйте steps для компромисса между качеством и скоростью (используйте меньше шагов при запуске DVFlow). cfg контролирует соблюдение подсказок, а latent_frames определяет длину вывода, чтобы она совпадала или намеренно смещалась относительно клипа. Установите seed для воспроизведения дублей и включите force_offload, когда вам нужно очистить память между длинными запусками. Реализация узла и поведение следуют официальному ComfyUI-Woosh.

`WooshSample` (#39)#

Сэмплер для text‑to‑audio с такими же контролями и поведением, за исключением видеопотока. Для быстрой генерации выберите DFlow и низкие steps; для финалов переключитесь на Flow и увеличьте steps для детализации. Держите cfg умеренным для естественных текстур, поднимайте выше для стилизованных, строго соответствующих подсказкам результатов. Используйте latent_frames, чтобы точно установить продолжительность при создании активов для библиотек или временных шкал DAW.

`WooshLoadFlow` (#7)#

Выбор модели для пути Видео в Аудио. Выберите VFlow для наивысшей точности выравнивания с движением или DVFlow, когда вам нужны почти в реальном времени предварительные просмотры. Убедитесь, что WooshTextEncode установлен на V2A, чтобы внедрения соответствовали выбранной семье моделей. См. drbaph/Woosh для вариантов моделей.

`WooshLoadFlow` (#40)#

Выбор модели для пути Текст в Аудио. Выберите Flow для богатой детализации и более широкого разнообразия текстур или DFlow для быстрого итеративного процесса с минимальными шагами. Сопоставьте это с WooshTextEncode в режиме T2A, чтобы избежать несоответствий кондиционирования. Поведение узла и опции следуют официальному ComfyUI-Woosh.

`VHS_VideoCombine` (#33)#

Утилита для сборки сгенерированного audio с предварительным просмотром video_frames из сэмплера для создания клипа для просмотра. Используйте его, чтобы заметить синхронизацию, оценить переходы и поделиться дэйлисами, не выходя из ComfyUI. Часть ComfyUI-VideoHelperSuite.

Дополнительные возможности#

Используйте DVFlow/DFlow для быстрого поиска, затем переключитесь на VFlow/Flow для финалов, когда Генерация звукового эффекта Woosh должна блеснуть.
Держите ваш входной клип в пределах окна выбранной модели (например, 8-секундные варианты VFlow) и обрабатывайте более длинные сцены в перекрывающихся фрагментах, которые можно перекрестно затухать.
Поддерживайте постоянную частоту кадров от VHS_LoadVideo до VHS_VideoCombine, чтобы уменьшить дрейф между аудио и изображением.
Для подсказок сочетайте слова действия с текстурой и акустическим контекстом (например, "быстрый металлический свист в бетонной лестничной клетке"), чтобы получить предсказуемые результаты.
Включите force_offload в сэмплере между тяжелыми запусками, если память GPU ограничена.

Благодарности#

Этот рабочий процесс реализует и опирается на следующие работы и ресурсы. Мы искренне благодарим Sony Research за Woosh (проект и статья), Saganaki22 за ComfyUI-Woosh (узел ComfyUI) и Kosinkadink за ComfyUI-VideoHelperSuite за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

Saganaki22/ComfyUI-Woosh
- GitHub: Saganaki22/ComfyUI-Woosh
drbaph/Woosh
- Hugging Face: drbaph/Woosh
SonyResearch/Woosh
- GitHub: SonyResearch/Woosh
Sony Research/Woosh (статья)
- arXiv: 2502.07359
Kosinkadink/ComfyUI-VideoHelperSuite
- GitHub: Kosinkadink/ComfyUI-VideoHelperSuite

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Fish Audio S2 TTS | Генератор выразительного голоса

Создавайте реалистичную речь с эмоциями, стилями и клонированными голосами быстро.

ControlNet Tile + 4x UltraSharp | Повышение разрешения изображений/видео

Используйте ControlNet Tile, 4xUltraSharp и интерполяцию кадров для получения высококачественного результата.

Wan 2.1 | Революционное создание видео

Создавайте невероятные видео из текста или изображений с прорывным ИИ, работающим на повседневных ЦП.

Hunyuan3D | ComfyUI 3D Pack

Сначала создайте многоракурсные RGB изображения, затем преобразуйте их в 3D активы.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Генерация звукового эффекта Woosh | Text2Audio + VideoSync