logo
RunComfy
  • ComfyUI
  • ТренерНовое
  • Модели
  • API
  • Цены
discord logo
ComfyUI>Рабочие процессы>Генерация звукового эффекта Woosh | Text2Audio + VideoSync

Генерация звукового эффекта Woosh | Text2Audio + VideoSync

Workflow Name: RunComfy/Woosh-Sound-Effect-Generation
Workflow ID: 0000...1392
Этот рабочий процесс помогает создавать идеально синхронизированные звуковые эффекты непосредственно из текстовых подсказок или видеосцен. С использованием модели Woosh от Sony AI, он позволяет быстро переключаться между режимами скорости и качества. Вы можете строить захватывающий Фоли или генерировать синхронизированное аудио без сложных настроек. Разработан для создателей, стремящихся к легким рабочим процессам звукового дизайна. Система точно выравнивает сгенерированное аудио с визуальным движением для лучшего повествования. Вы получаете полный творческий контроль с помощью одного упрощенного интерфейса.

Генерация звукового эффекта Woosh: аудио, обусловленное подсказками и видео, в ComfyUI

Генерация звукового эффекта Woosh — это рабочий процесс ComfyUI, который преобразует текстовые подсказки или видеоклипы в отточенные звуковые эффекты с использованием базовой модели Woosh от Sony Research. Он создан для создателей, которым нужно одно место для Фоли, основанного на подсказках, строго соответствующего видео звукового дизайна и быстрого переключения между высококачественными и быстрыми дистиллированными вариантами.

Рабочий процесс раскрывает обе семьи моделей Woosh: Flow/DFlow для text‑to‑audio и VFlow/DVFlow для video‑to‑audio. Общий сэмплер управляет генерацией на обоих путях, выводя аудио для немедленного предварительного просмотра и, в видео пути, предварительные просмотры кадров, которые рекомбинируются для быстрого создания дэйлисов. В основе он полагается на официальные узлы ComfyUI Woosh и VideoHelperSuite для бесперебойного ввода-вывода видео, так что Генерация звукового эффекта Woosh остается быстрой и простой, оставаясь гибкой. Ссылки: SonyResearch/Woosh, drbaph/Woosh на Hugging Face, статья, ComfyUI-Woosh, ComfyUI-VideoHelperSuite.

Ключевые модели в рабочем процессе Генерации звукового эффекта Woosh Comfyui

  • Sony Research Woosh — Flow: основной генератор text‑to‑audio, используемый для высококачественного Фоли и амбиента, обученный с целями сопоставления потоков. См. SonyResearch/Woosh и статья.
  • Sony Research Woosh — DFlow: дистиллированная модель text‑to‑audio, оптимизированная для скорости с гораздо меньшим количеством шагов сэмплирования, идеальна для быстрого итеративного процесса. Веса доступны через drbaph/Woosh.
  • Sony Research Woosh — VFlow‑8s: генератор, обусловленный видео, который синхронизирует начало и текстуры аудио с визуальными движениями для video‑to‑audio. См. SonyResearch/Woosh.
  • Sony Research Woosh — DVFlow‑8s: дистиллированная модель video‑to‑audio для рабочих процессов с ориентацией на реальное время и быстрых предварительных просмотров. Веса: drbaph/Woosh.
  • Woosh‑AE: аудио автоэнкодер, используемый для реконструкции волновых форм из латентов модели; требуется всеми генераторами. Веса: drbaph/Woosh.
  • TextConditionerA и TextConditionerV: модули текстового кондиционирования, которые внедряют подсказки соответствующим образом для text‑to‑audio или video‑to‑audio прогонов. Подробности и использование задокументированы в ComfyUI-Woosh и статья.

Как использовать рабочий процесс Генерации звукового эффекта Woosh Comfyui

Этот рабочий процесс имеет две параллельные группы, которые вы можете запускать независимо: Видео в Аудио для звукового дизайна, соответствующего видео, и Текст в Аудио для чистого Фоли, основанного на подсказках. Обе группы сходятся на одной и той же логике сэмплера и быстром предварительном просмотре аудио, делая Генерацию звукового эффекта Woosh последовательной в использовании независимо от входных данных.

Видео в Аудио

Группа Видео в Аудио загружает клип, выравнивает кадры и кондиционирование, а затем генерирует синхронизированный звук. Начните с подачи вашего клипа в VHS_LoadVideo (#34); он извлекает кадры с выбранной вами частотой, чтобы нижестоящие узлы видели чистую, ограниченную последовательность. Эти кадры упаковываются как поток кондиционирования видео WooshLoadVideo (#37), который стандартизирует продолжительность, чтобы генератор получал стабильные окна.

Выберите модель, обусловленную видео, в WooshLoadFlow (#7), обычно VFlow для верности или DVFlow для скорости. Укажите короткую описательную подсказку в сэмплере (для стиля или намерения) и установите WooshTextEncode (#19) на V2A, чтобы текст был внедрен с правильной ветвью кондиционирования. Запустите WooshSample (#38) для синтеза аудио; он выводит как audio для PreviewAudio (#9), так и video_frames, которые переходят в VHS_VideoCombine (#33) для быстрого сшитого предварительного просмотра, сохраняя Генерацию звукового эффекта Woosh компактной для редакторского просмотра.

Текст в Аудио

Группа Текст в Аудио фокусируется на чистой генерации, основанной на подсказках. Выберите модель в WooshLoadFlow (#40), используя Flow, когда вам нужно максимальное качество, и DFlow, когда вам нужны очень быстрые, итеративные проходы. Установите WooshTextEncode (#41) на T2A, чтобы ваша подсказка была внедрена для генерации только текста. Введите ваше описание в WooshSample (#39) и выполните; результат отправляется в PreviewAudio (#43) для мгновенного прослушивания. Этот путь сохраняет Генерацию звукового эффекта Woosh легкой, когда вы создаете библиотеки или накладываете эффекты без изображения.

Ключевые узлы в рабочем процессе Генерации звукового эффекта Woosh Comfyui

WooshSample (#38)

Центральный сэмплер для генерации, обусловленной видео. Настройте подсказку, чтобы управлять стилем и началом, затем отрегулируйте steps для компромисса между качеством и скоростью (используйте меньше шагов при запуске DVFlow). cfg контролирует соблюдение подсказок, а latent_frames определяет длину вывода, чтобы она совпадала или намеренно смещалась относительно клипа. Установите seed для воспроизведения дублей и включите force_offload, когда вам нужно очистить память между длинными запусками. Реализация узла и поведение следуют официальному ComfyUI-Woosh.

WooshSample (#39)

Сэмплер для text‑to‑audio с такими же контролями и поведением, за исключением видеопотока. Для быстрой генерации выберите DFlow и низкие steps; для финалов переключитесь на Flow и увеличьте steps для детализации. Держите cfg умеренным для естественных текстур, поднимайте выше для стилизованных, строго соответствующих подсказкам результатов. Используйте latent_frames, чтобы точно установить продолжительность при создании активов для библиотек или временных шкал DAW.

WooshLoadFlow (#7)

Выбор модели для пути Видео в Аудио. Выберите VFlow для наивысшей точности выравнивания с движением или DVFlow, когда вам нужны почти в реальном времени предварительные просмотры. Убедитесь, что WooshTextEncode установлен на V2A, чтобы внедрения соответствовали выбранной семье моделей. См. drbaph/Woosh для вариантов моделей.

WooshLoadFlow (#40)

Выбор модели для пути Текст в Аудио. Выберите Flow для богатой детализации и более широкого разнообразия текстур или DFlow для быстрого итеративного процесса с минимальными шагами. Сопоставьте это с WooshTextEncode в режиме T2A, чтобы избежать несоответствий кондиционирования. Поведение узла и опции следуют официальному ComfyUI-Woosh.

VHS_VideoCombine (#33)

Утилита для сборки сгенерированного audio с предварительным просмотром video_frames из сэмплера для создания клипа для просмотра. Используйте его, чтобы заметить синхронизацию, оценить переходы и поделиться дэйлисами, не выходя из ComfyUI. Часть ComfyUI-VideoHelperSuite.

Дополнительные возможности

  • Используйте DVFlow/DFlow для быстрого поиска, затем переключитесь на VFlow/Flow для финалов, когда Генерация звукового эффекта Woosh должна блеснуть.
  • Держите ваш входной клип в пределах окна выбранной модели (например, 8-секундные варианты VFlow) и обрабатывайте более длинные сцены в перекрывающихся фрагментах, которые можно перекрестно затухать.
  • Поддерживайте постоянную частоту кадров от VHS_LoadVideo до VHS_VideoCombine, чтобы уменьшить дрейф между аудио и изображением.
  • Для подсказок сочетайте слова действия с текстурой и акустическим контекстом (например, "быстрый металлический свист в бетонной лестничной клетке"), чтобы получить предсказуемые результаты.
  • Включите force_offload в сэмплере между тяжелыми запусками, если память GPU ограничена.

Благодарности

Этот рабочий процесс реализует и опирается на следующие работы и ресурсы. Мы искренне благодарим Sony Research за Woosh (проект и статья), Saganaki22 за ComfyUI-Woosh (узел ComfyUI) и Kosinkadink за ComfyUI-VideoHelperSuite за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

  • Saganaki22/ComfyUI-Woosh
    • GitHub: Saganaki22/ComfyUI-Woosh
  • drbaph/Woosh
    • Hugging Face: drbaph/Woosh
  • SonyResearch/Woosh
    • GitHub: SonyResearch/Woosh
  • Sony Research/Woosh (статья)
    • arXiv: 2502.07359
  • Kosinkadink/ComfyUI-VideoHelperSuite
    • GitHub: Kosinkadink/ComfyUI-VideoHelperSuite

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

MMAudio | Видео-в-Аудио

MMAudio: Продвинутая модель видео-в-аудио для высококачественной генерации аудио.

Stable Audio Open 1.0 | Инструмент Текст-в-Музыку

Преобразует текстовые подсказки в кинематографическую музыку быстро и без швов.

Генерация музыки ACE-Step | Создание аудио с помощью ИИ

Создавайте студийного качества музыку в 15 раз быстрее с прорывной технологией диффузии.

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

Fish Audio S2 TTS | Генератор выразительного голоса

Создавайте реалистичную речь с эмоциями, стилями и клонированными голосами быстро.

Wan 2.1 Fun | Управление движением по траектории

Проектируйте траектории движения, чтобы анимировать неподвижные фотографии в видео.

AnimateDiff + ControlNet TimeStep KeyFrame | Морфинг Анимация

Установите ControlNet Timestep KeyFrames, такие как первые и последние кадры, чтобы создать анимации морфинга.

Hunyuan LoRA

Используйте загруженные Hunyuan LoRAs для управления стилем и консистентностью персонажей при генерации видео.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.