logo
RunComfy
  • ComfyUI
  • TreinadorNovo
  • Modelos
  • API
  • Preços
discord logo
ComfyUI>Fluxos de Trabalho>Geração de Efeito Sonoro Woosh | Text2Audio + VideoSync

Geração de Efeito Sonoro Woosh | Text2Audio + VideoSync

Workflow Name: RunComfy/Woosh-Sound-Effect-Generation
Workflow ID: 0000...1392
Este fluxo de trabalho ajuda você a criar efeitos sonoros perfeitamente cronometrados diretamente de dicas de texto ou cenas de vídeo. Apresentando o modelo Woosh da Sony AI, ele permite que você alterne rapidamente entre modos de velocidade e qualidade. Você pode construir Foley imersivo ou gerar áudio sincronizado sem configurações complexas. Projetado para criadores que buscam fluxos de trabalho de design de som sem esforço. O sistema alinha o áudio gerado precisamente ao movimento visual para uma narrativa melhor. Você ganha controle criativo total com uma única interface simplificada.

Geração de Efeito Sonoro Woosh: áudio condicionado por prompt e vídeo no ComfyUI

A Geração de Efeito Sonoro Woosh é um fluxo de trabalho do ComfyUI que transforma prompts de texto ou clipes de vídeo em efeitos sonoros polidos usando o modelo Woosh da Sony Research. É construído para criadores que precisam de um lugar para Foley baseado em prompt, design de som estreitamente combinado com vídeo e troca rápida entre variantes destiladas de alta qualidade e rápidas.

O fluxo de trabalho expõe ambas as famílias de modelos Woosh: Flow/DFlow para texto-para-áudio e VFlow/DVFlow para vídeo-para-áudio. Um sampler compartilhado impulsiona a geração em ambos os caminhos, gerando áudio para pré-visualização imediata e, no caminho do vídeo, pré-visualizações de quadros que são recombinadas para dailies rápidas. Sob o capô, ele depende dos nós oficiais do ComfyUI Woosh e do VideoHelperSuite para IO de vídeo contínuo, então a Geração de Efeito Sonoro Woosh permanece rápida e simples enquanto continua flexível. Referências: SonyResearch/Woosh, drbaph/Woosh on Hugging Face, paper, ComfyUI-Woosh, ComfyUI-VideoHelperSuite.

Modelos principais no fluxo de trabalho Comfyui Woosh Sound Effect Generation

  • Sony Research Woosh — Flow: gerador de texto-para-áudio central usado para Foley de alta fidelidade e ambiente, treinado com objetivos de correspondência de fluxo. Veja SonyResearch/Woosh e o paper.
  • Sony Research Woosh — DFlow: modelo de texto-para-áudio destilado otimizado para velocidade com muito menos etapas de amostragem, ideal para iteração rápida. Os pesos estão disponíveis via drbaph/Woosh.
  • Sony Research Woosh — VFlow‑8s: gerador condicionado por vídeo que sincroniza inícios e texturas de áudio com dicas de movimento visual para vídeo-para-áudio. Veja SonyResearch/Woosh.
  • Sony Research Woosh — DVFlow‑8s: modelo de vídeo-para-áudio destilado para fluxos de trabalho em tempo real e pré-visualizações rápidas. Pesos: drbaph/Woosh.
  • Woosh‑AE: o autoencoder de áudio usado para reconstruir formas de onda a partir de latentes do modelo; necessário por todos os geradores. Pesos: drbaph/Woosh.
  • TextConditionerA e TextConditionerV: módulos de condicionamento de texto que incorporam prompts adequadamente para execuções de texto-para-áudio ou vídeo-para-áudio. Detalhes e uso estão documentados em ComfyUI-Woosh e o paper.

Como usar o fluxo de trabalho Comfyui Woosh Sound Effect Generation

Este fluxo de trabalho tem dois grupos paralelos que você pode executar de forma independente: Vídeo para Áudio para design de som combinado visualmente e Texto para Áudio para Foley puramente baseado em prompt. Ambos convergem na mesma lógica de sampler e pré-visualização rápida de áudio, tornando a Geração de Efeito Sonoro Woosh consistente para operar independentemente da entrada.

Vídeo para Áudio

O grupo Vídeo para Áudio carrega um clipe, alinha quadros e condicionamento, e depois gera som sincronizado. Comece alimentando seu clipe em VHS_LoadVideo (#34); ele extrai quadros na taxa escolhida para que os nós a jusante vejam uma sequência limpa e delimitada. Esses quadros são empacotados como um fluxo de condicionamento de vídeo por WooshLoadVideo (#37), que padroniza a duração para que o gerador receba janelas estáveis.

Escolha um modelo condicionado por vídeo em WooshLoadFlow (#7), tipicamente VFlow para fidelidade ou DVFlow para velocidade. Forneça um prompt descritivo curto no sampler (para estilo ou intenção) e defina WooshTextEncode (#19) para V2A para que o texto seja incorporado com o ramo de condicionamento correto. Execute WooshSample (#38) para sintetizar áudio; ele gera tanto audio para PreviewAudio (#9) quanto video_frames que fluem para VHS_VideoCombine (#33) para uma pré-visualização rápida costurada, mantendo a Geração de Efeito Sonoro Woosh apertada para revisão editorial.

Texto para Áudio

O grupo Texto para Áudio foca na geração limpa dirigida por prompt. Selecione um modelo em WooshLoadFlow (#40), usando Flow quando você quiser máxima qualidade e DFlow quando precisar de passagens muito rápidas e iterativas. Defina WooshTextEncode (#41) para T2A para que seu prompt seja incorporado para geração apenas de texto. Insira sua descrição em WooshSample (#39) e execute; o resultado é enviado para PreviewAudio (#43) para audição instantânea. Este caminho mantém a Geração de Efeito Sonoro Woosh leve quando você está criando bibliotecas ou camadas de efeitos sem imagem.

Nós principais no fluxo de trabalho Comfyui Woosh Sound Effect Generation

WooshSample (#38)

Sampler central para geração condicionada por vídeo. Ajuste o prompt para direcionar o estilo e os inícios, depois ajuste steps para o trade-off qualidade-velocidade (use menos etapas ao executar DVFlow). cfg controla a aderência ao prompt, e latent_frames determina o comprimento da saída para que corresponda ou intencionalmente desloque o clipe. Defina seed para reproduzir takes, e ative force_offload quando precisar limpar a memória entre execuções longas. A implementação e o comportamento do nó seguem o oficial ComfyUI-Woosh.

WooshSample (#39)

Sampler para texto-para-áudio com os mesmos controles e comportamento, menos o fluxo de vídeo. Para ideação rápida, escolha DFlow e baixos steps; para finais, mude para Flow e aumente steps para detalhes. Mantenha cfg moderado para texturas naturais, aumente para resultados estilizados, bloqueados por prompt. Use latent_frames para definir a duração precisamente ao construir ativos para bibliotecas ou cronogramas DAW.

WooshLoadFlow (#7)

Seletor de modelo para o caminho Vídeo para Áudio. Escolha VFlow para o alinhamento de maior fidelidade ao movimento, ou DVFlow quando precisar de pré-visualizações quase em tempo real. Certifique-se de que WooshTextEncode esteja definido para V2A para que as incorporações correspondam à família de modelos escolhida. Veja drbaph/Woosh para variantes do modelo.

WooshLoadFlow (#40)

Seletor de modelo para o caminho Texto para Áudio. Escolha Flow para detalhes ricos e maior variedade de texturas, ou DFlow para iteração rápida com etapas mínimas. Emparelhe com WooshTextEncode no modo T2A para evitar incompatibilidades de condicionamento. O comportamento e as opções do nó acompanham o oficial ComfyUI-Woosh.

VHS_VideoCombine (#33)

Utilitário para montar o audio gerado com a pré-visualização de video_frames do sampler para produzir um clipe revisável. Use-o para verificar a sincronização, avaliar transições e compartilhar dailies sem sair do ComfyUI. Parte do ComfyUI-VideoHelperSuite.

Extras opcionais

  • Use DVFlow/DFlow para passagens de reconhecimento rápido, depois mude para VFlow/Flow para finais quando a Geração de Efeito Sonoro Woosh deve brilhar.
  • Mantenha seu clipe de entrada dentro da janela do modelo selecionado (por exemplo, as variantes VFlow de 8 segundos) e processe cenas mais longas em pedaços sobrepostos que você pode fundir gradualmente.
  • Mantenha uma taxa de quadros consistente de VHS_LoadVideo através de VHS_VideoCombine para reduzir o desvio entre áudio e imagem.
  • Para prompts, combine palavras de ação com textura e contexto acústico (por exemplo, "whoosh metálico rápido em uma escada de concreto") para obter resultados previsíveis.
  • Ative force_offload no sampler entre execuções pesadas se a memória GPU estiver apertada.

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente à Sony Research pelo Woosh (projeto e artigo), Saganaki22 pelo ComfyUI-Woosh (nó ComfyUI), e Kosinkadink pelo ComfyUI-VideoHelperSuite por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • Saganaki22/ComfyUI-Woosh
    • GitHub: Saganaki22/ComfyUI-Woosh
  • drbaph/Woosh
    • Hugging Face: drbaph/Woosh
  • SonyResearch/Woosh
    • GitHub: SonyResearch/Woosh
  • Sony Research/Woosh (paper)
    • arXiv: 2502.07359
  • Kosinkadink/ComfyUI-VideoHelperSuite
    • GitHub: Kosinkadink/ComfyUI-VideoHelperSuite

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

Stable Audio Open 1.0 | Ferramenta Texto-para-Música

Transforma prompts de texto em música cinematográfica de forma contínua e rápida.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Fish Audio S2 TTS | Gerador de Voz Expressiva

Crie fala realista com emoções, estilos e vozes clonadas rapidamente.

IPAdapter Plus (V2) + ControlNet | Imagem para Vídeo

Converta imagens em animações com ComfyUI IPAdapter Plus e ControlNet QRCode.

Wan2.2 Fun Inp | Gerador de Vídeos Cinematográficos

De 2 imagens a vídeos deslumbrantes com transições suaves e controláveis.

AnimateDiff + ControlNet + IPAdapter V1 | Estilo Anime Plano

Dê aos seus vídeos uma transformação única de anime sem esforço, capturando o vibrante estilo plano

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.