Woosh 사운드 효과 생성: ComfyUI에서 프롬프트 및 비디오 조건화된 오디오
Woosh 사운드 효과 생성은 ComfyUI 워크플로우로, Sony Research의 Woosh 기반 모델을 사용하여 텍스트 프롬프트나 비디오 클립을 세련된 사운드 효과로 변환합니다. 프롬프트 기반 폴리, 비디오에 정확히 맞춘 사운드 디자인, 고품질과 빠른 증류 변형 간의 빠른 전환을 필요로 하는 제작자를 위해 만들어졌습니다.
이 워크플로우는 두 가지 Woosh 모델 계열을 공개합니다: 텍스트에서 오디오로의 Flow/DFlow와 비디오에서 오디오로의 VFlow/DVFlow. 공유 샘플러가 두 경로에서 생성하여 즉시 미리듣기 오디오를 출력하고, 비디오 경로에서는 빠른 일일 미리보기용으로 프레임 미리보기를 다시 결합합니다. 내부적으로는 공식 ComfyUI Woosh 노드와 VideoHelperSuite를 사용하여 매끄러운 비디오 IO를 제공합니다. 따라서 Woosh 사운드 효과 생성은 빠르고 간단하면서도 유연성을 유지합니다. 참고 자료: SonyResearch/Woosh, drbaph/Woosh on Hugging Face, paper, ComfyUI-Woosh, ComfyUI-VideoHelperSuite.
ComfyUI Woosh 사운드 효과 생성 워크플로우의 주요 모델
- Sony Research Woosh — Flow: 고품질 폴리 및 환경음을 위한 텍스트에서 오디오로의 핵심 생성기. 흐름 매칭 목표로 훈련되었습니다. SonyResearch/Woosh 및 paper 참조.
- Sony Research Woosh — DFlow: 샘플링 단계를 대폭 줄여 속도를 최적화한 증류 텍스트에서 오디오로의 모델로, 빠른 반복에 이상적입니다. drbaph/Woosh에서 가중치 이용 가능.
- Sony Research Woosh — VFlow‑8s: 비디오 조건화 생성기로, 비디오에서 오디오로의 시각적 움직임 신호에 맞춰 오디오 시작점과 텍스처를 동기화합니다. SonyResearch/Woosh 참조.
- Sony Research Woosh — DVFlow‑8s: 실시간 경량 워크플로우와 빠른 미리보기용 증류 비디오에서 오디오로의 모델. 가중치: drbaph/Woosh.
- Woosh‑AE: 모델 잠재 변수에서 파형을 재구성하는 오디오 오토인코더; 모든 생성기에 필요합니다. 가중치: drbaph/Woosh.
- TextConditionerA 및 TextConditionerV: 텍스트에서 오디오 또는 비디오에서 오디오 실행에 적절하게 프롬프트를 임베드하는 텍스트 조건화 모듈. ComfyUI-Woosh 및 paper에서 세부 사항 및 사용법 문서화.
ComfyUI Woosh 사운드 효과 생성 워크플로우 사용법
이 워크플로우에는 독립적으로 실행할 수 있는 두 개의 병렬 그룹이 있습니다: 비디오에서 오디오로의 시각적 맞춤 사운드 디자인과 텍스트에서 오디오로의 순수 프롬프트 기반 폴리. 둘 다 동일한 샘플러 논리와 빠른 오디오 미리보기에 수렴하여 입력에 관계없이 Woosh 사운드 효과 생성을 일관되게 운영할 수 있습니다.
비디오에서 오디오로
비디오에서 오디오로의 그룹은 클립을 로드하고, 프레임과 조건을 정렬한 다음 동기화된 사운드를 생성합니다. VHS_LoadVideo (#34)에 클립을 입력하여 시작하세요; 선택한 속도로 프레임을 추출하여 후속 노드에서 깨끗하고 경계가 있는 시퀀스를 볼 수 있습니다. 이러한 프레임은 WooshLoadVideo (#37)에 의해 비디오 조건화 스트림으로 포장되어, 생성기가 일정한 창을 받도록 지속 시간을 표준화합니다.
WooshLoadFlow (#7)에서 비디오 조건화 모델을 선택하세요. 일반적으로 VFlow는 충실도를 위해, DVFlow는 속도를 위해 사용됩니다. 샘플러에 짧은 설명 프롬프트를 제공하고 (스타일 또는 의도용), WooshTextEncode (#19)를 V2A로 설정하여 텍스트가 올바른 조건화 분기로 임베드되도록 하세요. WooshSample (#38)을 실행하여 오디오를 합성하세요; audio는 PreviewAudio (#9)로 출력되고, video_frames는 VHS_VideoCombine (#33)으로 흘러가 빠르게 연결된 미리보기를 생성하여 Woosh 사운드 효과 생성을 편집 리뷰에 적합하게 유지합니다.
텍스트에서 오디오로
텍스트에서 오디오로의 그룹은 깔끔한 프롬프트 기반 생성을 중점으로 합니다. WooshLoadFlow (#40)에서 모델을 선택하세요. 최대 품질을 원할 때는 Flow를, 매우 빠르고 반복적인 패스를 원할 때는 DFlow를 사용하세요. WooshTextEncode (#41)를 T2A로 설정하여 텍스트 전용 생성에 대해 프롬프트가 임베드되도록 하세요. WooshSample (#39)에 설명을 입력하고 실행하세요; 결과는 즉시 청취를 위해 PreviewAudio (#43)로 전송됩니다. 이 경로는 라이브러리를 제작하거나 그림 없이 효과를 레이어링할 때 Woosh 사운드 효과 생성을 경량으로 유지합니다.
ComfyUI Woosh 사운드 효과 생성 워크플로우의 주요 노드
WooshSample (#38)
비디오 조건화 생성의 중앙 샘플러입니다. 스타일과 시작점을 조정하기 위해 프롬프트를 조정하고, 품질-속도 균형을 위해 steps를 조정하세요 (DVFlow를 실행할 때는 적은 단계를 사용). cfg는 프롬프트 준수를 제어하고, latent_frames는 출력 길이를 결정하여 클립과 맞추거나 의도적으로 오프셋합니다. 테이크를 재현하려면 seed를 설정하고, 긴 실행 사이에 메모리를 비워야 할 때 force_offload를 활성화하세요. 노드 구현 및 동작은 공식 ComfyUI-Woosh를 따릅니다.
WooshSample (#39)
비디오 스트림이 없는 텍스트에서 오디오로의 샘플러로, 동일한 제어 및 동작을 갖습니다. 빠른 아이디어 구상을 위해 DFlow와 낮은 steps를 선택하고, 최종본을 위해 Flow로 전환하여 steps를 높여 세부 사항을 추가하세요. 자연스러운 텍스처를 위해 cfg를 중간 수준으로 유지하고, 스타일화된 프롬프트 고정 결과를 위해 높여보세요. 라이브러리나 DAW 타임라인 자산을 구축할 때는 latent_frames를 사용하여 지속 시간을 정확하게 설정하세요.
WooshLoadFlow (#7)
비디오에서 오디오로의 경로를 위한 모델 선택기입니다. 움직임에 대한 가장 높은 충실도 정렬을 위해 VFlow를 선택하거나, 거의 실시간 미리보기를 원할 때 DVFlow를 선택하세요. 선택한 모델 계열과 임베딩이 일치하도록 WooshTextEncode를 V2A로 설정하세요. 모델 변형에 대한 자세한 내용은 drbaph/Woosh를 참조하세요.
WooshLoadFlow (#40)
텍스트에서 오디오로의 경로를 위한 모델 선택기입니다. 풍부한 세부 사항과 더 넓은 텍스처 다양성을 위해 Flow를 선택하거나, 최소 단계로 빠른 반복을 위해 DFlow를 선택하세요. 조건화 불일치를 피하기 위해 T2A 모드에서 WooshTextEncode와 짝을 이루세요. 노드 동작 및 옵션은 공식 ComfyUI-Woosh를 따릅니다.
VHS_VideoCombine (#33)
샘플러의 audio와 video_frames 미리보기를 결합하여 검토 가능한 클립을 생성하는 유틸리티입니다. 동기화를 확인하고, 전환을 평가하며, ComfyUI를 떠나지 않고 일일 미리보기를 공유하는 데 사용합니다. ComfyUI-VideoHelperSuite의 일부입니다.
선택적 추가 기능
- 빠른 정찰 패스를 위해 DVFlow/DFlow를 사용한 후, Woosh 사운드 효과 생성이 빛나야 할 때는 VFlow/Flow로 전환하세요.
- 입력 클립을 선택한 모델의 창 내에 유지하고 (예: 8초 VFlow 변형), 교차 페이드를 할 수 있는 겹치는 청크로 긴 장면을 처리하세요.
VHS_LoadVideo에서VHS_VideoCombine까지 일관된 프레임 속도를 유지하여 오디오와 그림 간의 드리프트를 줄이세요.- 프롬프트를 위해, 예측 가능한 결과를 얻기 위해 액션 단어를 텍스처 및 음향 컨텍스트와 짝지어 사용하세요 (예: “콘크리트 계단에서 빠른 금속성 우쉬”).
- GPU 메모리가 부족한 경우 샘플러에서 무거운 실행 간에
force_offload를 켜세요.
감사의 글
이 워크플로우는 다음 작업 및 리소스를 구현하고 이를 기반으로 구축합니다. Woosh (프로젝트 및 논문)에 대한 Sony Research, ComfyUI-Woosh (ComfyUI 노드)에 대한 Saganaki22, ComfyUI-VideoHelperSuite에 대한 Kosinkadink의 기여와 유지 관리에 감사드립니다. 권위 있는 세부 사항은 아래에 연결된 원본 문서 및 저장소를 참조하십시오.
리소스
- Saganaki22/ComfyUI-Woosh
- GitHub: Saganaki22/ComfyUI-Woosh
- drbaph/Woosh
- Hugging Face: drbaph/Woosh
- SonyResearch/Woosh
- GitHub: SonyResearch/Woosh
- Sony Research/Woosh (paper)
- arXiv: 2502.07359
- Kosinkadink/ComfyUI-VideoHelperSuite
Note: 참조된 모델, 데이터셋 및 코드는 해당 저자 및 유지 관리자가 제공하는 라이선스 및 조건에 따릅니다.
