Wooshサウンドエフェクト生成: ComfyUIでのプロンプトとビデオ条件付きオーディオ
Wooshサウンドエフェクト生成は、Sony ResearchのWooshファウンデーションモデルを使用して、テキストプロンプトまたはビデオクリップを洗練されたサウンドエフェクトに変換するComfyUIワークフローです。プロンプトベースのフォーリー、ビデオにぴったりマッチしたサウンドデザイン、そして高品質と高速蒸留バリアントの迅速な切り替えを必要とするクリエイターのために構築されています。
このワークフローは、Wooshモデルの両ファミリーを公開しています: Flow/DFlowはテキストからオーディオへの変換、VFlow/DVFlowはビデオからオーディオへの変換を行います。両方のパスで生成を駆動する共通のサンプラーがあり、即時プレビューのためのオーディオを出力し、ビデオパスではクイックデイリーズ用に再結合されるフレームプレビューを出力します。裏では、公式のComfyUI WooshノードとVideoHelperSuiteに依存して、シームレスなビデオIOを実現しているため、Wooshサウンドエフェクト生成は高速かつシンプルでありながら柔軟性を保っています。参考文献: SonyResearch/Woosh, drbaph/Woosh on Hugging Face, paper, ComfyUI-Woosh, ComfyUI-VideoHelperSuite.
Comfyui Wooshサウンドエフェクト生成ワークフローの主要モデル
- Sony Research Woosh — Flow: 高忠実度のフォーリーと雰囲気のために使用されるコアテキストからオーディオへのジェネレーターで、フローマッチングの目標でトレーニングされています。SonyResearch/Wooshとpaperを参照してください。
- Sony Research Woosh — DFlow: サンプリングステップを大幅に減らしてスピードに最適化された蒸留テキストからオーディオへのモデルで、迅速な反復に理想的です。ウェイトはdrbaph/Wooshで入手可能です。
- Sony Research Woosh — VFlow‑8s: ビデオ条件付きジェネレーターで、視覚的な動きのキューにオーディオの開始とテクスチャを同期させるビデオからオーディオへの変換を行います。SonyResearch/Wooshを参照してください。
- Sony Research Woosh — DVFlow‑8s: リアルタイムに傾いたワークフローとクイックプレビューのための蒸留ビデオからオーディオへのモデルです。ウェイト: drbaph/Woosh。
- Woosh‑AE: モデルの潜在から波形を再構築するために使用されるオーディオオートエンコーダーで、すべてのジェネレーターに必要です。ウェイト: drbaph/Woosh。
- TextConditionerAとTextConditionerV: テキストからオーディオまたはビデオからオーディオのラン用にプロンプトを適切に埋め込むテキスト条件モジュールです。ComfyUI-Wooshとpaperで詳細と使用法が記載されています。
Comfyui Wooshサウンドエフェクト生成ワークフローの使い方
このワークフローには、独立して実行できる2つの並列グループがあります: ビデオからオーディオへのビジュアルマッチサウンドデザインと、純粋なプロンプトベースのフォーリーのためのテキストからオーディオへの変換です。どちらも同じサンプラーのロジックとクイックオーディオプレビューに収束し、入力に関係なくWooshサウンドエフェクト生成を一貫して操作できます。
ビデオからオーディオ
ビデオからオーディオのグループはクリップをロードし、フレームと条件を整列させ、同期したサウンドを生成します。まず、VHS_LoadVideo (#34)にクリップを入力し、選択したレートでフレームを抽出してダウンストリームノードがクリーンで境界のあるシーケンスを確認できるようにします。これらのフレームはWooshLoadVideo (#37)によってビデオ条件付きストリームとしてパックされ、ジェネレーターが安定したウィンドウを受け取れるように期間を標準化します。
WooshLoadFlow (#7)でビデオ条件付きモデルを選択し、通常は忠実度のためにVFlowを、スピードのためにDVFlowを使用します。サンプラー内でスタイルや意図のための短い説明的なプロンプトを提供し、WooshTextEncode (#19)をV2Aに設定して、テキストが正しい条件付きブランチで埋め込まれるようにします。WooshSample (#38)を実行してオーディオを合成し、PreviewAudio (#9)のためのaudioとVHS_VideoCombine (#33)に流れるvideo_framesの両方を出力して、クイックステッチプレビューを作成し、Wooshサウンドエフェクト生成を編集レビューのためにタイトに保ちます。
テキストからオーディオ
テキストからオーディオのグループは、クリーンなプロンプト駆動の生成に焦点を当てています。WooshLoadFlow (#40)でモデルを選択し、最大の品質が必要なときはFlowを、非常に迅速な反復パスが必要なときはDFlowを使用します。WooshTextEncode (#41)をT2Aに設定して、プロンプトがテキストのみの生成用に埋め込まれるようにします。WooshSample (#39)に説明を入力して実行し、結果をPreviewAudio (#43)に送信して即座に聴くことができます。このパスは、ライブラリを作成したり、画像なしでエフェクトをレイヤー化するときにWooshサウンドエフェクト生成を軽量に保ちます。
Comfyui Wooshサウンドエフェクト生成ワークフローの主要ノード
WooshSample (#38)
ビデオ条件付き生成のための中央サンプラーです。スタイルと開始を導くためにプロンプトを調整し、stepsを調整して品質とスピードのトレードオフを行います(DVFlowを実行するときはステップを少なく使用します)。cfgはプロンプトの遵守を制御し、latent_framesは出力の長さを決定して、クリップに一致または意図的にオフセットします。テイクを再現するためにseedを設定し、長い実行間でメモリをクリアする必要があるときはforce_offloadを有効にします。ノードの実装と動作は公式のComfyUI-Wooshに従います。
WooshSample (#39)
テキストからオーディオへのサンプラーで、動画ストリームを除いて同じコントロールと動作を持ちます。クイックアイデア出しにはDFlowと低いstepsを選び、フィナーレにはFlowを選んで詳細のためにstepsを増やします。自然なテクスチャにはcfgを中程度に保ち、スタイライズされたプロンプトにロックされた結果には高く設定します。latent_framesを使用して、ライブラリやDAWタイムラインのアセットを構築する際に正確に期間を設定します。
WooshLoadFlow (#7)
ビデオからオーディオへのパス用のモデルセレクターです。最高の忠実度で動きに一致するためにはVFlowを選び、ほぼリアルタイムのプレビューが必要なときはDVFlowを選びます。選択したモデルファミリーに埋め込みが一致するようにWooshTextEncodeをV2Aに設定してください。drbaph/Wooshでモデルバリアントを確認してください。
WooshLoadFlow (#40)
テキストからオーディオへのパス用のモデルセレクターです。豊かな詳細と広いテクスチャのバリエーションを求めるときはFlowを選び、最小ステップで迅速な反復を求めるときはDFlowを選びます。WooshTextEncodeをT2Aモードでペアリングして、条件の不一致を避けます。ノードの動作とオプションは公式のComfyUI-Wooshに従います。
VHS_VideoCombine (#33)
生成されたaudioとサンプラーからのvideo_framesプレビューを組み合わせてレビュー可能なクリップを作成するためのユーティリティです。同期を確認し、トランジションを評価し、ComfyUIを離れることなくデイリーを共有するために使用します。ComfyUI-VideoHelperSuiteの一部です。
オプションの追加
- クイックスカウティングパスにはDVFlow/DFlowを使用し、Wooshサウンドエフェクト生成が輝く必要があるときはVFlow/Flowに切り替えます。
- 選択したモデルのウィンドウ内に入力クリップを保持し(例: 8秒のVFlowバリアント)、オーバーラップするチャンクで長いシーンを処理してクロスフェードします。
VHS_LoadVideoからVHS_VideoCombineまで一貫したフレームレートを維持して、オーディオと画像の間のドリフトを減らします。- プロンプトには、アクションワードをテクスチャと音響コンテキストとペアリングして(例: "コンクリート階段での高速金属ウーシュ")、予測可能な結果を得るようにします。
- GPUメモリが逼迫している場合は、サンプラーで重い実行の間に
force_offloadをオンにします。
謝辞
このワークフローは、以下の作品とリソースを実装し、構築しています。Woosh(プロジェクトと論文)、ComfyUI-Woosh(ComfyUIノード)、ComfyUI-VideoHelperSuiteの貢献とメンテナンスに対してSony Research、Saganaki22、Kosinkadinkに感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- Saganaki22/ComfyUI-Woosh
- GitHub: Saganaki22/ComfyUI-Woosh
- drbaph/Woosh
- Hugging Face: drbaph/Woosh
- SonyResearch/Woosh
- GitHub: SonyResearch/Woosh
- Sony Research/Woosh (paper)
- arXiv: 2502.07359
- Kosinkadink/ComfyUI-VideoHelperSuite
注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。

