注意:
これは、ComfyUI MultiTalk ワークフローのアップグレードされたマルチパーソンバージョンです。
今では、マルチパーソン会話ビデオ生成をサポートし、以前のバージョンのシングルパーソンモードも含まれています。
このワークフローは、ソーシャルコンテンツ、商品説明、キャラクター対話、迅速なプレビズに最適です。MultiTalkオーディオ埋め込みをビデオ拡散と組み合わせることで、唇、顎、微妙な顔の合図がスピーチに従います。Meigen MultiTalk マルチスピーカーシーンやスリムなシングルスピーカークリップのためのドロップインパスとして使用してください。
Wan 2.1 ビデオ拡散モデル
シーンの外観、カメラ、動きを処理し、会話のダイナミクスのための追加のガイダンスを受け入れながら、テキストおよび画像条件付きのビデオ生成を駆動します。
Wav2Vec 2.0
MultiTalkがトーキング固有の埋め込みに変換する堅牢なスピーチ表現を抽出します。参照: 。
MultiTalk (MeiGen-AI)
オーディオ駆動のマルチパーソン会話ビデオのための研究方法。参照実装: 。
ComfyUI Wan ビデオラッパー
Wan 2.1のロード、エンコーダー、ビデオサンプラー、およびMultiTalk埋め込みノードを公開するComfyUI統合。参照: 。
Index-TTS (オプション)
ワークフロー内でクリーンなダイアログトラックを生成するための音声参照付きのテキストからスピーチへの変換。参照: 。
このワークフローはエンドツーエンドで実行されます: スピーカーとオーディオを準備し、短いシーンプロンプトを設定し、レンダリングします。マルチパーソンとシングルパーソンの両方のセットアップをサポートします。グラフ内のグループは物事を整理された状態に保ち、最も重要なものは以下に説明されています。
スピーカーの顔のためのアイデンティティ画像とプレビューマスクをロードし、最終フレームをオーディオとマルチプレックスします。LoadImage
ノードはポートレートを受け入れ、VHS_VideoCombine
はレンダリングされたフレームを選択されたオーディオトラックと組み合わせてMP4にします。セットアップ中にPreviewAudio
でオーディオをスクラブしてレベルと持続時間を確認できます。
Get_WanModel
、Get_WanTextEncoder
、およびWanVideoModelLoader
は、テキストおよびVAEコンポーネントとともにWan 2.1を初期化します。これはエンジンルームと考えてください: ロードされると、ビデオサンプラーは画像、テキスト、および会話の埋め込みを受け入れることができます。ここで変更が必要なのは、正しいWanウェイトが選択されていることを確認することだけです。
独自のダイアログトラックを持ち込むか、合成できます:
LoadAudio
を使用して各スピーカーのラインをインポートします。クリップが音楽やノイズと混ざっている場合、AudioSeparation
を通過させ、クリーンなVocals
出力を前方にルートします。Speaker 1 - Text
およびSpeaker 2 - Text
を使用してIndexTTSNode
でタイプされたラインから声を合成し、望ましい音色のためにreference_audio
をオプションで提供します。MultiTalkWav2VecEmbeds
はスピーチをMultiTalk埋め込みに変換し、各スピーカーのタイミングと発声の合図をキャプチャします。シングルパーソンの場合は1つのオーディオストリームを、マルチパーソンの対話の場合は2つのストリームを供給します。シーンが顔固有のターゲティングを必要とする場合、クリーンな顔のマスクをref_target_masks
として提供し、各声が正しい人物を駆動するようにします。
Prompt
とWanVideoTextEncodeSingle
を介して短いシーンプロンプトが視覚的なムードと環境を設定します。プロンプトは簡潔で記述的に保ちます(場所、トーン、照明)。テキストエンコーダーは、Wanがアイデンティティと会話の信号とともに使用する意味的ガイダンスを生成します。
Uni3Cグループは、アイデンティティ、フレーミング、および構図を安定させるためのグローバルコンテキスト埋め込みを準備します。Resizeグループは、ソース画像とマスクがモデルに適したサイズにスケーリングされることを保証し、サンプラーが一貫した入力を受け取るようにします。
WanVideoSampler
はすべてが出会う場所です: アイデンティティ画像埋め込み、テキスト埋め込み、およびMultiTalkオーディオ埋め込みが組み合わさって最終フレームを生成します。下流のサンプリング処理グループは、ビデオコンバイナーに渡す前に滑らかさと一貫性のために必要な後処理ステップを適用します。
マルチパーソンクリップの場合、ComfyUIのマスクエディタで顔ごとに1つのマスクを描画します。マスクが触れ合わないように分けておきます。1つのマスクと1つのオーディオトラックだけを提供した場合、ワークフローは自動的にシングルパーソンMultiTalkセットアップとして動作します。
MultiTalkWav2VecEmbeds
(#79/#162)1つ以上のダイアログトラックをMultiTalk会話埋め込みに変換します。シングルパーソンの場合は1つのオーディオ入力、マルチパーソンの場合は2つのオーディオ入力で開始します。顔ごとのルーティングが必要な場合はマスクを追加します。重要なことだけを調整します: 計画したクリップの長さに合わせたフレーム数、および正確なスピーカーから顔の整列のためにref_target_masks
を提供するかどうか。
AudioSeparation
(#88/#160/#161)ノイズの多い入力のためのオプションのクリーンアップ。このノードにノイズの多いクリップをルートしてVocals
出力を前方に渡します。フィールド録音にバックグラウンドミュージックやおしゃべりが含まれている場合に使用し、すでにクリーンなボイストラックがある場合はスキップします。
IndexTTSNode
(#163/#164)Speaker 1 - Text
とSpeaker 2 - Text
をダイアログオーディオに変換します。トーンとペースのクローンを作成するために短いreference_audio
を提供し、次にテキストラインを供給します。MultiTalkでの最適なリップタイミングのために、文章を短く自然に保ちます。
WanVideoTextEncodeSingle
(#18)Wan 2.1のためにシーンプロンプトをエンコードします。場所、照明、スタイルの簡潔で具体的な説明を好みます。長いリストを避けます; サンプラーが理解するのに1、2文で十分です。
オリジナルリサーチ: MultiTalkは、MeiGen-AIによって開発され、分野の主要な研究者との協力で行われました。オリジナルの論文 "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" は、この技術の画期的な研究を紹介しています。 ComfyUI統合: ComfyUIによる実装は、KijaiによってComfyUI-WanVideoWrapperリポジトリを通じて提供され、この先進技術をより広いクリエイティブコミュニティに利用可能にしています。
基盤技術: Wan2.1ビデオ拡散モデルに基づき、Wav2Vecからのオーディオ処理技術を組み込み、最先端のAI研究の合成を表しています。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。