ComfyUIのMultiTalkワークフロー | 写真からトーキング動画へ

This ComfyUI MultiTalk workflow integrates MeiGen-AI's MultiTalk model with kijai's ComfyUI-WanVideoWrapper implementation. Credit to MeiGen-AI team for the innovative MultiTalk technology and kijai for the ComfyUI workflow integration!

Best used with 2X Large machines for stable memory performance.

ComfyUI MultiTalk Workflow

MultiTalk Workflow in ComfyUI | Photo to Talking Video

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI MultiTalk Examples

⚠️ 重要なお知らせ：このComfyUI MultiTalk実装は現在、単一人物の生成のみサポートしています。複数人物の会話機能は近日公開予定です。

1. MultiTalkとは？#

MultiTalkは、MeiGen-AIが開発したオーディオ駆動型マルチパーソン会話動画生成のための革新的なフレームワークです。顔の動きのみをアニメーション化する従来のトーキングヘッド生成手法とは異なり、MultiTalk技術はオーディオ入力との完璧なリップシンクを維持しながら、人々が話し、歌い、交流するリアルな動画を生成できます。MultiTalkは静止写真をダイナミックなトーキング動画に変換し、人物に望む通りに話したり歌ったりさせます。

2. MultiTalkの仕組み#

MultiTalkは高度なAI技術を活用してオーディオ信号と視覚情報の両方を理解します。ComfyUI MultiTalk実装は最適な結果のためにMultiTalk + Wan2.1 + Uni3Cを組み合わせています：

オーディオ分析： MultiTalkは強力なオーディオエンコーダー（Wav2Vec）を使用して、リズム、トーン、発音パターンを含むスピーチの微妙なニュアンスを理解します。

視覚的理解： 堅牢なWan2.1動画拡散モデルの上に構築されたMultiTalkは、人体解剖学、表情、体の動きを理解します（t2v/i2v生成についてはWan2.1ワークフローをご覧ください）。

カメラ制御： Uni3C controlnetを備えたMultiTalkは微細なカメラの動きとシーン制御を可能にし、動画をよりダイナミックでプロフェッショナルにします。美しいカメラモーション転送についてはUni3Cワークフローをご確認ください。

完璧な同期： 洗練されたアテンションメカニズムにより、MultiTalkは自然な表情とボディランゲージを維持しながら、リップの動きをオーディオと完璧に同期させます。

指示追従： よりシンプルな手法とは異なり、MultiTalkはオーディオ同期を維持しながら、テキストプロンプトに従ってシーン、ポーズ、全体的な動作を制御できます。

3. ComfyUI MultiTalkの利点#

高品質リップシンク： MultiTalkはミリ秒レベルのリップシンク精度を実現し、特に歌唱シナリオで印象的です
多用途なコンテンツ制作： MultiTalkはカートゥンキャラクターを含む様々なキャラクタータイプでスピーチと歌唱の両方の生成をサポートします
柔軟な解像度： MultiTalkは任意のアスペクト比で480Pまたは720Pの動画を生成します
長尺動画サポート： MultiTalkは最大15秒の動画を作成します
指示追従： MultiTalkはテキストプロンプトを通じてキャラクターのアクションとシーン設定を制御します

4. ComfyUI MultiTalkワークフローの使い方#

MultiTalkステップバイステップ使用ガイド#

ステップ1：MultiTalk入力の準備

参照画像のアップロード： Load Imageノードで「choose file to upload」をクリック
- 最高のMultiTalk結果のために鮮明な正面写真を使用
- 画像は自動的に最適なサイズにリサイズされます（832px推奨）
オーディオファイルのアップロード： LoadAudioノードで「choose file to upload」をクリック
- MultiTalkは様々なオーディオ形式（WAV、MP3など）をサポート
- クリアな音声/歌唱がMultiTalkで最良の結果をもたらします
- カスタム楽曲の作成には、同期された歌詞付きの高品質音楽を生成するAce-Step音楽生成ワークフローの使用を検討してください。
テキストプロンプトの記述： MultiTalk生成のためにテキストエンコードノードに希望するシーンを記述

ステップ2：MultiTalk生成設定の構成

サンプリングステップ： 20-40ステップ（高い = より良いMultiTalk品質、遅い生成）
Audio Scale： 最適なMultiTalkリップシンクのために1.0を維持
Embed Cond Scale： バランスの取れたMultiTalkオーディオコンディショニングのために2.0
カメラ制御： 微細な動きのためにUni3Cを有効化、または静的なMultiTalkショットのために無効化

ステップ3：オプションのMultiTalk拡張

LoRA加速： 最小限の品質損失でより速いMultiTalk生成のために有効化
動画拡張： MultiTalk後処理改善のための拡張ノードの使用
ネガティブプロンプト： MultiTalk出力で避けたい要素を追加（ぼやけ、歪みなど）

ステップ4：MultiTalkで生成

プロンプトをキューに入れてMultiTalk生成を待つ
VRAM使用量を監視（MultiTalkには48GB推奨）
MultiTalk生成時間：設定とハードウェアに応じて7-15分

5. 謝辞#

オリジナル研究： MultiTalkはMeiGen-AIがこの分野の主要研究者との協力により開発しました。オリジナル論文「Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation」はこの技術の画期的な研究を示しています。

ComfyUI統合： ComfyUI実装はComfyUI-WanVideoWrapperリポジトリを通じてKijaiが提供し、この高度な技術をより広いクリエイティブコミュニティに利用可能にしています。

基盤技術： Wan2.1動画拡散モデルの上に構築され、Wav2Vecのオーディオ処理技術を組み込んでおり、最先端AI研究の総合を表しています。

6. リンクとリソース#

オリジナル研究： MeiGen-AI MultiTalk Repository
プロジェクトページ： https://meigen-ai.github.io/multi-talk/
ComfyUI統合： ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Sonic | リップシンクポートレートアニメーション

Sonicは、ポートレートのための高度なオーディオ駆動のリップシンクを高品質なアニメーションで提供します。

ACE-Step 音楽生成 | AI オーディオ作成

画期的な拡散技術でスタジオ品質の音楽を15倍速く生成します。

Uni3C ビデオ参照のカメラとモーション転送

参照ビデオからカメラの動きと人の動きを抽出してプロフェッショナルなビデオ生成を行う

LatentSync| Lip Sync Model

高度な音声駆動のリップシンク技術。

Wan 2.2 Qwen マルチアングルスプリットスタック | マルチビュービデオジェネレーター

1 つの画像を同期されたマルチアングルアニメーションビデオに素早く変換します。

Hunyuan Video 1.5 | 高速AIビデオジェネレーター

テキストや画像を滑らかな1080pビデオに素早く簡単に変換します。

Hunyuan Image 2.1 | 高解像度AI画像ジェネレーター

次世代2.1モデルで、鮮明でシャープ、超高精細なAIビジュアルを迅速に生成。

Qwen Image Edit 2511 | スマートイメージ編集ワークフロー

あなたが指示した通りに画像を編集します—迅速かつ正確に。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

MultiTalk | 写真からトーキング動画へ