LongCat Video Avatar 1.5 Single Character ComfyUI#
このワークフローは、単一の参照画像と音声トラックをリップシンクされた縦型トーキングアバターに変換します。LongCat-Avatar-15 と WanVideoWrapper カスタムノードを中心に構築されており、Whisper を使用して音声キューを抽出し、Wan 2.1 VAE を使用して潜在エンコード/デコードを行い、蒸留された LongCat LoRA でアイデンティティを保持します。結果として、キャラクターの外観と口の動きが同期した MP4 ポートレート動画が得られます。
単一キャラクターパスとして設計された LongCat Video Avatar 1.5 Single Character ComfyUI ワークフローは、RunComfy に対応したテンプレートで明確な入力と再現可能な出力を求めるクリエイターに理想的です。1 枚の顔画像と 1 つの音声クリップを提供し、いくつかのスタイルプロンプトを調整して、一貫したアバター動画を追加の配線なしでレンダリングします。
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI ワークフローの主要モデル#
- LongCat-Avatar-15 (蒸留) と LongCat Avatar LoRA: ComfyUI に適応されたアイデンティティ保持ビデオ生成ウェイト。アバターが話す間に外観を保持するためにコミュニティパックで提供されます。モデルファイル
- Wan 2.1 VAE: 参照フレームを潜在にエンコードし、最終フレームを画像にデコードするために使用されるビデオ指向の変分オートエンコーダー。同じコミュニティパックと一緒に含まれています。モデルファイル
- OpenAI Whisper large v3: 正確なリップシンクのために口の形状とタイミングを駆動する音声表現。モデルカード
- Google UMT5-XXL テキストエンコーダー: ポジティブ/ネガティブプロンプトをモーションとポーズのニュアンスの条件付けに変換します。モデルカード
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI ワークフローの使用方法#
グラフは、入力からビデオへの明確なパスに従います: アセットをロードし、音声埋め込みを計算し、テキストガイダンスを準備し、ルックをエンコードし、フレームをサンプルし、音声を多重化して保存します。
参照画像#
LoadImage (#26) に単一の正面向きのポートレートをロードします。画像は ImageResizeKJv2 (#25) によって 9:16 の縦型キャンバスに正規化され、キャラクターがフレームに歪みなく収まるようにします。最良のアイデンティティ保持のためには、クリーンで均等に照らされた顔を使用し、遮蔽物を最小限に抑えてください。ソースが幅広い場合は、頭と肩の周りを中心にトリミングします。
音声#
音声ファイルを LoadAudio (#5) にドロップします。必要に応じて TrimAudioDuration (#29) でクリップして、最終ビデオの長さがターゲットに一致するようにします。小さな数学ユーティリティ (Evaluate Floats (#39)) は、選択した秒数をフレーム毎秒で乗算して、総フレーム数を自動的に設定します。期間を制御する簡単な方法は、レンダリング前に秒数や FPS を調整することです。
音声埋め込み (リップシンク)#
LongCatAvatarWhisperEmbeds (#3) は、Whisper を実行して、音素、ポーズ、強調をエンコードする MultiTalk 埋め込みを生成します。これらの埋め込みは、口の形状と微細な頭の動きのタイミングのバックボーンです。ここでの総フレーム数と FPS がエクスポート設定と一致することを確認して、ドリフトを防ぎます。録音のレベルが変動する場合は、ラウドネス正規化をオプションで有効にします。
テキストガイダンス#
LoadWanVideoT5TextEncoder (#16) と WanVideoTextEncode (#15) は、ポジティブおよびネガティブプロンプトを条件付けに変換します。ポジティブプロンプトを使用して、希望する自然な動作 (落ち着いた頭の回転、微細なうなずき) を説明し、ネガティブプロンプトを使用して避けたいアーティファクト (硬直した動き、変形した手) を保持します。テキストガイダンスは、キャラクターのアイデンティティを変更することなく、モーションスタイルを調整します。
ルックをエンコード#
WanVideoVAELoader (#19) と WanVideoEncode (#24) は、ポートレートを潜在に変換します。WanVideoLongCatAvatarExtendEmbeds (#6) は、参照潜在と音声埋め込みを融合して、アイデンティティがフレーム全体で安定し、口が音声に従うようにします。音声がクリップより短い場合、ノードはタイミングがスムーズに保たれるように賢くパッドまたはループできます。
アバターモデルをロード#
WanVideoLoraSelect (#27) は、蒸留された LongCat Avatar LoRA を LongCat-Avatar-15 のベースにアタッチし、すべて WanVideoModelLoader (#8) によってロードされます。このペアリングは、表情豊かなトーキングモーションを可能にしながら顔の特徴を保持します。内部のブロックスワップヘルパーは、共有または控えめな GPU での VRAM 使用を予測可能に保ちます。
フレームをサンプル#
WanVideoSchedulerv2 (#52) は、LongCat 蒸留用に調整されたソルバースケジュールを選択し、WanVideoSamplerv2 (#51) は潜在ビデオを生成します。再現可能な結果を得るためにシードを設定し、プロンプトへの従順さを調整する必要がある場合はガイダンスの強度を調整します。サンプラーは、画像、テキスト、および音声駆動の画像埋め込みを一緒に取り、口、頭、アイデンティティを一貫させます。
MP4 をデコードして保存#
WanVideoDecode (#20) は、最終的な潜在を画像に戻します。VHS_VideoCombine (#14) は、フレームと音声を指定されたフレームレートとファイル名プレフィックスで H.264 MP4 に結合します。出力は、リップシンクとスタイルを保ったまま共有可能な縦型トーキングアバタークリップです。
Comfyui LongCat Video Avatar 1.5 Single Character ComfyUI ワークフローの主要ノード#
LongCatAvatarWhisperEmbeds (#3)#
リップシンクとミクロタイミングを駆動する Whisper から MultiTalk 音声埋め込みを作成します。fps と num_frames をエクスポートと一致させて、同期ずれを避けます。録音のレベルが変動する場合は、ラウドネス正規化を有効にします。このノードは WanVideoWrapper LongCat 統合から来ています。リポジトリ
WanVideoLongCatAvatarExtendEmbeds (#6)#
参照潜在と音声埋め込みをフレーム対応の画像埋め込みに融合します。音声がターゲットの長さより短い場合、モーションが自然に保たれるようにパッドまたはループ方法を選択します。スライス間でのアイデンティティの安定性を維持するためのオーバーラップと参照フレーム設定があります。リポジトリ
WanVideoModelLoader (#8)#
選択した LongCat Avatar LoRA で LongCat-Avatar-15 ベースをロードし、アイデンティティの忠実性を維持します。制約されたハードウェアで実行する際に含まれる VRAM 管理とブロックスワップオプションを使用します。配線を変更せずにスタイルを変更するために、ここで異なる LongCat バリアントまたは LoRA に切り替えます。リポジトリ
WanVideoSamplerv2 (#51)#
モデル、スケジューラ、テキスト、および画像埋め込みからフレームを合成するメインジェネレータ。プロンプトへの従順さを調整する必要がある場合は、分類器フリーガイダンスを調整します。複数のレンダリングで再現性をロックするためにシードを固定します。リポジトリ
ImageResizeKJv2 (#25)#
アバターが 9:16 フレームを満たすようにポートレート指向のキャンバスを準備します。顔と肩の周りのアスペクトを正確にトリミングして、信頼性のあるアイデンティティエンコーディングを保持します。エンコーダ/デコーダの可分性を一致させてエッジアーティファクトを回避します。
VHS_VideoCombine (#14)#
指定されたフレームレートとファイル名プレフィックスでフレームと音声を単一の MP4 に多重化します。簡単な反復トラッキングのためにメタデータ保存を有効にします。このノードは VideoHelperSuite の一部です。リポジトリ
オプションの追加機能#
- 明瞭な目と口を持つ中立的で正面向きの写真を使用し、遮蔽物や極端な角度を避けます。
- 長い沈黙を除去し、背景ノイズを減らして音声をクリーンにして、口の動きを安定させます。
- リップシンクの緊密さを維持するために、Whisper 埋め込みステージと最終エクスポートの間で FPS を一貫させます。
- より強いアイデンティティ保持のために、提供された LongCat Avatar LoRA を使用し、スタイル変更を意図する場合のみ LoRA を交換します。モデルファイル
- 同一の再レンダリングが必要な場合や、単一のプロンプト変更のみの A/B テストを行う場合は、固定シードを設定します。
- 低い VRAM でブロックスワップをモデルローダーで有効にして、安定性のために速度をやや犠牲にします。
謝辞#
このワークフローは、以下の作品とリソースを実装し、構築しています。ワークフローのソースを提供してくれた RunningHub、LongCat Video Avatar 1.5 の Meigen AI、LongCat-Video_comfy モデルファイルと ComfyUI-WanVideoWrapper の貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされているオリジナルのドキュメントとリポジトリを参照してください。
リソース#
- RunningHub/Workflow source
- ドキュメント / リリースノート: RunningHub workflow source
- Meigen AI/LongCat Video Avatar 1.5 プロジェクトページ
- ドキュメント / リリースノート: LongCat Video Avatar 1.5 project page
- Kijai/LongCat Video Comfy モデルファイル
- Hugging Face: Kijai/LongCat-Video_comfy
- Kijai/ComfyUI-WanVideoWrapper
- GitHub: kijai/ComfyUI-WanVideoWrapper
注意: 参照されたモデル、データセット、コードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。
