ComfyUIのLongCatアバター: 単一画像からトーキングアバタービデオへ
ComfyUIのLongCatアバターは、単一の参照画像をアイデンティティが安定した、音声駆動のアバタービデオに変換します。kijaiのWanVideoラッパーを基に構築され、顔の一貫性、滑らかな動きの連続性、自然なリップシンクに焦点を当てており、キャラクターごとの微調整は不要です。1つのキャラクター画像と音声トラックを提供するだけで、時間的に一貫したパフォーマンスをレンダリングします。トーキングヘッドクリップ、スタイライズドキャラクターパフォーマンス、迅速なアバターモーションテストに適しています。
迅速なイテレーションを求めるクリエイターには、ComfyUIのLongCatアバターが実用的で信頼性があります。このワークフローはLongCatのアイデンティティ保持モデルとウィンドウ生成スキームを使用してシーケンスを拡張しながら表情を安定させます。出力はソースオーディオと共にビデオに組み立てられ、簡単なレビューや公開が可能です。
注意: 2XL以上のマシンでは、WanVideo Model Loaderノードでattentionバックエンドを"sdpa"に設定してください。デフォルトのsegeattnバックエンドでは、ハイエンドGPUで互換性の問題が発生する可能性があります。
ComfyUIのLongCatアバターワークフローの主要モデル
- WanVideo用のLongCat-Avatarモデル。ComfyUIに適応したアイデンティティに焦点を当てた画像からビデオへの生成を提供し、フレーム間で強力なキャラクター保持を提供します。Hugging FaceでkijaiのWanVideo Comfyリリースを参照してチェックポイントとノートを確認してください。Hugging Face: Kijai/WanVideo_comfy
- LongCat distill LoRA。サンプリング中に顔の構造とアイデンティティの特徴を強化し、モーション下での安定性を向上させるディスティルドLoRA。WanVideo Comfyアセットで利用可能です。Hugging Face: Kijai/WanVideo_comfy
- Wan 2.1 VAE。参照フレームを潜在変数にエンコードし、生成されたサンプルを画像にデコードするビデオVAE。Hugging Face: Kijai/WanVideo_comfy
- UM-T5テキストエンコーダー。WanVideoによってテキストプロンプトを解釈し、シーンの説明とスタイルを指示しながらアイデンティティを保持します。Hugging Face: google/umt5-xxl
- Wav2Vec 2.0スピーチ表現。唇と顎の動きをMultiTalk埋め込みで駆動する堅牢なスピーチ機能を提供します。バックグラウンドペーパー: wav2vec 2.0。arXivと互換性のあるモデルバリアント: Hugging Face: TencentGameMate/chinese-wav2vec2-base
- MelBandRoFormerボーカルセパレーター。リップシンクモジュールがよりクリーンなスピーチ信号を受け取るためのオプションのボーカル-音楽分離。Hugging Face: Kijai/MelBandRoFormer_comfy
ComfyUIのLongCatアバターワークフローの使用方法
ワークフローには3つの主要フェーズがあります: モデルと設定、音声からモーションキュー、ウィンドウ拡張による参照画像からビデオ。音声駆動の動きに設計された固定レートでレンダリングされ、ウィンドウをシームレスなクリップにステッチします。
- モデル
WanVideoModelLoader(#122)はLongCat-AvatarチェックポイントとLongCat distill LoRAをロードし、WanVideoVAELoader(#129)はビデオVAEを提供します。WanVideoSchedulerv2(#325)は拡散中に使用されるサンプラースケジュールを準備します。これらのコンポーネントは忠実度、アイデンティティ保持、および一般的な見た目を定義します。一度設定されると、その後のすべてのサンプリングステップのバックボーンとして機能します。
- 音声
LoadAudio(#125)でボイストラックをロードし、必要に応じてTrimAudioDuration(#317)でトリムし、MelBandRoFormerSampler(#302)でボーカルを分離してバックグラウンドブリードを減らします。MultiTalkWav2VecEmbeds(#194)はクリーニングされた音声を口の動きや微妙な頭のダイナミクスを駆動する埋め込みに変換します。効果的なフレーム数は音声の持続時間から導出されるため、音声が長いほどシーケンスも長くなります。音声ストリームは後でビデオ結合ステージで画像と多重化されます。
- 入力画像
LoadImage(#284)でキャラクター画像を追加します。ImageResizeKJv2(#281)でモデル用にサイズを調整し、WanVideoEncode(#312)でアイデンティティをすべてのフレームでアンカーするref_latentに変換します。この潜在変数はLongCat Avatar in ComfyUIパイプラインがオーディオとプロンプトからの時間変化する動きを注入しながら再利用する固定参照です。
- ウィンドウ1の拡張
WanVideoLongCatAvatarExtendEmbeds(#345)はref_latentと音声埋め込みを融合して最初のウィンドウ用の画像埋め込みを作成します。WanVideoSamplerv2(#324)は潜在変数を短いクリップにデノイズします。WanVideoDecode(#313)はこれらをプレビュー用の画像に変換し、VHS_VideoCombine(#320)で最初のビデオエクスポートを行います。ウィンドウサイズとオーバーラップは内部で追跡され、次のウィンドウが目に見えるシームなしで整列できます。
- ウィンドウ2の拡張
- 2番目の拡張グループは同じアイデアを繰り返してシーケンスを続けます。
WanVideoLongCatAvatarExtendEmbeds(#346, #461)は前の潜在変数に条件付けされた埋め込みを計算し、現在のオーバーラップでフレーミングします。WanVideoSamplerv2(#327, #456)は次のチャンクを生成し、ImageBatchExtendWithOverlap(#341, #460)でデコードおよび結合して連続性を維持します。追加のウィンドウステップは長い結果のために繰り返すことができ、各ステージはVHS_VideoCombine(#386, #453)でエクスポートできます。
- 2番目の拡張グループは同じアイデアを繰り返してシーケンスを続けます。
ComfyUIのLongCatアバターワークフローの主要ノード
WanVideoModelLoader(#122)- LongCat-Avatarチェックポイントをロードし、LongCat distill LoRAを添付してアイデンティティの忠実度と動作を定義します。大規模なインスタンスを実行する場合は、WanVideoラッパーで推奨されるようにスループットを向上させるためにattention実装を切り替えてください。参照用リポジトリ: github.com/kijai/ComfyUI-WanVideoWrapper。
MultiTalkWav2VecEmbeds(#194)- 唇、顎、微妙な頭の動きを導くスピーチから音声駆動の埋め込みを生成します。より強い発音のためにスピーチの影響を増やし、音声が非常に明瞭な場合はより厳密な同期のための追加パスを考慮してください。バックグラウンドモデル情報: arXiv: wav2vec 2.0。
WanVideoLongCatAvatarExtendEmbeds(#346)- ComfyUIのLongCatアバターのコアであるこのノードは、参照潜在変数に固定したまま時間経過で画像埋め込みを拡張します。滑らかさ、実行時間、長いクリップでの安定性をバランスさせるためにウィンドウの長さとオーバーラップを調整してください。
WanVideoSamplerv2(#327)- モデル、スケジューラー、テキストガイダンス、画像埋め込みを使用して拡散プロセスを実行します。プロンプトの遵守とバリエーションのトレードオフを調整するためにガイダンスの強さを調整してください。小さな変更でもアイデンティティの剛性と動きに目に見える影響を与えることがあります。
VHS_VideoCombine(#320)- レンダリングされたフレームとオリジナルの音声をmp4に多重化して簡単に視聴できます。ビジュアルを音声と正確に一致させて終了させたい場合や最新のウィンドウのみをエクスポートしたい場合は、組み込みのトリミングオプションを使用してください。
オプションのエクストラ
- 計画されたすべての拡張ウィンドウをカバーするように音声の持続時間を確保して、シーケンスの途中でスピーチが切れるのを防ぎます。
- 長いクリップの場合、ウィンドウサイズを適度に増やし、いくつかのオーバーラップを保つことで遷移を滑らかにします。オーバーラップが少なすぎるとポップが発生し、オーバーラップが多すぎるとレンダリングが遅くなる可能性があります。
- パイプラインはスピーチ駆動のストライドに結びついた固定フレームレートで動作し、エクスポート時にリップシンクを一致させます。
- 大規模なマシンタイプを使用する場合、モデルローダーでメモリ効率の良いオプションにattention実装を設定して速度を向上させます。
- 互換性のないモデル形式を混在させないでください。メインモデルとスピーチコンポーネントは、WanVideo Comfyリリースで提供される一致するファミリーで保持してください。役立つモデルハブ: Kijai/WanVideo_comfyおよびGGUFバリアントのcity96/Wan2.1-I2V-14B-480P-gguf。
謝辞
このワークフローは以下の作品とリソースを実装し、それに基づいて構築されています。ComfyUI-WanVideoWrapper (LongCatAvatarワークフロー) のKijaiおよび参照されたYouTubeビデオの作成者@Benji’s AI Playgroundの貢献とメンテナンスに心から感謝します。権威ある詳細については、以下にリンクされているオリジナルのドキュメントおよびリポジトリを参照してください。
リソース
- YouTube/ビデオチュートリアル
- ドキュメント / リリースノート: Benji’s AI Playground YouTube video
- Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- ドキュメント / リリースノート: LongCatAvatar_testing_wip.json (branch longcat_avatar)
注意: 参照されたモデル、データセット、およびコードの使用は、それらの著者およびメンテナによって提供される各ライセンスおよび条件に従います。

