Character AI Ovi: ComfyUIでの画像からビデオへの同期音声
Character AI Oviは、1枚の画像を話し、動くキャラクターに変える視聴覚生成ワークフローです。Wanモデルファミリー上に構築され、WanVideoWrapperを通じて統合され、1回のパスでビデオとオーディオを生成し、表現豊かなアニメーション、知覚しやすいリップシンク、コンテキストに応じた雰囲気を提供します。短編ストーリー、バーチャルホスト、または映画的なソーシャルクリップを作成する場合、Character AI Oviは静止アートから数分で完全なパフォーマンスに変えることができます。
このComfyUIワークフローは、スピーチとサウンドデザインのための軽量なマークアップを含むテキストプロンプトと1枚の画像を受け入れます。口元、テンポ、シーンオーディオが自然に整列するようにフレームと波形を一緒に構成します。Character AI Oviは、個別のTTSやビデオツールをつなぎ合わせることなく、洗練された結果を求めるクリエイターのために設計されています。
Comfyui Character AI Oviワークフローの主要モデル
- Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation. テキストまたはテキスト+画像プロンプトからビデオとオーディオを共同で生成するコアモデルです。 character-ai/Ovi
- Wan 2.2 ビデオバックボーンとVAE。ワークフローは、詳細と時間的整合性を維持しながら、効率的な720p、24 fps生成のためにWanの高圧縮ビデオVAEを使用します。 Wan-AI/Wan2.2-TI2V-5B-Diffusers • Wan-Video/Wan2.2
- Google UMT5-XXL テキストエンコーダー。スピーチタグを含むプロンプトをリッチな多言語埋め込みにエンコードし、両方のブランチを駆動します。 google/umt5-xxl
- MMAudio VAEとBigVGANボコーダー。モデルのオーディオ潜在変数を高品質の音声と効果にデコードし、自然な音色を実現します。 hkchengrex/MMAudio • nvidia/bigvgan_v2_44khz_128band_512x
- KijaiによるComfyUI対応のOviウェイト。ビデオブランチ、オーディオブランチ、VAEのbf16およびfp8スケールのバリエーションのためのキュレートされたチェックポイント。 Kijai/WanVideo_comfy/Ovi • Kijai/WanVideo_comfy_fp8_scaled/TI2V/Ovi
- ComfyUI用WanVideoWrapperノード。WanとOviの機能を合成可能なノードとして公開するラッパーです。 kijai/ComfyUI-WanVideoWrapper
Comfyui Character AI Oviワークフローの使用方法
このワークフローはシンプルなパスに従います:プロンプトと画像をエンコードし、Oviのチェックポイントをロードし、ジョイントオーディオ+ビデオ潜在変数をサンプルし、デコードしてMP4にマックスします。以下のサブセクションは、どこで操作し、どの変更が結果に影響を与えるかを知るための可視ノードクラスターに対応しています。
スピーチとサウンドのプロンプト作成
シーンと話される行に対して1つのポジティブプロンプトを書きます。Oviタグを正確に次のように使用します:話される単語を<S>と<E>で囲み、非スピーチオーディオを<AUDCAP>と<ENDAUDCAP>で説明します。ビデオとオーディオの両方のブランチが同じポジティブプロンプト条件を持つため、リップモーションとタイミングが整合します。アーティファクトを独立して抑えるために、ビデオとオーディオの異なるネガティブプロンプトを使用できます。Character AI Oviは、短く明確なスピーチとステージ指示に良く応答します。
画像の取り込みとコンディショニング
1枚のポートレートまたはキャラクター画像をロードし、その後ワークフローがそれを潜在変数にサイズ変更してエンコードします。これにより、サンプラーのためのアイデンティティ、ポーズ、および初期フレーミングが確立されます。リサイズ段階からの幅と高さがビデオのアスペクトを設定します。アバターの場合は正方形、ショートの場合は縦を選択します。エンコードされた潜在変数と画像由来の埋め込みがサンプラーをガイドし、動きが元の顔に根ざしているように感じられます。
モデルのロードとパフォーマンスヘルパー
Character AI Oviは、Oviビデオモデル、フレーム用Wan 2.2 VAE、およびオーディオ用MMAudio VAEとBigVGANをロードします。トーチコンパイルと軽量キャッシュが含まれており、ウォームスタートを高速化します。ブロックスワップヘルパーが接続されており、必要に応じてトランスフォーマーブロックをオフロードすることでVRAM使用量を下げます。VRAMが制約されている場合は、ブロックスワップノードでブロックオフロードを増やし、リピート実行のためにキャッシュを有効にしておいてください。
ガイダンス付きジョイントサンプリング
サンプラーはOviのツインバックボーンを一緒に実行し、サウンドトラックとフレームが共進化します。スキップレイヤーガイダンスヘルパーは、動きを犠牲にすることなく安定性と詳細を向上させます。ワークフローは、オリジナルのテキスト埋め込みをOvi特有のCFGミキサーを通じてルーティングし、厳密なプロンプトの遵守と自由なアニメーションのバランスを傾けることができます。Character AI Oviは、話される行が短く、文字通りで、<S>と<E>タグでのみ囲まれているときに最良のリップモーションを生成する傾向があります。
デコード、プレビュー、およびエクスポート
サンプリング後、ビデオ潜在変数はWan VAEを通じてデコードされ、オーディオ潜在変数はMMAudioとBigVGANを通じてデコードされます。ビデオコンバイナーはフレームとオーディオを24 fpsのMP4にマックスし、共有の準備が整います。音声の理解性を確認するために、保存前にオーディオを直接プレビューすることもできます。Character AI Oviのデフォルトパスは5秒を目標としており、唇とテンポを同期させるために慎重に拡張してください。
Comfyui Character AI Oviワークフローの主要ノード
WanVideoTextEncodeCached(#85)
メインのポジティブプロンプトとビデオネガティブプロンプトを両方のブランチで使用される埋め込みにエンコードします。対話は<S>…<E>内に保持し、サウンドデザインは<AUDCAP>…<ENDAUDCAP>内に配置します。最良の整合性を得るために、1つのスピーチタグ内に複数の文を避け、行を簡潔に保ちます。
WanVideoTextEncodeCached(#96)
オーディオ用に専用のネガティブテキスト埋め込みを提供します。視覚に影響を与えることなく、ロボット音や強いリバーブのようなアーティファクトを抑えるために使用します。短い記述から始め、まだ問題が聞こえる場合のみ拡張してください。
WanVideoOviCFG(#94)
オリジナルのテキスト埋め込みをオーディオ特有のネガティブとOvi認識の分類子フリーガイダンスを通じてブレンドします。スピーチコンテンツが書かれた行から逸れる場合やリップモーションがずれていると感じる場合は、これを上げてください。動きが硬くなったり、過度に制約されたりする場合は、少し下げてください。
WanVideoSampler(#80)
Character AI Oviの心臓部です。画像埋め込み、ジョイントテキスト埋め込み、オプションのガイダンスを消費して、ビデオとオーディオの両方を含む単一の潜在変数をサンプリングします。ステップを増やすと忠実度が向上しますが、実行時間も増加します。メモリ圧迫や停止が見られる場合は、ブロックスワップを高く設定し、キャッシュをオンにして、トーチコンパイルを無効にして迅速なトラブルシューティングを考慮してください。
WanVideoEmptyMMAudioLatents(#125)
オーディオ潜在タイムラインを初期化します。デフォルトの長さは121フレーム、24 fpsクリップ用に調整されています。これを調整して期間を変更するのは実験的です。フレーム数に追従する方法を理解している場合のみ変更してください。
VHS_VideoCombine(#88)
デコードされたフレームとオーディオをMP4にマックスします。サンプリングターゲットに一致するフレームレートを設定し、生成された波形に従う最終カットを望む場合はトリムトゥオーディオを切り替えます。CRFコントロールを使用してファイルサイズと品質のバランスを取ります。
オプションの追加機能
- OviビデオとWan 2.2 VAEにbf16を使用します。黒いフレームが発生する場合、モデルローダーとテキストエンコーダーの基本精度を
bf16に切り替えてください。 - スピーチを短く保ちます。Character AI Oviは、
<S>と<E>内の短く単一の文の対話で最も信頼性の高いリップシンクを行います。 - ネガティブを分けます。視覚的なアーティファクトをビデオネガティブプロンプトに、音調アーティファクトをオーディオネガティブプロンプトに入れて、意図しないトレードオフを避けます。
- 最初にプレビューします。最終的なMP4をエクスポートする前に、音声プレビューを使用して明瞭さとペーシングを確認してください。
- 使用された正確なウェイトを取得します。ワークフローは、KijaiのモデルミラーからのOviビデオとオーディオチェックポイント、およびWan 2.2 VAEを期待します。 WanVideo_comfy/Ovi • WanVideo_comfy_fp8_scaled/TI2V/Ovi
これらの要素が揃えば、Character AI Oviは、見た目と同じくらい良い音を持つ表現豊かな話すアバターや物語シーンのためのコンパクトでクリエイターに優しいパイプラインになります。
謝辞
このワークフローは、以下の作品やリソースを実装し、構築しています。私たちは、Oviのために貢献とメンテナンスを行っているkijaiとCharacter AIに深く感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
リソース
- Character AI Ovi ソース
- ワークフロー: wanvideo_2_2_5B_ovi_testing @kijai
- Github: character-ai/Ovi
注意: 参照されているモデル、データセット、コードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。




