Character AI Oviは、1枚の画像を話し、動くキャラクターに変える視聴覚生成ワークフローです。Wanモデルファミリー上に構築され、WanVideoWrapperを通じて統合され、1回のパスでビデオとオーディオを生成し、表現豊かなアニメーション、知覚しやすいリップシンク、コンテキストに応じた雰囲気を提供します。短編ストーリー、バーチャルホスト、または映画的なソーシャルクリップを作成する場合、Character AI Oviは静止アートから数分で完全なパフォーマンスに変えることができます。
このComfyUIワークフローは、スピーチとサウンドデザインのための軽量なマークアップを含むテキストプロンプトと1枚の画像を受け入れます。口元、テンポ、シーンオーディオが自然に整列するようにフレームと波形を一緒に構成します。Character AI Oviは、個別のTTSやビデオツールをつなぎ合わせることなく、洗練された結果を求めるクリエイターのために設計されています。
このワークフローはシンプルなパスに従います:プロンプトと画像をエンコードし、Oviのチェックポイントをロードし、ジョイントオーディオ+ビデオ潜在変数をサンプルし、デコードしてMP4にマックスします。以下のサブセクションは、どこで操作し、どの変更が結果に影響を与えるかを知るための可視ノードクラスターに対応しています。
シーンと話される行に対して1つのポジティブプロンプトを書きます。Oviタグを正確に次のように使用します:話される単語を<S>
と<E>
で囲み、非スピーチオーディオを<AUDCAP>
と<ENDAUDCAP>
で説明します。ビデオとオーディオの両方のブランチが同じポジティブプロンプト条件を持つため、リップモーションとタイミングが整合します。アーティファクトを独立して抑えるために、ビデオとオーディオの異なるネガティブプロンプトを使用できます。Character AI Oviは、短く明確なスピーチとステージ指示に良く応答します。
1枚のポートレートまたはキャラクター画像をロードし、その後ワークフローがそれを潜在変数にサイズ変更してエンコードします。これにより、サンプラーのためのアイデンティティ、ポーズ、および初期フレーミングが確立されます。リサイズ段階からの幅と高さがビデオのアスペクトを設定します。アバターの場合は正方形、ショートの場合は縦を選択します。エンコードされた潜在変数と画像由来の埋め込みがサンプラーをガイドし、動きが元の顔に根ざしているように感じられます。
Character AI Oviは、Oviビデオモデル、フレーム用Wan 2.2 VAE、およびオーディオ用MMAudio VAEとBigVGANをロードします。トーチコンパイルと軽量キャッシュが含まれており、ウォームスタートを高速化します。ブロックスワップヘルパーが接続されており、必要に応じてトランスフォーマーブロックをオフロードすることでVRAM使用量を下げます。VRAMが制約されている場合は、ブロックスワップノードでブロックオフロードを増やし、リピート実行のためにキャッシュを有効にしておいてください。
サンプラーはOviのツインバックボーンを一緒に実行し、サウンドトラックとフレームが共進化します。スキップレイヤーガイダンスヘルパーは、動きを犠牲にすることなく安定性と詳細を向上させます。ワークフローは、オリジナルのテキスト埋め込みをOvi特有のCFGミキサーを通じてルーティングし、厳密なプロンプトの遵守と自由なアニメーションのバランスを傾けることができます。Character AI Oviは、話される行が短く、文字通りで、<S>
と<E>
タグでのみ囲まれているときに最良のリップモーションを生成する傾向があります。
サンプリング後、ビデオ潜在変数はWan VAEを通じてデコードされ、オーディオ潜在変数はMMAudioとBigVGANを通じてデコードされます。ビデオコンバイナーはフレームとオーディオを24 fpsのMP4にマックスし、共有の準備が整います。音声の理解性を確認するために、保存前にオーディオを直接プレビューすることもできます。Character AI Oviのデフォルトパスは5秒を目標としており、唇とテンポを同期させるために慎重に拡張してください。
WanVideoTextEncodeCached
(#85)
メインのポジティブプロンプトとビデオネガティブプロンプトを両方のブランチで使用される埋め込みにエンコードします。対話は<S>…<E>
内に保持し、サウンドデザインは<AUDCAP>…<ENDAUDCAP>
内に配置します。最良の整合性を得るために、1つのスピーチタグ内に複数の文を避け、行を簡潔に保ちます。
WanVideoTextEncodeCached
(#96)
オーディオ用に専用のネガティブテキスト埋め込みを提供します。視覚に影響を与えることなく、ロボット音や強いリバーブのようなアーティファクトを抑えるために使用します。短い記述から始め、まだ問題が聞こえる場合のみ拡張してください。
WanVideoOviCFG
(#94)
オリジナルのテキスト埋め込みをオーディオ特有のネガティブとOvi認識の分類子フリーガイダンスを通じてブレンドします。スピーチコンテンツが書かれた行から逸れる場合やリップモーションがずれていると感じる場合は、これを上げてください。動きが硬くなったり、過度に制約されたりする場合は、少し下げてください。
WanVideoSampler
(#80)
Character AI Oviの心臓部です。画像埋め込み、ジョイントテキスト埋め込み、オプションのガイダンスを消費して、ビデオとオーディオの両方を含む単一の潜在変数をサンプリングします。ステップを増やすと忠実度が向上しますが、実行時間も増加します。メモリ圧迫や停止が見られる場合は、ブロックスワップを高く設定し、キャッシュをオンにして、トーチコンパイルを無効にして迅速なトラブルシューティングを考慮してください。
WanVideoEmptyMMAudioLatents
(#125)
オーディオ潜在タイムラインを初期化します。デフォルトの長さは121フレーム、24 fpsクリップ用に調整されています。これを調整して期間を変更するのは実験的です。フレーム数に追従する方法を理解している場合のみ変更してください。
VHS_VideoCombine
(#88)
デコードされたフレームとオーディオをMP4にマックスします。サンプリングターゲットに一致するフレームレートを設定し、生成された波形に従う最終カットを望む場合はトリムトゥオーディオを切り替えます。CRFコントロールを使用してファイルサイズと品質のバランスを取ります。
bf16
に切り替えてください。<S>
と<E>
内の短く単一の文の対話で最も信頼性の高いリップシンクを行います。これらの要素が揃えば、Character AI Oviは、見た目と同じくらい良い音を持つ表現豊かな話すアバターや物語シーンのためのコンパクトでクリエイターに優しいパイプラインになります。
このワークフローは、以下の作品やリソースを実装し、構築しています。私たちは、Oviのために貢献とメンテナンスを行っているkijaiとCharacter AIに深く感謝します。権威ある詳細については、以下にリンクされたオリジナルのドキュメントとリポジトリを参照してください。
注意: 参照されているモデル、データセット、コードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。