Bernini Multimodal Video Generation in ComfyUI

ComfyUI Bernini multimodal video generation and editing workflow Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Bernini multimodal video generation and editing workflow Examples

Berniniのマルチモーダルビデオ生成と編集ワークフロー#

このBerniniのマルチモーダルビデオ生成と編集ワークフローは、アイデンティティ認識、リファレンスガイドのビデオ編集およびビデオからビデオへの変換のためのターンキーComfyUIパイプラインです。ソースビデオ、1つ以上のリファレンス画像、および焦点を絞ったプロンプトを組み合わせて、動きとカメラの動作を保持しながら、被写体を置き換えたり再スタイリングしたりします。ワークフローは、Berniniの高拡散と低拡散のバックボーンをWanスタイルのテキストエンコーディング、Bernini互換のVAE、LightX2V LoRAs、およびBernini専用のコンディショニングと組み合わせて、フレーム間で一貫した結果を得ることができます。

ComfyUI内でBerniniを評価するクリエイターや研究者向けに構築されたこのワークフローは、キャラクター置換、動きを保持する編集、模倣、およびカメラに対応した短編生成に優れています。編集されたMP4とオプションのサイドバイサイドの比較をエクスポートするため、プロンプトとリファレンスセットの影響を簡単に確認できます。このREADME全体で、Berniniのマルチモーダルビデオ生成および編集ワークフローという用語は、このエンドツーエンドのグラフを指します。

ComfyUI Berniniのマルチモーダルビデオ生成と編集ワークフローの主なモデル#

ByteDance Bernini拡散モデルファミリー（高拡散と低拡散のバックボーン）。2段階のスケジュールで使用されるコアのデノイジングネットワークを提供します。高拡散モデルは、強いノイズ下で構造を扱い、低拡散モデルは詳細と時間的一貫性を洗練します。リファレンスの重みとメモをモデルハブで確認してください: ByteDance/Bernini。
Wanテキストエンコーダー（umT5-XXL）。Berniniのためのコンディショニングにあなたの指示を変換するWanスタイルのT5エンコーダーです。ComfyUIを通じてCLIP互換のインターフェースで公開されています。ComfyUIに適したアセットはこちらで入手可能です: Kijai/WanVideo_comfy_fp8_scaled。
Wan 2.1 VAE。ノイズ除去された潜在変数をビデオフレームに変換し、Wan/Berniniトレーニングに一致する色忠実度を提供します。ComfyUI対応のVAEは同じアセットパックに含まれています: Kijai/WanVideo_comfy_fp8_scaled。
LightX2V LoRAペア（high_noiseとlow_noise）。フレーム間でリファレンスのアイデンティティを保持しながら、Berniniを安定した動きに導く軽量アダプターです。提供されたFP8 LoRAの重みは、このワークフローで使用される2段階のサンプリングと一致し、上記のBerniniアセットにパッケージされています: Kijai/WanVideo_comfy_fp8_scaled。

ComfyUI Berniniのマルチモーダルビデオ生成と編集ワークフローの使用方法#

このワークフローには4つの調整されたグループがあります。ソースビデオと1つ以上のリファレンス画像を提供し、指示テキストを形成し、実行グループが2フェーズのBerniniパスを実行してフレームにデコードし、出力ビデオを組み立てます。並行ユーティリティは、LLM支援のプロンプト作成のために足場となるシステムおよびユーザープロンプトを生成できます。

ユーザー入力#

VHS_LoadVideo (#90)を使用してソースビデオを読み込んでください。このノードはクリップを読み込み、そのメタデータを公開して、最終レンダリングが元のフレームレートを継承し、動きの感覚を保持するのに役立ちます。LoadImage (#31)で1つ以上のアイデンティティリファレンスを追加してください。正面を向いた、よく照らされた中立的な表情の顔が最適です。Width (#109)とHeight (#110)を使用してターゲットサイズを設定し、理想的にはソースのアスペクト比と一致させて伸びを避けてください。低品質のビデオで一般的なアーティファクトを抑制するためにCLIPTextEncode (#4)でデフォルトのネガティブプロンプトがエンコードされます。必要に応じて微調整することができます。

プロンプト処理#

指示がリファレンスアイデンティティと正確に一致することを望む場合、グラフはローカルLLMを使用してリファレンス画像から静的特性を要約することができます。llama_cpp_model_loader (#93)とllama_cpp_instruct_adv (#92)は、BatchImagesNode (#74)によってバッチ処理された画像を分析し、髪、年齢、服装などの不変の属性の簡潔な説明を返します。その説明は、JjkText (#104)からのタスク指示とTextConcatenate (#102)を介して連結されます。結果はCLIPTextEncode (#3)に流れ込み、Berniniのポジティブなコンディショニングになります。プレビューノードは、重い段階を実行する前に迅速に反復できるように、構成されたテキストを表示します。

プロンプト強化#

BerniniPromptEnhancer (#60)は、選択したタスクタイプと入力に合わせて構造化された「システム」および「ユーザー」プロンプトを生成します。より豊かなプロンプト拡張のためにLLMに貼り付けることができる強力な指示を得るために実行します。設計上、メイングラフに接続されていません。このユーティリティはBerniniのカスタムノードパックから提供されています: ComfyUI-RH-Bernini。Berniniのコンディショニングにうまく機能する標準化された言語を事前に作成するためのツールとして扱ってください。

実行#

コアパスは、Berniniの高拡散と低拡散のUNetをロードし、各ステージにLightX2V LoRAsをアタッチすることから始まります。BerniniConditioning (#34)は、あなたのポジティブおよびネガティブなエンコーディング、VAE、ソースビデオフレーム、およびリファレンス画像を融合して、Bernini専用のコンディショニングと、解像度とフレーム数に合わせた初期の潜在変数を構築します。BasicScheduler (#18)はデノイジングスケジュールを作成し、SplitSigmas (#17)はそれを高拡散と低拡散の範囲に分割します。高拡散サンプラーSamplerCustom (#19)は、より強いノイズ下で構造とアイデンティティを確立し、その潜在変数を低拡散サンプラーSamplerCustom (#15)に渡して詳細と時間的な磨きをかけます。KSamplerSelect (#27)はサンプラーアルゴリズムを選択し、VAEDecode (#16)は最終的な潜在変数をフレームに変換し、VHS_VideoCombine (#87)はソースのフレームレートを継承するMP4をレンダリングします。並行して、ImageConcanate (#97)と2番目のVHS_VideoCombine (#96)は、迅速な品質チェックのためにサイドバイサイドの比較を生成します。ビデオI/OおよびアセンブリはVideo Helper Suiteによって提供されます: ComfyUI-VideoHelperSuite。

ComfyUI Berniniのマルチモーダルビデオ生成と編集ワークフローの主なノード#

BerniniConditioning (#34) Berniniネイティブのコンディショニングを、テキストエンコーディング、VAE、ソースビデオ、およびリファレンス画像を組み合わせて構築します。また、開始潜在ボリュームを準備し、空間および時間のサイズを処理します。目標解像度に合わせてwidthとheightを調整し、生成されるフレーム数を制御するためにlengthを使用します。リファレンス被写体が画像内で小さい場合は、ref_max_sizeを増やしてモデルがアイデンティティの詳細をよりよく認識できるようにします。このノードはBerniniのカスタムパックの一部です: ComfyUI-RH-Bernini。

LoraLoaderModelOnly (#11) LightX2V high_noise LoRAを高拡散バックボーンに適用します。strength_modelを上げると、構造段階でリファレンスへの準拠が増加し、被写体のシルエットや粗い特徴がソースビデオと一致しない場合に有用です。編集が硬直しすぎたり、自然な動きを抑えたりする場合は、下げてください。低拡散ステージのLoRAと組み合わせて、忠実度と流動性のバランスを取ります。

LoraLoaderModelOnly (#29) LightX2V low_noise LoRAを低拡散バックボーンに適用します。このLoRAは、髪、肌、服装のテクスチャを洗練しながら、高拡散ステージで設定された動きを保持します。フレーム間でアイデンティティの詳細がずれた場合は、強度をわずかに増やし、テクスチャが過度にシャープになったり、過剰適合しているように見える場合は、減らしてください。高拡散ステージのLoRAと一緒に補完的なペアを形成します。

SplitSigmas (#17) デノイジングスケジュールを高拡散と低拡散の範囲に分割します。分割を早めに移動すると、元のビデオをより多く保持する穏やかな編集が可能になり、分割を後に移動すると、高拡散ステージにより強力な置換のための影響を与えます。プロンプトやLoRAの強さを変更するときに分割を調整し、両方のステージがバランスを保つようにします。この制御は、カメラ固定、動きを保持する編集に特に役立ちます。

KSamplerSelect (#27) 両方のデノイジングステージで使用されるサンプラーアルゴリズムを選択します。一部のサンプラーは安定性と時間的な滑らかさを好み、他のサンプラーは詳細または速度を強調します。ちらつきが見られる場合は、安定性で知られるサンプラーを試してください。追加のシャープさが必要な場合は、より多くのバリエーションを注入するアルゴリズムを試してください。予測可能な動作を維持するために、両方のステージで同じ選択を保持します。

VHS_VideoCombine (#87) VHS_VideoInfoによって報告されたフレームレートを継承し、再生速度がソースクリップに一致する最終的なMP4にデコードされたフレームをエンコードします。ファイル名のコントロールを使用して実行を整理し、設定を監査する予定がある場合はメタデータの保存を有効にしてください。2番目のインスタンス(#96)は、迅速な視覚的比較のためにサイドバイサイドのレンダリングを出力します。提供元: ComfyUI-VideoHelperSuite。

オプションの追加要素#

アイデンティティが重要なタスクの場合、一貫した髪、照明、表情を示す2〜3枚の高品質なリファレンス画像を提供してください。バッチ入力を使用して一緒にフィードしてください。
ターゲットのアスペクト比をソースビデオに近づけてください。大きなミスマッチは顔を引き伸ばし、動きを不安定にする可能性があります。
背景やカメラがずれる場合、カメラ位置とシーンを固定する言語を指示に強化し、簡潔なネガティブプロンプトで補強してください。
LoRAの強さやシグマ分割を調整する際にサイドバイサイドエクスポートを使用してください。違いが明らかになることで反復時間を短縮します。
より速い試行のために、ロードするフレーム数を制限し、アイデンティティの一致と動きの品質に満足したらスケールアップしてください。

このBerniniのマルチモーダルビデオ生成と編集ワークフローは、安全に編集できるように設計されています: デフォルトから始め、指示とリファレンスを反復し、LoRAの強さとシグマ分割を微調整して被写体とシーンに合わせてください。

謝辞#

このワークフローは、次の作品やリソースを実装し、構築しています。Berniniに対するByteDance、ComfyUI-RH-Berniniに対するRH-RunningHub、ComfyUI-VideoHelperSuiteに対するKosinkadinkの貢献とメンテナンスに心から感謝します。詳細については、以下のリンクされたオリジナルのドキュメントとリポジトリを参照してください。

リソース#

RunningHub/Bernini Multimodal Video Generation and Editing (ComfyUI Workflow)
- ドキュメント / リリースノート: [RunningHub workflow reference](https://www.runninghub.ai/post/206204003json

4672467969/aiDetail)

RunComfy/Cloud Save workflow
- ドキュメント / リリースノート: RunComfy Cloud Save workflow
ByteDance/Bernini-R
- GitHub: bytedance/Bernini
- Hugging Face: ByteDance/Bernini-R
- arXiv: arXiv:2605.22344
- ドキュメント / リリースノート: ByteDance Bernini model source
Kijai/WanVideo_comfy_fp8_scaled (Bernini assets)
- Hugging Face: Kijai/WanVideo_comfy_fp8_scaled
- ドキュメント / リリースノート: Kijai Bernini ComfyUI fp8 model assets
RH-RunningHub/ComfyUI-RH-Bernini
- GitHub: RH-RunningHub/ComfyUI-RH-Bernini
- ドキュメント / リリースノート: RunComfy Bernini custom nodes
Kosinkadink/ComfyUI-VideoHelperSuite
- GitHub: Kosinkadink/ComfyUI-VideoHelperSuite
- ドキュメント / リリースノート: ComfyUI Video Helper Suite

Note: 使用するモデル、データセット、コードは、それぞれの著者およびメンテナによって提供されるライセンスと条件に従うものです。

Want More ComfyUI Workflows?

FireRed Image Edit 1.1 | スマートフォトトランスフォーマー

超詳細なプロンプトベースの精度で写真をすばやく編集します。

InfiniteTalk | リップシンクアバター生成器

写真 + 音声 = 数分で完璧にシンクしたトーキングアバター

Portrait Master | テキストからポートレート

Portrait Masterを使用して、複雑なプロンプトに頼ることなく、ポートレート作成をより細かくコントロールできます。

LTX 2.3 IC-LoRA カメラコントロール | ビデオモーションツール

滑らかで制御可能な精度で映画的なカメラの動きを再現します。

SVD (Stable Video Diffusion) + SD | テキストからビデオへ

Stable DiffusionとStable Video Diffusionを統合し、テキストから直接ビデオに変換します。

LTX 2.3 ID-LoRA | トーキングアバター生成器

声とビジュアルが同期したリアルなトーキングアバターを作成します。

Krea 2 リファレンス編集 | スマート画像ワークフロー

リファレンス写真を一貫性のある編集可能なビジュアルに素早く変換します。

Boogu Image Edit ComfyUI ワークフロー | スマートフォトリライト

スタイルと構造を失わずに写真をスマートに編集。

フォローする

サポート

リソース

法的情報

RunComfy

RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン環境とサービス、および ComfyUIワークフロー魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Models, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。

Bernini Video Edit Pro | Multimodal Generator