一貫したシーンを作成 (Qwen Image Edit & Wan 2.2) in ComfyUI

一貫したシーンを作成 (Qwen Image Edit & Wan 2.2)

一貫したシーンを作成 (Qwen Image Edit & Wan 2.2) は、キャラクター、ライティング、構図がショットごとに一貫しているストーリードリブンのマルチショットビデオを構築するためのプロダクション対応のComfyUIワークフローです。Qwen Image Editを使用して正確な参照ガイド付きの静止画を作成し、Wan 2.2イメージ・トゥ・ビデオで映画的な動きを実現し、シーンを縫い合わせ、フレーム補間で動きをスムーズにし、生成されたフォーリーオーディオを追加して完成させます。ナラティブアート、アニメーション、プレビズ、コンセプトリールに最適で、最小限の手作業で一貫したシーケンスを形成します。

パイプラインは3つの部分に分かれています。パート1は一貫したキーフレームを作成および編集し、パート2はWan 2.2で各ショットをアニメーション化し、それらを1つのカットに結合し、パート3はシーンに対応したフォーリーオーディオを生成します。このREADMEでCreate Coherent Scenes (Qwen Image Edit & Wan 2.2)と記載されているところは、完全なエンドツーエンドプロセスを指します。

Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) ワークフローの主要モデル

Wan 2.2 Image‑to‑Video 14B（高ノイズおよび低ノイズのバリアント）。空間的レイアウトとスタイルを維持しながらシーンイメージをアニメーション化するためのコアビデオジェネレーター。テキストエンコーダーとVAEアセットとともにComfyUI用にパッケージ化されています。参照: Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
Qwen‑Image‑Edit 2509 + Qwen 2.5 VLテキストエンコーダー + Qwen Image VAE。セマンティックで参照に対応したイメージ編集を使用して、キャラクターとシーンの連続性を維持しながら物語にマッチする次シーンのキーフレームを作成します。参照: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI および Comfy‑Org/Qwen‑Image_ComfyUI。
FLUX.1 dev (テキスト‑トゥ‑イメージ)。編集前の最初のキーフレームを確立するためのオプションの基礎モデル。参照: Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。
RIFE Video Frame Interpolation。結合されたカットのフレームレートを向上させ、動きをスムーズにするために使用されます。参照: hzwer/Practical‑RIFE。
HunyuanVideo‑Foley。イメージまたはビデオと短いテキストキューから同期されたフォーリーを生成するジェネレーティブオーディオモデル。シーンごとまたは最終カットのダイジェティックサウンドを追加するために使用されます。参照: phazei/HunyuanVideo‑Foley。
オプションのヘルパー。MiniCPM‑V 4.5はカットからオーディオプロンプトを自動ドラフトしてフォーリーの発想を加速することができます: OpenBMB/MiniCPM‑V。

Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) ワークフローの使用方法

全体のロジック

パート1は確立したキーフレームを作成し、その後Qwen Image Editを使用してスタイル的に一貫した「次のシーン」の静止画を生成します。
パート2はWan 2.2を使用して各シーンイメージを短いクリップにアニメーション化し、すべてのクリップを1つのカットに結合し、オプションでフレームを補間して動きをスムーズにします。
パート3はオプションで各シーンまたは結合したカットのフォーリーオーディオを生成し、最終ビデオにそれをマージします。

モデルローダー

モデルエリアはWan 2.2の高ノイズと低ノイズのバリアントとそのVAE/CLIPを1度読み込み、torch compileによる加速のオプションを提供します。また、低VRAMルートを使用して、量子化されたGGUF UNETsおよびブロックスワップを使用して、小さなGPUで同じCreate Coherent Scenes (Qwen Image Edit & Wan 2.2)プロセスを実行することができます。
Wan 2.2とQwen Image Edit Lightning LoRAのためのLoRAは、モーションスタイルと編集速度に影響を与えるように事前に配線されていますが、グラフを複雑にすることはありません。
モデルを変更する場合、テキストエンコーダー/UNET/VAEファミリーを一貫して保ち、潜在空間の不一致を避けてください。

設定

グローバルコントロールは、作業の幅、高さ、シード、シーンの長さを設定し、すべてのシーンが同一のキャンバスジオメトリと時間的リズムを継承するようにします。これはCreate Coherent Scenes (Qwen Image Edit & Wan 2.2)一貫性の鍵です。
包括的なネガティブプロンプトが提供され、グローバルにルートされています。アートディレクションに合わせていつでも上書きすることができます。

パート1 — テキスト‑トゥ‑イメージの確立されたキーフレーム

オープニングショットを説明することから始めます。プロンプトはベーステキスト‑トゥ‑イメージサンプラーに供給され、プロジェクトの「Start_」フレームを出力します。
その画像はキャッシュされ、次のシーンのQwenトラックの参照になります。ワークフローは画像を編集に適した解像度にスケールし、潜在空間にエンコードします。

パート1 — Qwen Image Edit 次シーンのキーフレーム

各次のショットに対して、短い「次のシーン」指示を書きます。エディターは前のシーンイメージにコンディションを付けるため、キャラクターのアイデンティティ、衣装、ライティング、パレットが一致します。
編集された結果はデコードされ、プレビューされ、"Scene_1_...", "Scene_2_..."などとして保存されます。これらは一貫した静止画です。また、後のプロンプトがそれらを参照できるように、共有画像スロットに保存されます。

シーン入力 (1–6)

すでにコンセプトフレームがある場合、6つの「LoadImage」ノードにドロップします。それ以外の場合、パート1のQwen生成静止画を開始イメージとして使用します。
各シーンに、ラベル付きプロンプトノードを介して短いテキストプロンプトを追加します。これらはシーン全体を再説明するのではなく、モーションスタイルを導く撮影ノートと考えてください。

シーンサンプリング (1–6)

各シーンはWan 2.2イメージ・トゥ・ビデオパスを実行し、開始イメージを潜在クリップに変換します。三段階のサンプラーパスが高ノイズパス、低ノイズパス、LoRAなしパスを使用して潜在シーケンスを洗練します。
デコードされたフレームはシーンごとのビデオライターに供給され、クイックレビュー用にMP4として保存されます。各レンダー後のメモリパージノードは次のシーンが始まる前にVRAMを解放します。
すべてのシーンが同じシード、サイズ、長さを共有しているため、モーションのリズムと構図が一致しており、Create Coherent Scenes (Qwen Image Edit & Wan 2.2)が連続した作品のように感じられます。

シーンの組み合わせ

6つのレンダリングされた画像シーケンスが順番に連結され、「Combined」カットを生成します。バッチノードをリワイヤリングすることでシーンを並べ替えたり、除外したりできます。

オプションのフレーム補間

補間パスはRIFEを使用して見かけのフレームレートを増加させます。これにより、カメラと被写体の動きが滑らかになり、同じ外観を保ちながら「Interpolated」エクスポートが作成されます。

パート3 — ビデオ‑トゥ‑オーディオフォーリー

結合したカットまたは任意の個々のシーンをオーディオセクションにロードします。組み込みのビジョンランゲージヘルパーはテキストシーンの説明を自動ドラフトできます。リズム、ムード、主要アクションを反映するように編集してください。
フォーリーモデルは同期されたオーディオを合成し、マックスノードがフレームと組み合わせてオーディオ対応のMP4を生成します。最良の結果を得るためには、シーンごとにオーディオを生成してからステッチしてください。

Comfyui Create Coherent Scenes (Qwen Image Edit & Wan 2.2) ワークフローの主要ノード

WanImageToVideo (#111) 単一の参照フレームを一貫した潜在ビデオに変換し、ポジティブおよびネガティブテキストを尊重します。各ショットの期間とキャンバスサイズを設定し、アニメーション化したい開始イメージを提供するために使用します。Wan 2.2 I2V 14Bモデルに基づいており、こちらでパッケージ化されています: Comfy‑Org/Wan_2.2_ComfyUI_Repackaged。
TextEncodeQwenImageEditPlus (#360) 「次のシーン」の指示を参照イメージとともにエンコードし、編集がストーリーに従いつつアイデンティティとライティングに一致するようにします。シーン全体で名詞とスタイルタグを一貫して保持し、連続性を強化します。モデル参照: Comfy‑Org/Qwen‑Image‑Edit_ComfyUI および Comfy‑Org/Qwen‑Image_ComfyUI。
KSamplerAdvanced (#159) 各アニメーションシーンのコアデノイザー。このワークフローは、異なるノイズレジームとLoRAミックスをターゲットにした3つのサンプラーを連鎖させて、時間的安定性を向上させます。ステップやシードを変更する場合は、連鎖されたサンプラー全体で均一に行い、モーションの挙動を予測可能に保ちます。
ImageBatchMulti (#308) シーンフレームバッチを1つの長いタイムラインに集めます。エクスポート前にシーンを並べ替えたり、削除したり、交換したりするために使用します。
RIFE VFI (#94) フレーム補間を実行して見かけのフレームレートを増加させます。特にスローカメラ移動や流動的な被写体の動きに効果的です。参照: hzwer/Practical‑RIFE。
HunyuanFoleySampler (#331) フレームと短いテキストプロンプトから同期されたフォーリーを生成し、ビデオマクサーにオーディオを渡します。モデルの詳細とファイルについては、phazei/HunyuanVideo‑Foley を参照してください。

オプションの追加

最速の反復のために、VRAMが厳しい場合は量子化されたGGUF Wan 2.2ルートをブロックスワップとともに使用し、最終レンダーにはフル精度に戻します。
プロジェクト全体で幅、高さ、シーンの長さを同一に保ち、リズムとフレーミングの連続性を強化します。
Qwenプロンプトでは、コア識別子（名前、衣装、小道具）とライティングの用語を保持し、シーン間でアクションとカメラの言語だけを変化させます。
プロジェクト全体の「感触」を固定するためにグローバルシードを使用します。すべてのシーンで異なるモーションキャラクターを望む場合のみ変更してください。
タイミングに満足した後にのみ補間し、シーンごとにオーディオバージョンをレンダーして結合します。シーンごとのフォーリーは自然に聞こえる傾向があります。
FLUX.1 devは最初のキーフレームのための素晴らしいベースです。一度確立されると、Qwenの編集を頼ってストーリーを進めながら外観を維持します: Comfy‑Org/FLUX.1‑Krea‑dev_ComfyUI。

##json

一貫したシーンを作成 | 一貫したストーリーアートジェネレーター