このワークフローは、ComfyUIにByteDance USOをもたらし、アイデンティティを忠実に再現するキャラクターと正確なスタイル転送を一つの場所で実現したいクリエイターのために設計されています。FLUX.1‑devに基づいており、サブジェクト駆動、スタイル駆動、および統合生成をサポートするため、キャラクターを新しいシーンに配置しながら類似性を保持したり、参照画像からスタイルを適用したり、両方を同時に行うことができます。
強力なサブジェクトの一貫性と柔軟で高品質なスタイル制御が必要な場合は、ByteDance USOを使用してください。このグラフには、アイデンティティ画像に条件付けするサブジェクト+スタイルパスと、スタイル参照の有無にかかわらず使用できるプロンプト駆動パスの2つの補完的なブランチが含まれています。両方のパスは画像を独立して保存するため、結果をすぐに比較できます。
グラフには2つのブランチがあり、独立して実行することができます。上部のブランチはアイデンティティ画像とスタイル参照を使用し、下部のブランチはプロンプト駆動で、スタイル参照を含むこともできます。どちらのブランチからでも生成できます。
このステップでは、FLUX.1‑dev、ByteDance USO LoRA、USOプロジェクター、およびSigCLIPビジョンエンコーダーを初期化します。統合されたスタイルとサブジェクトのガイダンスのための基本モデルを準備します。両方のブランチが同じセットをロードするため、サブジェクト+スタイルまたはプロンプトワークフローをモデルを再設定せずに実行できます。ロードが完了すると、モデルストリームはUSOの参照プロセッサーの準備が整います。
キャラクターのクリーンなアイデンティティ画像を提供します。ワークフローはそれを適切な作業サイズにスケールし、重要な顔やキャラクターの特徴を保持する潜在にエンコードします。この潜在はプロンプトと融合し、ByteDance USOがアイデンティティを保持しながら新しいシーンにサブジェクトを配置できるようにします。スタイルのみまたはテキストのみの生成を希望する場合は、このステップを省略してください。
パレット、素材、筆致をガイドするために1枚または2枚のスタイル画像を追加します。各画像はビジョンモデルでエンコードされ、USOのスタイル参照ノードを通じて適用され、スタイルの影響をロードされたモデルに重ねます。2つの参照を使用する場合、順序が重要です。2番目の参照は最初の後に適用されます。このグループをバイパスして純粋なサブジェクト駆動またはテキストのみのパスを実行することができます。
構成、ムード、および詳細のための意図駆動プロンプトを書きます。サブジェクト+スタイルブランチでは、プロンプトはアイデンティティ潜在とUSOのガイダンスと組み合わされ、テキスト、サブジェクト、スタイルが同じ方向に引っ張ります。プロンプト駆動ブランチでは、テキストのみが(オプションでスタイル参照とともに)画像を導きます。プロンプトは具体的に保ち、選択したスタイルと矛盾しないようにしてください。
生成のためのターゲット解像度を選択します。選択したサイズは、特にポートレート対全身ショットの場合の構成の締まりと詳細の密度に影響します。VRAMが限られている場合は、最初に小さく開始し、後でスケールアップしてください。両方のブランチには、アスペクトと忠実度をユースケースに合わせて調整できる単純な画像サイズノードが公開されています。
各ブランチは標準サンプラーでサンプリングし、RGBにデコードして独自の出力に保存します。通常、1回のランで2つの画像を取得します:スタイルされたサブジェクト結果とプロンプト駆動の結果。プロンプトを調整したり、参照を入れ替えたりして反復し、代替案を探るか、再現性を持たせるためにシードを固定します。
USOStyleReference
(#56)USOプロジェクターとCLIP‑Vision機能を使用して、現在のモデルストリームにスタイル画像を適用します。強力で一貫性のある外観のために1つの参照を使用するか、ニュアンスのあるブレンドのために2つをチェーンします。スタイルがあまりにも支配的な場合は、単一のクリーンな参照を試すか、その内容を簡素化してください。
ReferenceLatent
(#44)エンコードされたサブジェクト潜在を条件付けパスに注入し、ByteDance USOがアイデンティティを保持します。キャラクターの顔や特徴を明確に示す無雑音のアイデンティティ写真と最もよく機能します。アイデンティティが滑る場合は、より完全な参照を供給するか、矛盾するスタイルキューを減らしてください。
FluxKontextMultiReferenceLatentMethod
(#41)FLUXコンテキストパスウェイ内で複数の参照信号を組み合わせます。ここでは、サブジェクトとプロンプトのコンテキストがサンプリング前にバランスされます。結果が過度に制約されていると感じた場合は、参照を緩め、漂流する場合はサブジェクトイメージを強化するか、プロンプトを簡素化してください。
FluxGuidance
(#35)参照信号に対するテキストガイダンスの強さを制御します。低い値ではサブジェクト/スタイルがリードし、高い値ではプロンプトがより強く適用されます。プロンプトが適合していないと感じた場合はガイダンスを上げ、スタイル/サブジェクトが上書きされる場合はガイダンスを下げます。
ImageScaleToMaxDimension
(#109)安定した特徴抽出のためにアイデンティティ画像を準備します。小さい最大サイズはより広い構成を優先し、大きいサイズは参照がタイトなポートレートで、よりシャープなアイデンティティキューが必要な場合に役立ちます。サブジェクト参照が全身かヘッドショットかに基づいて調整してください。
EasyCache
(#95)変更が小さい場合に中間状態を再利用して推論を高速化します。プロンプトの微調整や迅速な反復に最適ですが、微細なディテールが若干減少する可能性があります。最終的で最高品質のレンダリングには無効にしてください。
KSampler
(#31)拡散ステップを実行し、シードとサンプラーの選択によって確率性を制御します。詳細を増やすためにステップを増やしたり、参照を変更しながらルックを再現するためにシードを固定したりします。テクスチャがノイズのように見える場合は、異なるサンプラーを試すか、ステップを減らしてスタイルガイダンスを強化してください。
このワークフローは、以下の作品とリソースを実装および構築しています。ByteDanceによるUSOモデルとComfyUIチームによるByteDance USO ComfyUI Native Workflowチュートリアルの貢献とメンテナンスに心から感謝します。公式な詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されたライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。