Z-Image I2I Ultimate Photorealism: ポートレートのためのアイデンティティを安全に保つ顔の洗練
Z-Image I2I Ultimate Photorealismは、忠実なイメージからイメージへのポートレート強化のための2段階のComfyUIワークフローです。それは被写体のアイデンティティと全体の外観を保持しながら、リアルな顔の詳細を追加し、表情の手がかりを修正し、顔の交換によく見られる不気味なアーティファクトを避けます。Z-Image Turboを中心に構築され、特化した顔のLoRAガイダンスを備えており、フォトリアルなポートレート編集、リタッチング、単一のソース画像からのアイデンティティを一貫してアップグレードするのに理想的です。
このパイプラインは、最初に入力写真を高忠実度で再現し、その後、顔を自動顔マスキングと表情に対応したインペインティングを使用して選択的に洗練します。その結果、コアの似顔を損なうことなく維持する自然でリアルなポートレートが得られます。このREADMEは、Comfyui Z-Image I2I Ultimate Photorealismワークフローの実行と適応方法を説明します。
注: このワークフローは、顔のLoRAが必要です。独自のキャラクターLoRAを
InputsグループノードCharacter Lora hereにアップロードしてください。
Comfyui Z-Image I2I Ultimate Photorealismワークフローの主要モデル
- Z-Image Turbo拡散モデル。ソースの構成と照明を再現しながら、微妙なフォトリアルな強化を可能にするコアイメージからイメージジェネレーター。
- ZImageTurbo VAE。I2Iでの色とコントラストのドリフトを最小限に抑える忠実な潜在変換のためのペアリングされたエンコーダー/デコーダー。
- Face LoRAアダプター。スタイリングを導入することなくアイデンティティの特徴を強化するオプションの被写体特化LoRA。
- Qwen3-VL Instructファミリー。顔の表情と視線を自動で記述するために使用され、改善が実際の写真と一致するようにします。モデルカードはQwen3-VL-2B-InstructとQwen3-VL-4B-Instructを参照してください。ComfyUIノード統合はComfyUI-QwenVLによって提供されます。
- Segment Anything Model 3 (SAM3)。ベースパスから顔の領域を分離するオープンボキャブラリーセグメンテーションで、正確で破壊的でないインペインティングを可能にします。facebookresearch/sam3とComfyUIラッパーComfyUI-SAM3を参照してください。
Comfyui Z-Image I2I Ultimate Photorealismワークフローの使用方法
このワークフローは、画像を忠実に再現する基本のI2Iレンダーと、自動マスキングと表情に対応したプロンプトによる顔のみの洗練パスの2つの調整されたステージで実行されます。別のサンドボックスで顔のLoRAをテストし、ソース画像に触れずに試すことができます。
入力
ポートレートをLoadImage (#958)にロードします。画像はImageResizeKJv2 (#973)で安定した作業サイズに正規化され、構成を保持します。その後、ビジョン-言語ノードが画像から構造化された、写真に忠実なポジティブプロンプトを生成します。長文の自動プロンプトはAILab_QwenVL (#962)から取得され、写真にあるものを記述するために設計されています。アイデンティティを一貫した編集のためにそのままにしておくこともできますし、クリエイティブなバリエーションのために独自のプロンプトに置き換えることもできます。GGUFベースのテキストエンコーダーがプロンプト埋め込みを提供し、低VRAM環境でも一貫した条件付けが可能です。
レンダー
基本パスは入力写真をクリーンでノイズのない出発点として再現します。CLIPTextEncode (#6)が自動プロンプトをエンコードし、CLIPTextEncode (#7)が安全ネットのネガティブプロンプトを追加し、SeedVarianceEnhancer (#978)が初期ステップにわずかに制御されたバリエーションを注入し、ターボモデルに典型的な低シード多様性を避けます。ソース画像はVAEEncode (#960)でエンコードされ、メインサンプラーClownsharKSampler_Beta (#979)が高忠実度潜在を生成し、VAEDecode (#860)を介して事前洗練画像にデコードします。この中間結果は「Output 1 Pre-Face Detail」として保存され、迅速なA/B比較が可能です。
フェイスリファイナー
洗練段階は顔のみを検出し改善し、髪、服装、背景は手を付けません。LoadSAM3Model (#940)とSAM3Grounding (#939)は、テキストプロンプト「face」を使用して事前洗練画像から正確な顔マスクを見つけます。マスクはGrowMaskWithBlur (#1008)で柔らかくされ、InpaintCropImproved (#942)を使用して文脈に応じて顔領域がクロップされ、高速で高解像度のサンプリングが行われた後にステッチバックされます。2番目のAILab_QwenVL (#975)が表情と視線にのみ焦点を当てたコンパクトな説明を作成し、CLIPTextEncode (#944)がポジティブコンディショニングに変換し、ConditioningZeroOut (#945)が意図的にネガティブチャンネルをゼロにして顔の微細なディテールの過剰抑制を防ぎます。InpaintModelConditioning (#943)がマスクされた潜在を準備し、DifferentialDiffusion (#949)が構造的一貫性をモデルに促し、ClownsharKSampler_Beta (#985)が洗練された顔をインペイントし、VAEDecode (#947)とInpaintStitchImproved (#950)が改善された顔を未マスク領域を変更せずにマージします。最終画像はSaveImage (#989)によって保存されます。
LoRAのテスト
「Test Lora」サンドボックスを使用して、ソースに触れずに顔のLoRAを評価します。CLIPTextEncode (#999, #1000)はシンプルなテストプロンプトペアを提供し、EmptyLatentImage (#1001)がクリーンなキャンバスを作成し、ClownsharKSampler_Beta (#1007)がプレビュー可能なクイックサンプルをレンダリングします。これはLoRAの選択と重み付けをフルアイデンティティ洗練パスを実行する前に調整するのに役立ちます。
Comfyui Z-Image I2I Ultimate Photorealismワークフローの主要ノード
SAM3Grounding(#939)。SAM3を使用して自然言語プロンプトから顔を検出し、オクルージョンやポーズに強いクリーンなマスクを生成します。マスクがタイトすぎたり、髪の生え際のアーティファクトを含む場合は、GrowMaskWithBlurを使用して上流で拡張またはぼかしてシームを避けてください。参考: facebookresearch/sam3とComfyUI-SAM3。InpaintCropImproved(#942)とInpaintStitchImproved(#950)。クロップしてからステッチするワークフローで、マスクされた領域のみを最適な解像度でサンプリングし、その結果をオリジナルにブレンドします。ターゲットの顔解像度とコンテキストを設定し、未マスクピクセルが再エンコードされないようにしてください。参考: ComfyUI-Inpaint-CropAndStitch。ClownsharKSampler_Beta(#979, #985)。フォトリアルなI2Iとインペインティングで卓越した高精度の明示的サンプラーと堅牢なSDEオプションを備えた高度なRES4LYFサンプラー。アイデンティティが重要な作業には、安定したRESサンプラーと保守的なデノイズを選択してください。表情や肌の詳細を大幅に変更する場合のみデノイズを増やしてください。参考: RES4LYF。SeedVarianceEnhancer(#978)。Z-Image Turboでの低シードバリアンスを相殺するために初期ステップでポジティブな埋め込みに制御されたノイズを追加し、アイデンティティを逸脱せずに自然なバリエーションを生み出します。出力がシード間であまりにも似ている場合はその強度を増やし、プロンプトの順守が弱まる場合は減らしてください。参考: ChangeTheConstants/SeedVarianceEnhancer。DifferentialDiffusion(#949)。マスクされた編集中に基礎構造を保持するのに役立つ差分デノイジングのためにモデルを修正します。微妙なアイデンティティを安全に保つ顔の洗練には有効にしておき、意図的に強いスタイリスティックな変更を望む場合は無効にすることを検討してください。参考: ComfyUIエコシステム全体で文書化されたノード動作で、ここでは構造的保存の補助として使用されています。AILab_QwenVL(#962, #975)。微表情や視線方向を特に現実に根ざしたガイダンスを保つために実際の画像コンテンツを読み取るビジョン-言語プロンプト。顔パスでは新しい属性を導入しないように、簡潔で文字通りの表現を好んでください。参考: ComfyUI-QwenVLおよびQwen3-VLモデルカード(2B、4B)。
オプションの追加機能
- 「Output 1 Pre-Face Detail」画像を使用して、顔の洗練前に基本的な忠実度を確認します。これにより、ベースのデノイズの問題をマスクやインペイント設定から分離できます。
- 洗練された顔が過度に滑らかに感じられる場合は、顔マスクを少し拡張し、そのぼかしを減らしてエッジの説明責任を高め、その後顔パスのみを再実行します。
- アイデンティティを保持する編集のためにプロンプトを事実に基づいたものにしておき、創造的なスタイリングを顔の属性ではなく、衣装、照明、背景に移動します。
- 新しい顔LoRAを最初にTest LoRAサンドボックスで検証し、その後、選択したLoRAと重みをメインパイプラインに適用してアイデンティティの一貫性を強化します。
- バッチ全体で一貫したフレーミングを維持するために、入力画像のアスペクト比をワークフローのリサイズターゲットに近づけて、クロップの圧力を最小限に抑え、比率を保存します。
謝辞
このワークフローは、以下の作品とリソースを実装し、それに基づいて構築されています。我々は、「Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism」ワークフローの寄稿とメンテナンスに関してRetroGazzaSpursに感謝の意を表します。権威ある詳細については、以下にリンクされている元のドキュメントとリポジトリを参照してください。
リソース
- RetroGazzaSpurs/Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism
- ドキュメント / リリースノート: Workflow Source
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されたライセンスと条件に従う必要があります。




