このワークフローは、Z Image ControlNetをComfyUIに導入し、リファレンス画像からの正確な構造でZ-Image Turboを操作できるようにします。1つのグラフ内で3つのガイダンスモード(深度、キャニーエッジ、人間のポーズ)をバンドルし、それらの間をタスクに合わせて切り替えることができます。その結果、レイアウト、ポーズ、構成が制御されたまま、迅速で高品質なテキストまたは画像から画像への生成が可能になります。
アーティスト、コンセプトデザイナー、レイアウトプランナー向けに設計されており、グラフはバイリンガルプロンプトとオプションのLoRAスタイリングをサポートします。選択した制御信号のクリーンなプレビューと、深度、キャニー、またはポーズを最終出力と比較するための自動比較ストリップを取得できます。
高レベルでは、リファレンス画像をロードまたはアップロードし、深度、キャニー、またはポーズのいずれかの制御モードを選択し、テキストプロンプトで生成します。グラフはリファレンスの効率的なサンプリングのためにスケールし、対応するアスペクト比で潜在を構築し、最終画像と並べて比較ストリップの両方を保存します。
LoadImage (#14)を使用してリファレンス画像を選択します。Text Multiline (#17)でテキストプロンプトを入力します。Z-Imageスタックはバイリンガルプロンプトをサポートしています。プロンプトはCLIPLoader (#2)とCLIPTextEncode (#4)によってエンコードされます。純粋に構造駆動の画像から画像への生成を好む場合は、プロンプトを最小限に抑え、選択した制御信号に依存できます。
3つのプリプロセッサがリファレンスを制御信号に変換します。AIO_Preprocessor (#45)はDepth Anything v2で深度を生成し、AIO_Preprocessor (#46)はキャニーエッジを抽出し、DWPreprocessor (#56)は全身ポーズを推定します。ImpactSwitch (#58)を使用して、どの信号がZ Image ControlNetを駆動するかを選択し、PreviewImage (#43)で選択した制御マップを確認します。シーンのジオメトリが必要な場合は深度を、鮮明なレイアウトや製品ショットにはキャニーを、キャラクター作業にはポーズを選択します。
OpenPoseのヒント:
- 全身に最適: OpenPoseはプロンプトに"full body"を含めるときに最も効果的です(約70-90%の精度)。
- クローズアップには避ける: 顔の精度は大幅に低下します。クローズアップにはDepthまたはCanny(低/中強度)を使用してください。
- プロンプトが重要: プロンプトはControlNetに大きく影響します。曖昧なプロンプトは避けてください。
ImageScaleToTotalPixels (#34)は、品質と速度のバランスを取るためにリファレンスを実用的な作業解像度にリサイズします。GetImageSizeAndCount (#35)はスケールされたサイズを読み取り、幅と高さを前方に渡します。EmptyLatentImage (#6)は、リサイズされた入力のアスペクトに一致する潜在キャンバスを作成し、構成の一貫性を保ちます。
QwenImageDiffsynthControlnet (#39)は、ベースモデルとZ Image ControlNetユニオンパッチおよび選択した制御画像を融合し、KSampler (#7)は、正と負のコンディショニングによって導かれた結果を生成します。VAEDecode (#8)は、潜在を画像に変換します。ワークフローは2つの出力を保存します。SaveImage (#31)は最終画像を書き込み、SaveImage (#42)はImageConcatMulti (#38)を介してソース、制御マップ、および結果を含む比較ストリップを書き込みます。
ImpactSwitch (#58)生成を駆動する制御画像(深度、キャニー、またはポーズ)を選択します。各制約が構成と詳細をどのように形作るかを比較するためにモードを切り替えます。レイアウトを繰り返す際に、どのガイダンスが目標に最適かを迅速にテストするために使用してください。
QwenImageDiffsynthControlnet (#39)ベースモデル、Z Image ControlNetユニオンパッチ、VAE、および選択された制御信号をブリッジします。strengthパラメータは、モデルが制御入力に対してプロンプトをどの程度厳密に従うかを決定します。レイアウトの厳密な一致には強度を上げ、より創造的なバリエーションには減らします。
AIO_Preprocessor (#45)Depth Anything v2パイプラインを実行して、高密度の深度マップを作成します。詳細な構造には解像度を上げ、迅速なプレビューには下げます。建築シーン、製品ショット、ジオメトリが重要な風景に適しています。
DWPreprocessor (#56)人やキャラクターに適したポーズマップを生成します。手足が見えており、あまり覆われていないときに最も効果的です。手や足が欠けている場合は、より明確なリファレンスまたはより完全な体の可視性を持つ別のフレームを試してください。
LoraLoaderModelOnly (#54)スタイルまたはアイデンティティの手がかりのためにベースモデルにオプションのLoRAを適用します。strength_modelを調整して、LoRAを穏やかにまたは強くブレンドします。顔のLoRAを差し替えて被写体をパーソナライズしたり、スタイルのLoRAを使用して特定の外観を固定したりできます。
KSampler (#7)プロンプトと制御を使用してディフュージョンサンプリングを実行します。再現性のためにseedを調整し、洗練予算のためにstepsを、プロンプトの従順性のためにcfgを、初期潜在からどの程度出力を逸脱させるかのためにdenoiseを調整します。画像から画像への編集には構造を保持するためにdenoiseを下げ、より大きな変化を許可するには高くします。
このワークフローは、以下の作品およびリソースを実装および構築しています。Z Image ControlNetを提供し、メンテナンスしているAlibaba PAIに感謝いたします。権威ある詳細については、以下にリンクされた元のドキュメントおよびリポジトリを参照してください。
注: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナによって提供されるライセンスおよび条件に従います。
RunComfyは最高の ComfyUI プラットフォームです。次のものを提供しています: ComfyUIオンライン 環境とサービス、および ComfyUIワークフロー 魅力的なビジュアルが特徴です。 RunComfyはまた提供します AI Playground, アーティストが最新のAIツールを活用して素晴らしいアートを作成できるようにする。