ERNIE-Image ComfyUI: 指示に従ったテキストから画像への変換と鮮明なテキストレンダリング
このERNIE-Image ComfyUIワークフローは、短いプロンプトを指示に従い、信頼できるテキストレンダリングを行う高品質の画像に変換します。Comfy-OrgのERNIE-Image拡散モデルと強力なテキストエンコーダー、オプションのプロンプトエンハンサー、現代的なFlux2 VAEを組み合わせて、ディテールとタイポグラフィを保持します。
高速な反復を目的として設計されており、ERNIE-Image ComfyUIはプロンプトを受け取り、オプションでリッチなガイダンスのために拡張し、エンコードし、ERNIE-Imageでサンプリングし、最終画像にデコードします。プロンプトの拡張ルートは含まれており、トグル可能なので、グラフを変更せずにオリジナルと拡張プロンプトを比較できます。
Comfyui ERNIE-Image ComfyUIワークフローの主要モデル
- ERNIE-Image拡散モデル。指示に従ったテキストレンダリングに調整された、潜在画像をノイズ除去して画像に変換するコアジェネレーター。モデルカード
- Ministral-3-3Bテキストエンコーダー。ERNIE-Imageのコンディショニングにプロンプトを変換する主要なテキストエンコーダー。ファイル
- ERNIE-Imageプロンプトエンハンサー。簡潔なプロンプトを説明的なガイダンスに拡張するために使用される補助エンコーダー。ファイル
- Flux2 VAE。サンプラーからの潜在画像をピクセルに変換し、詳細と読みやすいテキストを保持するデコーダー。ファイル
Comfyui ERNIE-Image ComfyUIワークフローの使い方
基本的に、プロンプトはオプションの拡張ステップを経てエンコードされ、最終的にFlux2 VAEによってデコードされて保存されます。以下のグループはグラフに直接対応しており、入力を調整する場所を常に把握できます。
プロンプト
ERNIE-Image ComfyUIサブグラフのトップレベルpromptフィールドに見たい内容を書きます。明確で指示的な表現が、指示の追従とテキストレンダリングに最適です。画像に描画したい引用されたテキストを含めることができます。ポジティブコンディショニングはこのプロンプトから構築されます。ネガティブパスは空で始まるので、結果は忠実である傾向がありますが、後で独自のネガティブを追加しない限り。
プロンプト拡張
Enable prompt enhancement? (#76)を使用して拡張パスをオンまたはオフにします。オンにすると、短いブリーフがTextGenerate (#74)によって拡張され、Load CLIP (PE) (#91)を介してロードされたERNIE-Imageプロンプトエンハンサーを使用します。エンハンサーは、プロンプトを豊かにするための構造化された指示を使用し、コヒーレントな構成を促進するためのターゲット幅と高さも渡します。ComfySwitchNode (#75)は、オリジナルまたは拡張テキストのいずれかを下流にルーティングするので、簡単にA/Bテストできます。広い互換性のために、トグルはデフォルトでオフになっています。エンハンサーモデルが存在する場合に有効にします。
モデル
ワークフローは3つのアセットをロードします:UNETLoader (#66)はERNIE-Image拡散モデルを選択し、CLIPLoader (#62)はMinistral-3-3Bテキストエンコーダーを取り込み、VAELoader (#63)はFlux2 VAEを提供します。この組み合わせが、ERNIE-Image ComfyUIに強力な指示遵守とクリーンなタイポグラフィを提供します。モデルを交換する場合は、不一致を避けるためにトリオを調整しておいてください。
画像サイズ
EmptyFlux2LatentImage (#71)はキャンバスを定義します。望むアスペクト比に幅と高さを設定します。風景、肖像画、正方形のグラフィックすべてに対応します。これらの寸法は、トグルがオンのときに拡張プロンプトにも注入され、モデルがレイアウトとテキスト配置を計画するのを助けます。大きなサイズは計算コストが高くなります。クイックプレビューには小さな寸法を使用し、必要に応じて後でアップスケールします。
テキストから画像へ
CLIPTextEncode (#67)がルートされたプロンプトをポジティブコンディショニングに変換し、CLIPTextEncode (#72)がネガティブブランチを提供します(デフォルトでは空)。KSampler (#70)がERNIE-Imageモデルとあなたのコンディショニングを使用して潜在画像を生成します。サンプリング後、VAEDecode (#65)が潜在画像をRGBピクセルに変換します。すべてがワンクリック生成のために配線されているので、入力が設定されたら、ジョブをキューに入れ、プレビューを見守るだけです。
出力
画像はSaveImage (#73)によって保存されます。UIプレビューと出力ディレクトリに表示されます。テキストブランチの効果を分離するために、エンハンスメントオンとオフを比較する際には一貫したシードを使用してください。
Comfyui ERNIE-Image ComfyUIワークフローの主要ノード
KSampler (#70) 拡散軌跡を制御するメインジェネレーター。stepsを調整して品質と速度をバランスさせ、cfgを使用してプロンプトの遵守を強化または緩和し、プロンプトバリエーション間の再現性を高めるために固定seedを設定します。高いガイダンスは遵守を鋭くする可能性がありますが、創造性を減少させる可能性があります。好みに合わせてバランスをとります。ComfyUIのサンプラーリファレンスを参照して、一般的な動作を確認してください。ComfyUI
UNETLoader (#66) 実際に潜在画像をノイズ除去して画像に変換するERNIE-Image拡散モデルをロードします。指示遵守とテキストレンダリングの恩恵を受けるために、この設定をERNIE-Imageチェックポイントに保ちます。モデルを切り替えると、スタイルとタイポグラフィの能力に変化が生じる可能性があります。ERNIE-Image
CLIPLoader (#62) メインコンディショニングパスに使用されるMinistral-3-3Bテキストエンコーダーを提供します。エンコーダーを交換すると、言語がビジュアルにマッピングされる方法が変わります。忠実な指示に従うために、ERNIE-Imageスタックと整合させておきます。このノードは、下流のポジティブおよびネガティブエンコーダーの両方に影響を与えます。Ministral-3-3B ファイル
VAELoader (#63) デコード中に使用されるFlux2 VAEを提供します。マッチしたVAEは色とエッジの忠実性を保持し、レンダリングされたテキストをシャープに保ちます。ERNIE-Imageで生成する際にはこれを使用して最良の結果を得てください。Flux2 VAE ファイル
EmptyFlux2LatentImage (#71) 選択した解像度で空の潜在キャンバスを初期化します。これが最終的な画像サイズを設定し、レイアウトを微妙にガイドします。寸法を変更すると、アクティブな場合にはエンハンサーの内部指示も更新されます。
CLIPTextEncode (#67) 最終ルートされたプロンプトをポジティブコンディショニングにエンコードします。テキストレンダリングを改善するために、表示したい正確な単語を引用符で囲み、重要な場合はケースを指定します。指示を簡潔かつ具体的に保つことで、最良の遵守が得られます。
CLIPTextEncode (#72) ネガティブプロンプトをエンコードします。デフォルトでは空白で、出力を意図に近づけます。不要なアーティファクトが見られる場合は、ここにいくつかの簡潔なネガティブ用語を追加します。
TextGenerate (#74) Load CLIP (PE) (#91)でロードされたERNIE-Imageプロンプトエンハンサーを使用して、拡張された説明を生成します。短いブリーフを豊かで視覚的な指示に変換し、構成とディテールを改善するのに役立ちます。文字通りのコントロールを求める場合は拡張トグルをオフにし、説明的なバリエーションを求める場合はオンにします。プロンプトエンハンサー ファイル
ComfySwitchNode (#75) Enable prompt enhancement? (#76)に基づいて、元のまたは拡張プロンプトを転送します。これにより、接続を変更せずにA/Bテストが容易になります。プロンプトの違いのみを分離するために、比較時に固定されたseedを使用してください。
VAEDecode (#65) Flux2 VAEを使用して最終潜在画像をデコードします。このステップは色、明瞭さ、および小さなテキストの読みやすさに強く影響します。ERNIE-ImageスタックのFlux2 VAEとペアリングして使用してください。
SaveImage (#73) 生成された画像をディスクに書き込み、UIに表示します。複数のERNIE-Image ComfyUI実行をベンチマークする場合は、一貫した命名規則を使用してください。
オプションの追加
- 鮮明な文字を得るには、正確な単語を引用符で囲み、「ボールドセリフラベル」や「手書きタグ」などのスタイル指示を指定します。ERNIE-Image ComfyUIはテキストレンダリングに最適化されています。
- 「中央配置の商品写真」や「白い背景」、「2:3ポスターのレイアウト」などの明確な指示を使用して、ERNIE-Image ComfyUIが指示に正確に従うようにします。
- エンハンサーのパスを比較する際には、
seedをロックし、エンハンストグルのみを切り替えて真のA/B違いを確認します。 - シーンに合ったアスペクト比を選択します。ERNIE-Image ComfyUIはサイズのヒントを尊重し、それに応じてレイアウトを計画します。
謝辞
このワークフローは、以下の作品やリソースを実装し、構築しています。ERNIE-Image(再パッケージ化されたモデルファイルとアセット)を提供するComfy-Org、元のERNIE-Imageモデルを提供するBaidu、およびERNIE-Image ComfyUIワークフロー例を提供するComfyUIチームに感謝します。権威ある詳細については、以下にリンクされた元のドキュメントとリポジトリを参照してください。
リソース
- ComfyUI/ERNIE-Image ComfyUIワークフローソース
- GitHub: comfy-org/docs
- ドキュメント / リリースノート: ERNIE-Image ComfyUIワークフロー例
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: [baidu/ERNIE-Image](https://github.comjson
/baidu/ERNIE-Image)
- Hugging Face: flux2-vae.safetensors
Note: Use of the referenced models, datasets, and code is subject to the respective licenses and terms provided by their authors and maintainers.





