PixelSmile微細表情制御による正確なポートレート編集
このComfyUIワークフローは、Qwen Image Editの上にPixelSmileの微細表情制御を提供します。ニュートラルな顔から特定の感情まで操り、それらの間をブレンドしながら、アイデンティティと構成を保ちます。典型的な使用例には、ヘッドショットの微細なレタッチ、キャラクターの感情のバリエーションの探求、単一のキャンバスでの制御された表情ミックスの作成があります。
内部では、グラフがQwenの編集エンコーダーでニュートラルおよびターゲットプロンプトをエンコードし、PixelSmileデルタを計算して表情変化を分離し、複数のターゲットをブレンドし、軽量のLightning LoRAでサンプルを取得して迅速かつ一貫した結果を得ます。シーンを再構築することなく、幸せ、驚き、ニュートラル、または他のプロンプト可能な表情を予測可能に制御できます。
Comfyui PixelSmile微細表情制御ワークフローの主要モデル
- Qwen-Image-Edit-2511。編集中にレイアウトとアイデンティティを保持する拡散ベースの画像編集バックボーン。構造を意識した局所的な修正と安定したテキスト条件付き変更のためにQwen-Imageを拡張します。Model card
- Qwen2.5-VL-7B-Instruct。短く自然なフレーズから強力な編集条件を生成するためにここで使用されるテキストビジョンモデル。Model card
- PixelSmile LoRA。プロンプトの意味に合わせた線形で強度制御された顔の変化を提供する表情に焦点を当てたLoRA。オープンソースの重みとプロジェクトリソースを参照してください。Hugging Face Paper
- Qwen-Image-Edit-2511-Lightning LoRA。インタラクティブな表情探索に最適な、非常に少ないステップで高品質の編集を可能にする速度最適化されたLoRA。Model card
Comfyui PixelSmile微細表情制御ワークフローの使用方法
このフローは、ソースポートレートを取り込み、ニュートラルおよびターゲット表情の条件を構築し、PixelSmileデルタを計算し、複数のターゲットをブレンドし、結果をサンプルしてデコードします。エンコーダーノードで編集プロンプトを設定し、PixelSmileの強度とブレンドを調整し、出力をプレビューします。
ソースポートレートの読み込みと作業サイズの設定
LoadImage(#129)を使用して、ポートレートを読み込みます。この画像はエンコーダーとサイズプローブの両方に供給され、グラフが元の解像度でレンダリングできるようにします。GetImageSize+(#257)は幅と高さを読み取り、EmptySD3LatentImage(#119)は同じサイズの潜像を割り当てます。これにより、サンプリング全体でフレーミングと構成が安定します。
ニュートラルとターゲットの表情を説明
TextEncodeQwenImageEditPlus(#248)は、ソース画像とペアリングされたニュートラルな説明(例:「ニュートラルな表情」)をエンコードします。これが参照状態になります。TextEncodeQwenImageEditPlus(#113, #260)で1つ以上のターゲット説明を作成します。例えば、「幸せな表情」や「驚いた表情」。各ターゲットは同じソース画像を使用し、アイデンティティとポーズを固定します。- プロンプトは短く自然なもので構いません。エンコーダーはQwen2.5-VL-7B-Instructを使用して、Qwen-Image-Edit-2511に適した編集条件を導き出します。
PixelSmileデルタを計算して正確に制御
- 各ターゲットに対して、
PixelSmileConditioning(#249, #259)はターゲットの条件とニュートラルな条件を取り、それを計算して顔の表情変化のみを隔離するデルタを計算します。 - ノードは表情の強度を線形にスケールする強度制御を公開します。また、表情の単語に補間を制限するトークンスコープメソッドをサポートし、顔以外の領域の不要な変化を避けるのに役立ちます。
複数の表情をブレンド
ConditioningAverage(#261)は2つのPixelSmileの出力を1つのポジティブな条件にブレンドします。例えば、40%驚きと60%幸せを混ぜて複合感情を作成するのに使用します。ConditioningZeroOut(#231)は残余のガイダンスをゼロにしてクリーンなネガティブを提供します。これにより、編集が集中し、ドリフトが減少します。
Qwen Image EditとLightningでサンプル
- モデルスタックはQwen-Image-Edit-2511 UNetをロードし、PixelSmile LoRAを適用し、その後Lightning LoRAをレイヤー化して迅速かつ一貫したステップを実行します(
UNETLoader(#244) →LoraLoaderModelOnly(#250, #251) →ModelSamplingAuraFlow(#118))。 KSampler(#133)は、ブレンドされたポジティブとゼロにされたネガティブの条件を使用してノイズ除去を実行します。Lightning LoRAは少ないステップでの応答性の高いプレビューを可能にし、PixelSmileの強度とブレンドの繰り返しに理想的です。
デコードとプレビュー
VAEDecode(#120)は最終的な潜像を画像に戻し、PreviewImage(#134)は結果を表示します。潜像のサイズが元の画像に一致するため、出力は構成とアスペクト比を維持します。
Comfyui PixelSmile微細表情制御ワークフローの主要ノード
PixelSmileConditioning (#249)
ターゲットプロンプトとニュートラルなベースラインの間の表情デルタを計算し、それをスケールして強度を制御します。scoreを調整して表情シフトを強化または柔らかくします。methodトグルを使用して、すべてのトークンにわたって補間を行い、より広範なスタイリスティックな変更を行うか、表情トークンに補間を制限してより厳密な顔制御を行います。これにより、髪や背景がより忠実に保持されることが多いです。ノードの実装については、詳細を参照してください。GitHub
PixelSmileConditioning (#259)
同じニュートラルベースラインに対して並行ターゲット(例えば「驚き」)を可能にする2番目のインスタンス。A/B表情トラックを設定してブレンドするのに使用します。両方のトラックで極端な設定を行うと結果がキャンセルされたり過駆動されたりする可能性があるため、混合を計画している場合は両方のPixelSmile score値を中程度に保つことをお勧めします。
ConditioningAverage (#261)
2つのPixelSmile条件を1つのポジティブな条件にブレンドします。支配したい表情に向かってウェイトを増やすか、片側に完全に設定して純粋な単一表情ランを行います。ニュアンスのある感情を構築する際は、最初は均等な分割に近づけ、小さな増分でバイアスをかけて、眉や口角のような微細な特徴が自然に見えるようにします。
TextEncodeQwenImageEditPlus (#113)
短いプロンプトと入力画像から編集条件を生成し、Qwen-Image-Edit-2511のエンコーダーとしてQwen2.5-VL-7B-Instructを活用します。感情に特化した簡潔で具体的なフレーズを使用してください。ニュートラルとターゲットエンコーダー間で同じソース画像をペアリングすることがアイデンティティの維持に重要です。
KSampler (#133)
Qwen-Image-EditバックボーンとLightning LoRAを重ねた状態でノイズ除去を実行します。PixelSmileの強度とブレンドを微調整しながら、主に全体のイテレーション数と変動性を制御するために使用します。アーティファクトが現れた場合は、まずPixelSmile scoreを減らしてからステップを増やします。
オプションの追加機能
- 表情の言葉を明示的に保ち、例えば「微細な幸せな表情」や「わずかな驚き」として、PixelSmileのデルタを微細表情にバイアスします。
- 顔の変化が髪や背景に及ぶ場合は、PixelSmileの
methodをトークン制限の補間に切り替え、scoreを少し減らします。 - 表情が弱く感じられる場合は、編集前に顔の周りを緩くクロップし、設定が気に入ったら再び全体の画像に適用します。
- プレビュー速度を上げるには、Lightning LoRAと低ステップで試行し、最終エクスポートが必要な場合のみステップを上げます。
参照モデルとプロジェクトリソースへのリンク:
- PixelSmileプロジェクトと重み: Hugging Face と論文 PixelSmile: Toward Fine-Grained Facial Expression Editing
- PixelSmile ComfyUIノード: GitHub
- Qwen-Image-Edit-2511: Hugging Face
- Qwen2.5-VL-7B-Instruct: Hugging Face
- Qwen-Image-Edit-2511-Lightning: Hugging Face
謝辞
このワークフローは、以下の作品とリソースに基づいて実装されています。ソースポスト、PixelSmileのPixelSmileモデル、およびComfyUI PixelSmile Conditioning Interpolationノードの貢献とメンテナンスに感謝します。権威ある詳細については、以下にリンクされた元の文書とリポジトリを参照してください。
リソース
- r/StableDiffusion/Source post
- ドキュメント / リリースノート: Reddit post
- PixelSmile/PixelSmile
- Hugging Face: PixelSmile/PixelSmile
- judian17/ComfyUI-PixelSmile-Conditioning-Interpolation
注意: 参照されたモデル、データセット、およびコードの使用は、それぞれの著者およびメンテナーによって提供されるライセンスおよび条件に従います。

