Z-Image I2I 궁극적인 포토리얼리즘: 초상화를 위한 정체성 안전한 얼굴 정제
Z-Image I2I 궁극적인 포토리얼리즘은 정직한 이미지-투-이미지 초상화 향상을 위한 두 단계의 ComfyUI 워크플로우입니다. 피사체의 정체성과 전체적인 외모를 보존하면서 현실적인 얼굴 디테일을 추가하고, 표정 단서를 수정하며, 얼굴 교환에서 흔히 발생하는 신비로운 아티팩트를 피합니다. Z-Image Turbo를 중심으로 특수한 얼굴 LoRA 가이드를 사용하여 포토리얼 초상화 편집, 리터칭 및 정체성 일관성 있는 업그레이드에 이상적입니다.
파이프라인은 먼저 입력 사진을 높은 충실도로 재현한 다음 자동 얼굴 마스킹 및 표정 인식 인페인팅을 사용하여 얼굴을 선택적으로 정제합니다. 결과는 핵심 유사성을 유지하는 자연스럽고 현실적인 초상화입니다. 이 README는 Comfyui Z-Image I2I 궁극적인 포토리얼리즘 워크플로우를 실행하고 적응하는 방법을 설명합니다.
참고: 이 워크플로우는 얼굴 LoRA가 필요합니다.
Inputs그룹 노드에 자신의 캐릭터 LoRA를 업로드하세요Character Lora here.
Comfyui Z-Image I2I 궁극적인 포토리얼리즘 워크플로우의 주요 모델
- Z-Image Turbo 확산 모델. 원본 구성 및 조명을 재현하면서 미세한 포토리얼 향상을 가능하게 하는 핵심 이미지-투-이미지 생성기입니다.
- ZImageTurbo VAE. I2I에서 색상 및 대비 드리프트를 최소화하는 충실한 잠재 변환을 위한 쌍으로 된 인코더/디코더입니다.
- Face LoRA 어댑터. 스타일화를 도입하지 않고 정체성 기능을 강화하는 선택적 피사체별 LoRAs입니다.
- Qwen3-VL Instruct 패밀리. 얼굴 표정과 시선을 자동으로 설명하여 사진에 실제로 있는 것에 맞춰 정제가 일치하도록 사용됩니다. 모델 카드 참조 Qwen3-VL-2B-Instruct 및 Qwen3-VL-4B-Instruct. ComfyUI 노드 통합은 ComfyUI-QwenVL에서 제공됩니다.
- Segment Anything Model 3 (SAM3). 기본 패스에서 얼굴 영역을 고립시키는 개방형 어휘 세분화를 제공합니다. 참조 facebookresearch/sam3 및 ComfyUI 래퍼 ComfyUI-SAM3.
Comfyui Z-Image I2I 궁극적인 포토리얼리즘 워크플로우 사용 방법
워크플로우는 두 가지 단계로 조정되어 실행됩니다: 입력 이미지를 충실하게 재현하는 기본 I2I 렌더링, 자동 마스킹 및 표정 인식 프롬프트에 의해 안내되는 얼굴 전용 정제 패스가 뒤따릅니다. 별도의 샌드박스를 사용하여 원본 이미지를 건드리지 않고 얼굴 LoRAs를 테스트할 수 있습니다.
입력
LoadImage (#958)에서 초상화를 로드합니다. 이미지는 구성을 보존하면서 안정적인 작업 크기로 ImageResizeKJv2 (#973)로 정규화됩니다. 비전-언어 노드는 이미지에서 구조화된, 사진-진실한 긍정적 프롬프트를 생성합니다; 장형 자동 프롬프트는 AILab_QwenVL (#962)에서 나옵니다, 이는 새로운 콘텐츠를 발명하기보다는 사진에 있는 것을 설명하도록 설계되었습니다. 정체성 일관성 있는 편집을 위해 이를 그대로 두거나 창의적인 변형을 위해 자신의 프롬프트로 교체할 수 있습니다. GGUF 기반 텍스트 인코더는 프롬프트 임베딩을 제공하여 낮은 VRAM 환경에서도 일관된 조건을 제공합니다.
렌더
기본 패스는 깨끗하고 노이즈가 제거된 시작점으로 입력 사진을 재현합니다. CLIPTextEncode (#6)은 자동 프롬프트를 인코딩하고, CLIPTextEncode (#7)는 안전망 네거티브 프롬프트를 추가하며, SeedVarianceEnhancer (#978)는 터보 모델의 낮은 시드 다양성을 피하기 위해 초기 단계에 소량의 제어된 변화를 주입합니다. 원본 이미지는 VAEEncode (#960)로 인코딩되고, 주요 샘플러 ClownsharKSampler_Beta (#979)는 고품질의 잠재를 생성하여 VAEDecode (#860)를 통해 사전 정제된 이미지로 디코딩합니다. 이 중간 결과는 빠른 A/B 비교를 위해 “Output 1 Pre-Face Detail”로 저장됩니다.
얼굴 정제기
정제 단계는 머리카락, 의류 및 배경을 손대지 않고 얼굴만 감지하고 개선합니다. LoadSAM3Model (#940)과 SAM3Grounding (#939)은 텍스트 프롬프트 “face”를 사용하여 사전 정제된 이미지에서 정밀한 얼굴 마스크를 찾습니다. 마스크는 GrowMaskWithBlur (#1008)로 부드럽게 하고, 얼굴 영역은 InpaintCropImproved (#942)를 사용하여 빠르고 고해상도 샘플링을 위해 컨텍스트에서 자른 후 다시 스티칭됩니다. 두 번째 AILab_QwenVL (#975)는 표정과 시선에만 집중된 간결한 설명을 만들어, CLIPTextEncode (#944)가 긍정적 조건으로 전환하고, ConditioningZeroOut (#945)는 얼굴 미세 디테일의 과도한 억제를 방지하기 위해 의도적으로 네거티브 채널을 제로화합니다. InpaintModelConditioning (#943)는 마스킹된 잠재를 준비합니다; DifferentialDiffusion (#949)는 구조적 일관성을 향해 모델을 조정합니다; ClownsharKSampler_Beta (#985)는 정제된 얼굴을 인페인팅합니다; VAEDecode (#947)와 InpaintStitchImproved (#950)는 마스크되지 않은 영역을 변경하지 않고 향상된 얼굴을 다시 합칩니다. 최종 이미지는 SaveImage (#989)에 의해 저장됩니다.
LoRA 테스트
“Test Lora” 샌드박스를 사용하여 원본을 건드리지 않고 얼굴 LoRA를 평가합니다. CLIPTextEncode (#999, #1000)는 간단한 테스트 프롬프트 쌍을 제공하고, EmptyLatentImage (#1001)는 깨끗한 캔버스를 만들며, ClownsharKSampler_Beta (#1007)는 빠른 샘플을 렌더링하여 미리보기할 수 있습니다. 이는 LoRA 선택과 가중치를 조정하기 전에 유용합니다.
Comfyui Z-Image I2I 궁극적인 포토리얼리즘 워크플로우의 주요 노드
SAM3Grounding(#939). SAM3을 사용하여 자연어 프롬프트에서 얼굴을 감지하여 폐쇄와 자세에 강한 깨끗한 마스크를 생성합니다. 마스크가 너무 타이트하거나 헤어라인 아티팩트를 포함하는 경우,GrowMaskWithBlur로 상류에서 부드럽게 하거나 확장하여 이음새를 피하십시오. 참조: facebookresearch/sam3 및 ComfyUI-SAM3.InpaintCropImproved(#942) 및InpaintStitchImproved(#950). 마스크된 영역만 최적의 해상도로 샘플링한 후 결과를 원본에 혼합하는 크롭-스티치 워크플로우입니다. 마스크되지 않은 픽셀이 다시 인코딩되지 않도록 하면서 대상 얼굴 해상도와 컨텍스트를 설정하는 데 사용하십시오. 참조: ComfyUI-Inpaint-CropAndStitch.ClownsharKSampler_Beta(#979, #985). 포토리얼 I2I 및 인페인팅에 뛰어난 고정밀 명시적 샘플러와 강력한 SDE 옵션을 갖춘 고급 RES4LYF 샘플러입니다. 정체성에 중요한 작업의 경우 안정적인 RES 샘플러와 보수적인 디노이즈를 선택하십시오; 표정이나 피부 디테일을 크게 변경하려는 경우에만 디노이즈를 증가시키십시오. 참조: RES4LYF.SeedVarianceEnhancer(#978). Z-Image Turbo의 낮은 시드 변동성을 상쇄하기 위해 초기 단계에서 긍정적 임베딩에 제어된 노이즈를 추가하여 정체성이 드리프트하지 않는 자연스러운 변화를 제공합니다. 출력이 시드 간 너무 비슷하게 보일 때 강도를 높이십시오; 프롬프트 준수가 약해질 경우 줄이십시오. 참조: ChangeTheConstants/SeedVarianceEnhancer.DifferentialDiffusion(#949). 마스크된 편집 동안 기본 구조를 유지하는 데 도움이 되는 차별적 디노이징을 위해 모델을 수정합니다. 미묘한 정체성 안전한 얼굴 정제를 위해 활성화된 상태로 유지하십시오; 의도적으로 더 강한 스타일리시한 변경을 원할 경우 비활성화 고려하십시오. 참조: ComfyUI 생태계 전반에 문서화된 노드 동작이며 여기서는 구조 보존 보조로 사용됩니다.AILab_QwenVL(#962, #975). 실제 이미지 콘텐츠를 읽어 가이드를 현실에 고정시키는 비전-언어 프롬프트로, 특히 미세 표정과 시선 방향에 유용합니다. 얼굴 패스에서 새로운 속성을 도입하지 않기 위해 간결하고 문자 그대로의 구문을 선호하십시오. 참조: ComfyUI-QwenVL 및 Qwen3-VL 모델 카드 (2B, 4B).
선택적 추가 사항
- “Output 1 Pre-Face Detail” 이미지를 사용하여 얼굴을 정제하기 전에 기본 충실도를 검증하십시오; 이는 기본 디노이즈 문제를 마스크 또는 인페인트 설정과 분리하는 데 도움이 됩니다.
- 정제된 얼굴이 지나치게 매끄럽게 느껴지면, 얼굴 마스크를 약간 확장하고 블러를 줄여 가장자리 책임성을 높인 후 얼굴 패스만 다시 실행하십시오.
- 정체성 보존 편집을 위해 프롬프트를 사실적으로 유지하십시오; 창의적인 스타일링은 얼굴 속성보다는 의상, 조명 또는 배경으로 이동하십시오.
- Test LoRA 샌드박스에서 새로운 얼굴 LoRAs를 먼저 검증한 후, 선택한 LoRA와 가중치를 메인 파이프라인에 적용하여 일관된 정체성 강화를 수행하십시오.
- 배치 전반에 걸쳐 일관된 프레이밍을 위해, 입력 이미지의 종횡비를 워크플로우의 리사이즈 목표에 가깝게 유지하여 크롭 압력을 최소화하고 비율을 유지하십시오.
감사의 말씀
이 워크플로우는 다음 작업과 리소스를 구현하고 기반으로 합니다. 우리는 RetroGazzaSpurs의 “Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism” 워크플로우에 대한 기여와 유지보수에 감사드립니다. 권위 있는 세부 사항은 아래에 링크된 원본 문서 및 리포지토리를 참조하십시오.
리소스
- RetroGazzaSpurs/Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism
- 문서 / 릴리스 노트: 워크플로우 소스
참고: 참조된 모델, 데이터셋 및 코드의 사용은 해당 저자 및 유지보수자가 제공한 라이선스 및 조건에 따릅니다.





