Z-Image I2I Realismo Fotográfico Definitivo: refinamiento facial seguro para retratos
Z-Image I2I Realismo Fotográfico Definitivo es un flujo de trabajo de ComfyUI en dos etapas para la mejora fiel de retratos de imagen a imagen. Preserva la identidad del sujeto y la apariencia general mientras agrega detalles faciales realistas, corrige las señales de expresión y evita los artefactos extraños comunes en los intercambios de caras. Construido alrededor de Z-Image Turbo con orientación especializada de LoRA facial, es ideal para la edición fotográfica realista de retratos, retoques y mejoras consistentes con la identidad a partir de una imagen fuente única.
El proceso primero reproduce tu foto de entrada con alta fidelidad, luego refina selectivamente el rostro usando enmascaramiento facial automático y repintado consciente de la expresión. El resultado es un retrato natural y realista que mantiene intacta la semejanza principal. Este README explica cómo ejecutar y adaptar el flujo de trabajo Comfyui Z-Image I2I Realismo Fotográfico Definitivo.
Nota: Este flujo de trabajo requiere un LoRA facial para funcionar. Sube tu propio LoRA de personaje al nodo de grupo
InputsCharacter Lora here.
Modelos clave en el flujo de trabajo Comfyui Z-Image I2I Realismo Fotográfico Definitivo
- Modelo de difusión Z-Image Turbo. Generador de imagen a imagen central que reproduce la composición y la iluminación de la fuente mientras permite mejoras sutiles y fotográficas.
- ZImageTurbo VAE. Codificador/decodificador emparejado para conversión latente fiel que minimiza la deriva de color y contraste en I2I.
- Adaptadores Face LoRA. LoRAs específicos del sujeto opcionales que refuerzan las características de identidad sin introducir estilización.
- Familia Qwen3-VL Instruct. Usada para describir automáticamente la expresión facial y la mirada para que las mejoras se alineen con lo que realmente hay en la foto. Ver tarjetas de modelo para Qwen3-VL-2B-Instruct y Qwen3-VL-4B-Instruct. La integración del nodo ComfyUI la proporciona ComfyUI-QwenVL.
- Segment Anything Model 3 (SAM3). Segmentación de vocabulario abierto que aísla la región del rostro del pase base para un repintado preciso y no destructivo. Ver facebookresearch/sam3 y el envoltorio ComfyUI ComfyUI-SAM3.
Cómo usar el flujo de trabajo Comfyui Z-Image I2I Realismo Fotográfico Definitivo
El flujo de trabajo se ejecuta en dos etapas coordinadas: un render base de I2I que reproduce fielmente tu imagen, seguido de un pase de refinamiento solo de rostro guiado por enmascaramiento automático y un aviso consciente de la expresión. Un área de pruebas separada te permite probar LoRAs faciales sin tocar tu imagen fuente.
Entradas
Carga tu retrato en LoadImage (#958). La imagen se normaliza con ImageResizeKJv2 (#973) a un tamaño de trabajo estable mientras se preserva la composición. Un nodo de visión-lenguaje luego genera un aviso positivo estructurado y fotorrealista a partir de la imagen; el aviso automático de formato largo proviene de AILab_QwenVL (#962), que está diseñado para describir lo que hay en la foto en lugar de inventar nuevo contenido. Puedes dejarlo tal cual para ediciones consistentes con la identidad o reemplazarlo con tu propio aviso para variaciones creativas. Un codificador de texto basado en GGUF proporciona incrustaciones de aviso, para que obtengas una condición consistente incluso en entornos de VRAM más bajos.
Renderizar
El pase base recrea la foto de entrada como un punto de partida limpio y sin ruido. CLIPTextEncode (#6) codifica el aviso automático, CLIPTextEncode (#7) agrega un aviso negativo de red de seguridad, y SeedVarianceEnhancer (#978) inyecta una pequeña cantidad controlada de variación temprana para evitar la baja diversidad de semillas típica de los modelos turbo. La imagen fuente se codifica con VAEEncode (#960), y el muestreador principal ClownsharKSampler_Beta (#979) produce un latente de alta fidelidad que se decodifica a la imagen pre-refinada a través de VAEDecode (#860). Este resultado provisional se guarda como "Output 1 Pre-Face Detail" para una comparación rápida A/B.
Refinador Facial
La etapa de refinamiento detecta y mejora solo el rostro, dejando el cabello, la ropa y el fondo intactos. LoadSAM3Model (#940) con SAM3Grounding (#939) encuentra una máscara facial precisa de la imagen pre-refinada usando el aviso de texto "face". La máscara se suaviza con GrowMaskWithBlur (#1008), y la región del rostro se recorta en contexto usando InpaintCropImproved (#942) para un muestreo más rápido y de mayor resolución antes de coser de nuevo. Un segundo AILab_QwenVL (#975) crea una descripción compacta centrada solo en la expresión y la mirada, que CLIPTextEncode (#944) convierte en una condición positiva mientras ConditioningZeroOut (#945) intencionalmente anula el canal negativo para evitar la supresión excesiva de microdetalles faciales. InpaintModelConditioning (#943) prepara latentes enmascarados; DifferentialDiffusion (#949) inclina el modelo hacia la consistencia estructural; ClownsharKSampler_Beta (#985) repinta el rostro refinado; VAEDecode (#947) e InpaintStitchImproved (#950) fusionan el rostro mejorado de nuevo sin alterar las áreas no enmascaradas. La imagen final se guarda con SaveImage (#989).
Probar LoRA
Usa el área de pruebas "Test Lora" para evaluar un LoRA facial sin tocar tu fuente. CLIPTextEncode (#999, #1000) proporciona un par de avisos de prueba simples, EmptyLatentImage (#1001) crea un lienzo limpio, y ClownsharKSampler_Beta (#1007) genera muestras rápidas que puedes previsualizar. Esto es útil para ajustar la elección y el peso de LoRA antes de ejecutar un pase completo de refinamiento de identidad.
Nodos clave en el flujo de trabajo Comfyui Z-Image I2I Realismo Fotográfico Definitivo
SAM3Grounding(#939). Detecta el rostro a partir de un aviso de lenguaje natural usando SAM3, produciendo máscaras limpias que son robustas frente a la oclusión y la pose. Si la máscara es demasiado ajustada o incluye artefactos en la línea del cabello, expándela suavemente o difumínala aguas arriba conGrowMaskWithBlurpara evitar costuras. Referencia: facebookresearch/sam3 y ComfyUI-SAM3.InpaintCropImproved(#942) eInpaintStitchImproved(#950). Flujo de trabajo de recorte y luego costura que muestrea solo la región enmascarada a una resolución óptima, luego mezcla el resultado nuevamente en el original. Úsalo para establecer la resolución del rostro objetivo y el contexto mientras aseguras que los píxeles no enmascarados nunca se recodifican. Referencia: ComfyUI-Inpaint-CropAndStitch.ClownsharKSampler_Beta(#979, #985). Muestreador RES4LYF avanzado con muestreadores explícitos de alta precisión y opciones SDE robustas que sobresalen en I2I fotorealista y repintado. Para trabajos críticos de identidad, elige un muestreador RES estable y un desenfoque conservador; aumenta el desenfoque solo si pretendes cambiar notablemente la expresión o los detalles de la piel. Referencia: RES4LYF.SeedVarianceEnhancer(#978). Agrega ruido controlado a las incrustaciones positivas en los primeros pasos para contrarrestar la baja varianza de semillas en Z-Image Turbo, produciendo variación natural sin desviar la identidad. Aumenta su fuerza cuando los resultados parecen demasiado similares entre semillas; redúcelo si la adherencia al aviso se debilita. Referencia: ChangeTheConstants/SeedVarianceEnhancer.DifferentialDiffusion(#949). Modifica el modelo para un desenfoque diferencial que ayuda a preservar la estructura subyacente durante las ediciones enmascaradas. Mantenlo habilitado para refinamientos faciales sutiles y seguros para la identidad; considera deshabilitarlo si intencionalmente deseas cambios estilísticos más fuertes. Referencia: comportamiento del nodo documentado en ecosistemas ComfyUI y utilizado aquí como una ayuda para la preservación estructural.AILab_QwenVL(#962, #975). Avisos de visión-lenguaje que leen el contenido real de la imagen para mantener la guía anclada en la realidad, especialmente para microexpresiones y dirección de la mirada. Prefiere frases concisas y literales en el pase facial para evitar introducir nuevos atributos. Referencia: ComfyUI-QwenVL y tarjetas de modelo Qwen3-VL (2B, 4B).
Extras opcionales
- Usa la imagen "Output 1 Pre-Face Detail" para verificar la fidelidad base antes de refinar el rostro; esto ayuda a separar los problemas de desenfoque base de los ajustes de máscara o repintado.
- Si el rostro refinado se siente demasiado suave, expande ligeramente la máscara facial y reduce su desenfoque para aumentar la responsabilidad del borde, luego ejecuta solo el pase facial nuevamente.
- Mantén los avisos fácticos para ediciones que preserven la identidad; mueve el estilo creativo al vestuario, la luz o el fondo en lugar de los atributos faciales.
- Valida nuevos LoRAs faciales en el área de pruebas Test LoRA primero, luego aplica el LoRA y peso elegidos al flujo principal para un refuerzo consistente de la identidad.
- Para un encuadre consistente en un lote, mantén el aspecto de tus imágenes de entrada cerca de los objetivos de redimensionamiento del flujo de trabajo para minimizar la presión de recorte y preservar las proporciones.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos profundamente a RetroGazzaSpurs por el flujo de trabajo "Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism" por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- RetroGazzaSpurs/Z-Image IMG2IMG for Characters: Endgame V3 - Ultimate Photorealism
- Documentación / Notas de lanzamiento: Workflow Source
Nota: El uso de los modelos, conjuntos de datos y códigos referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.




