Este flujo de trabajo lleva Z Image ControlNet a ComfyUI para que puedas dirigir Z‑Image Turbo con estructura precisa a partir de imágenes de referencia. Agrupa tres modos de guía en un gráfico: profundidad, bordes canny y pose humana, y te permite cambiar entre ellos para adaptarse a tu tarea. El resultado es una generación rápida y de alta calidad de texto o imagen a imagen donde la disposición, pose y composición permanecen bajo control mientras iteras.
Diseñado para artistas, diseñadores conceptuales y planificadores de disposiciones, el gráfico admite indicaciones bilingües y estilización opcional con LoRA. Obtienes una vista previa limpia de la señal de control elegida, además de una tira de comparación automática para evaluar la profundidad, canny o pose frente al resultado final.
A un nivel alto, cargas o subes una imagen de referencia, seleccionas un modo de control entre profundidad, canny o pose, luego generas con una indicación de texto. El gráfico escala la referencia para un muestreo eficiente, construye un latente a la relación de aspecto coincidente, y guarda tanto la imagen final como una tira de comparación lado a lado.
Usa LoadImage (#14) para elegir una imagen de referencia. Ingresa tu indicación textual en Text Multiline (#17), el conjunto Z‑Image admite indicaciones bilingües. La indicación es codificada por CLIPLoader (#2) y CLIPTextEncode (#4). Si prefieres una imagen-a-imagen puramente guiada por estructura, puedes dejar la indicación mínima y depender de la señal de control seleccionada.
Tres preprocesadores convierten tu referencia en señales de control. AIO_Preprocessor (#45) produce profundidad con Depth Anything v2, AIO_Preprocessor (#46) extrae bordes canny, y DWPreprocessor (#56) estima pose corporal completa. Usa ImpactSwitch (#58) para seleccionar qué señal impulsa Z Image ControlNet, y verifica PreviewImage (#43) para confirmar el mapa de control elegido. Elige profundidad cuando desees geometría de escena, canny para una disposición nítida o tomas de productos, y pose para trabajos de personajes.
Consejos para OpenPose:
- Mejor para Cuerpo Completo: OpenPose funciona mejor (~70-90% de precisión) cuando incluyes "cuerpo completo" en tu indicación.
- Evitar para Primeros Planos: La precisión cae significativamente en rostros. Usa Profundidad o Canny (baja/media fuerza) para primeros planos en su lugar.
- Las Indicaciones Importan: Las indicaciones influyen fuertemente en ControlNet. Evita indicaciones vacías para prevenir resultados confusos.
ImageScaleToTotalPixels (#34) redimensiona la referencia a una resolución de trabajo práctica para equilibrar calidad y velocidad. GetImageSizeAndCount (#35) lee el tamaño escalado y pasa el ancho y la altura hacia adelante. EmptyLatentImage (#6) crea un lienzo latente que coincide con el aspecto de tu entrada redimensionada para que la composición se mantenga consistente.
QwenImageDiffsynthControlnet (#39) fusiona el modelo base con el parche de unión Z Image ControlNet y la imagen de control seleccionada, luego KSampler (#7) genera el resultado guiado por tu condicionamiento positivo y negativo. VAEDecode (#8) convierte el latente a una imagen. El flujo de trabajo guarda dos salidas SaveImage (#31) escribe la imagen final, y SaveImage (#42) escribe una tira de comparación a través de ImageConcatMulti (#38) que incluye la fuente, el mapa de control y el resultado para QA rápido.
ImpactSwitch (#58)Elige qué imagen de control impulsa la generación: profundidad, canny o pose. Cambia modos para comparar cómo cada restricción da forma a la composición y detalle. Úsalo al iterar disposiciones para probar rápidamente qué guía se adapta mejor a tu objetivo.
QwenImageDiffsynthControlnet (#39)Conecta el modelo base, el parche de unión Z Image ControlNet, el VAE y la señal de control seleccionada. El parámetro strength determina qué tan estrictamente el modelo sigue la entrada de control frente a la indicación. Para una coincidencia de disposición estricta, aumenta la fuerza para más variación creativa, redúcela.
AIO_Preprocessor (#45)Ejecuta la canalización Depth Anything v2 para crear mapas de profundidad densos. Aumenta la resolución para una estructura más detallada o reduce para previsualizaciones más rápidas. Se complementa bien con escenas arquitectónicas, tomas de productos y paisajes donde la geometría importa.
DWPreprocessor (#56)Genera mapas de pose adecuados para personas y personajes. Funciona mejor cuando las extremidades son visibles y no están fuertemente ocultas. Si faltan manos o piernas, intenta una referencia más clara o un marco diferente con más visibilidad corporal completa.
LoraLoaderModelOnly (#54)Aplica un LoRA opcional al modelo base para pistas de estilo o identidad. Ajusta strength_model para mezclar el LoRA suavemente o con fuerza. Puedes intercambiar un LoRA de rostro para personalizar sujetos o usar un LoRA de estilo para fijar un aspecto específico.
KSampler (#7)Realiza muestreo de difusión usando tu indicación y control. Ajusta seed para reproducibilidad, steps para presupuesto de refinamiento, cfg para adherencia a la indicación, y denoise para cuánto puede desviarse el resultado del latente inicial. Para ediciones de imagen a imagen, baja denoise para preservar la estructura; valores más altos permiten cambios mayores.
denoise modesto y aumenta la fuerza de ControlNet para una estructura fiel.Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Alibaba PAI por Z Image ControlNet por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación y repositorios originales enlazados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.