Qwen Image 2512 en ComfyUI | Flujo de Trabajo de Síntesis Visual Realista

ComfyUI Qwen Image 2512 Workflow

Qwen Image 2512 in ComfyUI | Realistic Visual Synthesis Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI Qwen Image 2512 Examples

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_01.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_02.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_03.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_04.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_05.webp

qwen-image-2512-in-comfyui-realistic-visual-synthesis-workflow-1330-example_06.webp

Flujo de trabajo Qwen Image 2512 ComfyUI para retratos y escenas precisos en texto#

Este flujo de trabajo convierte tu indicación en una imagen de alta fidelidad usando Qwen Image 2512. Está diseñado para creadores que necesitan una fuerte alineación de texto a imagen, personas realistas y un renderizado de texto bilingüe confiable dentro de la escena. El gráfico viene preconfigurado con el VAE y codificador de texto de Qwen, además de un Lightning LoRA opcional para generación en pocos pasos, para que puedas pasar de la indicación al resultado con configuración mínima.

Úsalo para arte conceptual, ilustración, señalización, carteles y estilos fotográficos cotidianos. Qwen Image 2512 aporta composición estable y tipografía nítida, lo que lo convierte en una opción sólida para indicaciones que mezclan personas, entornos y texto legible.

Modelos clave en el flujo de trabajo Comfyui Qwen Image 2512#

Modelo base Qwen-Image 2512 (bfloat16). Modelo de difusión central que sintetiza la imagen a partir de la condicionante. Los pesos listos para Comfy se proporcionan en el paquete Comfy-Org. Model files
Codificador de texto Qwen2.5-VL 7B. Codifica tu indicación en vectores de condicionamiento que impulsan el diseño, estilo y renderizado de texto de Qwen Image 2512. Text encoder files
Qwen Image VAE. Decodifica el latente producido por el muestreador de nuevo a una imagen RGB con color y detalle fieles. VAE file
Qwen-Image-2512-Lightning-4steps-V1.0 LoRA (opcional). Un LoRA comunitario afinado para generación en pocos pasos para acelerar el renderizado con pequeñas compensaciones de calidad. LoRA card
Para antecedentes sobre la familia de modelos y el enfoque de entrenamiento, consulta el informe técnico de Qwen-Image. Paper

Cómo usar el flujo de trabajo Comfyui Qwen Image 2512#

Flujo general: tu indicación se codifica, se crea un lienzo latente en la resolución elegida, la pila de modelos aplica el modelo base y el LoRA opcional, el muestreador itera para refinar el latente, y el VAE decodifica la imagen final para guardar.

Resumen del grupo Qwen-Image-2512
- Todo el gráfico está organizado dentro de un solo grupo llamado "Qwen-Image-2512." Conecta el codificador de texto, el modelo y la pila de LoRA, los ayudantes de muestreo y la decodificación VAE. Controlas el aspecto con tus indicaciones positivas y negativas, el tamaño del lienzo y algunos ajustes del muestreador. La salida es una imagen de estilo retrato de alta resolución guardada en tu carpeta de salida de ComfyUI.
Indicaciones con CLIPTextEncode (#52) y negativos opcionales CLIPTextEncode (#32)
- Ingresa tu descripción principal en CLIPTextEncode (#52). Escribe la escena, los sujetos y cualquier texto en la imagen que desees renderizar; Qwen Image 2512 es particularmente fuerte en señalización, carteles, maquetas de UI y subtítulos bilingües. Usa CLIPTextEncode (#32) para negativos opcionales para alejarse de artefactos o estilos no deseados. Mantén los fragmentos de texto entre comillas si necesitas una redacción precisa.
Lienzo y relación de aspecto con EmptySD3LatentImage (#57)
- Elige tu ancho y alto objetivo aquí para establecer la composición. Los formatos de retrato funcionan bien para personas y selfies, mientras que las proporciones cuadradas y de paisaje se adaptan a diseños de productos y escenas. Los lienzos más grandes ofrecen mayor detalle a costa de memoria y tiempo; comienza modestamente, luego aumenta una vez que te guste el encuadre. La consistencia mejora cuando mantienes la misma relación de aspecto en todas las iteraciones.
Pila de modelo y LoRA con UNETLoader (#100) y LoraLoaderModelOnly (#101)
- El generador base es Qwen Image 2512 cargado por UNETLoader (#100). Si deseas renderizados más rápidos, habilita el Lightning LoRA en LoraLoaderModelOnly (#101) para cambiar a un flujo de trabajo de pocos pasos. Esta pila establece las capacidades del modelo para realismo, diseño y alineación de texto a imagen antes de que comience el muestreo.
Ayudantes de muestreo con ModelSamplingAuraFlow (#43) y CFGNorm (#55)
- Estos dos nodos preparan el modelo para un muestreo estable y equilibrado en contraste. ModelSamplingAuraFlow (#43) ajusta el cronograma para mantener los detalles nítidos sin exagerar las texturas. CFGNorm (#55) normaliza la guía para mantener un color y exposición consistentes mientras sigue tu indicación.
Desenfoque y refinamiento con KSampler (#54)
- Esta es la etapa de trabajo que mejora iterativamente el latente de ruido a una imagen coherente. Estableces la semilla para repetibilidad, seleccionas el muestreador y el programador, y eliges cuántos pasos ejecutar. Con Lightning habilitado, puedes apuntar a pocos pasos; con el modelo base solo, usa más pasos para máxima fidelidad.
Decodificar y guardar con VAEDecode (#45) y SaveImage (#117)
- Después del muestreo, el VAE reconstruye limpiamente el RGB del latente y SaveImage escribe el PNG final. Si los colores o el contraste se ven apagados, revisa la guía o la redacción de la indicación en lugar de posprocesar; Qwen Image 2512 responde bien a descripciones de iluminación y pistas de materiales.

Nodos clave en el flujo de trabajo Comfyui Qwen Image 2512#

UNETLoader (#100)
- Carga el modelo base Qwen-Image-2512 que determina la capacidad general y el espacio de estilo. Usa la construcción bf16 para máxima calidad si tu GPU lo permite. Cambia a una variante fp8 o comprimida solo si necesitas ajustar la memoria o aumentar el rendimiento.
LoraLoaderModelOnly (#101)
- Aplica el Qwen-Image-2512-Lightning-4steps-V1.0 LoRA sobre el modelo base. Aumenta o disminuye strength_model para mezclar la sintonización de velocidad con la fidelidad base, o configúralo en 0 para deshabilitar. Cuando este LoRA está activo, reduce steps en KSampler a pocas iteraciones para realizar la aceleración.
ModelSamplingAuraFlow (#43)
- Ajusta el comportamiento de muestreo del modelo para un cronograma de estilo flujo que a menudo produce bordes más nítidos y menos manchas. Si los resultados parecen demasiado afilados o poco detallados, ajusta ligeramente el parámetro shift y vuelve a muestrear. Mantén estables otras variables mientras pruebas para aislar el efecto.
CFGNorm (#55)
- Normaliza la guía sin clasificador para evitar salidas deslavadas o sobresaturadas. Usa strength para decidir cuán asertivamente debe actuar la normalización. Si la precisión del texto disminuye cuando aumentas CFG, incrementa la fuerza de normalización en lugar de aumentar CFG aún más.
EmptySD3LatentImage (#57)
- Establece el tamaño del lienzo latente que define el encuadre y la relación de aspecto. Para personas, las proporciones de retrato reducen la distorsión y ayudan con las proporciones del cuerpo; para carteles, las proporciones cuadradas o de paisaje enfatizan el diseño y los bloques de texto. Aumenta la resolución solo después de que estés satisfecho con la composición.
CLIPTextEncode (#52) y CLIPTextEncode (#32)
- El codificador positivo (#52) convierte tu descripción en condicionamiento, incluyendo cadenas de texto explícitas para ser renderizadas en la escena. El codificador negativo (#32) suprime rasgos no deseados como artefactos, dedos extra o fondos ruidosos. Mantén las indicaciones concisas y fácticas para mejor alineación.
KSampler (#54)
- Controla semilla, muestreador, programador, pasos, CFG y fuerza de desenfoque. Con Qwen Image 2512, los valores moderados de CFG suelen preservar la fuerte alineación de texto del modelo; si las letras se deforman, baja CFG antes de cambiar el muestreador. Para borradores rápidos habilita Lightning y prueba muy pocos pasos, luego incrementa los pasos para renderizados finales si es necesario.
VAELoader (#34) y VAEDecode (#45)
- Carga y aplica el VAE de Qwen para reconstruir color fiel y detalle fino. Mantén el VAE emparejado con el modelo base para evitar cambios de color. Si cambias los pesos base, también cambia al VAE correspondiente.

Extras opcionales#

Indicación para texto en imagen
- Pon palabras exactas entre comillas rectas, y añade pistas tipográficas breves como "tipografía moderna limpia" o "sans serif en negrita." Incluye sugerencias de ubicación como "cartel de pared" o "letrero de tienda" para anclar dónde debe aparecer el texto.
Iteración más rápida con Lightning
- Habilita el Lightning LoRA y usa pocos pasos para vistas previas. Una vez que el encuadre y la redacción sean correctos, deshabilita o reduce la fuerza de LoRA y aumenta los pasos para recuperar máxima fidelidad.
Elecciones de relación de aspecto
- Mantén proporciones consistentes en todas las variaciones. Usa retrato para personas, cuadrado para estudios de productos o logotipos, y paisaje para entornos o diapositivas. Si escalas más tarde, mantén la misma proporción para mantener la composición.
Disciplina de guía
- Qwen Image 2512 generalmente prefiere un CFG modesto. Si la fidelidad del texto se desliza, baja CFG o aumenta la fuerza de CFGNorm en lugar de acumular más guía.
Reproducibilidad
- Bloquea una semilla cuando te gusta un resultado para que puedas iterar de manera segura. Cambia un control a la vez para entender su impacto antes de avanzar.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy-Org por los Archivos del Modelo Qwen Image 2512 por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

Archivos del Modelo Comfy-Org/Qwen Image 2512
- Hugging Face: Comfy-Org/Qwen-Image_ComfyUI
- Docs / Notas de Lanzamiento: Archivos del Modelo Qwen Image 2512

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder en Generación de Video de Código Abierto

¡Disponible ahora! Mejor precisión + movimiento más suave.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rápido

Configuración Dual Light LoRA, 4X más rápido.

Wan 2.2 Generación de Imágenes | Paquete de Flujo de Trabajo 2-en-1

MoE Mix + Solo-Bajo con escalado. Elige uno.

Wan 2.2 FLF2V | Generación de Video de Primer-Último Fotograma

Genera videos fluidos a partir de un fotograma de inicio y fin usando Wan 2.2 FLF2V.

Wan 2.2 Low Vram | Kijai Wrapper

Baja VRAM. No más esperas. Envoltorio Kijai incluido.

IPAdapter Plus (V2) Máscara de atención | Imagen a video

Aproveche la máscara de atención de IPAdapter Plus para un control preciso del proceso de generación de imágenes.

AnimateDiff + AutoMask + ControlNet | Efectos visuales (VFX)

Mejora los VFX con AnimateDiff, AutoMask y ControlNet para obtener resultados precisos y controlados.

Flujo de trabajo de TripoSplat 3D Gaussian Splats | Imagen a 3D

Convierte una imagen en 3D Gaussian Splats con TripoSplat.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Qwen Image 2512 | Generador de Imágenes AI de Precisión