Hunyuan Image 2.1 en ComfyUI | Flujo de trabajo de texto a imagen de alta resolución

Genera imágenes nativas 2K con Hunyuan Image 2.1 en ComfyUI

Este flujo de trabajo convierte tus indicaciones en renderizados nativos de 2048×2048 utilizando Hunyuan Image 2.1. Combina el transformador de difusión de Tencent con codificadores de texto duales para mejorar la alineación semántica y la calidad de renderizado de texto, luego muestrea de manera eficiente y decodifica a través del VAE de alta compresión correspondiente. Si necesitas escenas listas para producción, personajes y texto claro en imagen a 2K manteniendo velocidad y control, este flujo de trabajo de ComfyUI Hunyuan Image 2.1 está diseñado para ti.

Creadores, directores de arte y artistas técnicos pueden introducir indicaciones multilingües, ajustar algunos controles y obtener resultados nítidos de manera consistente. El gráfico se entrega con una indicación negativa sensata, un lienzo nativo 2K y un FP8 UNet para mantener el VRAM bajo control, mostrando lo que Hunyuan Image 2.1 puede ofrecer de inmediato.

Modelos clave en el flujo de trabajo Comfyui Hunyuan Image 2.1

HunyuanImage‑2.1 de Tencent. Modelo base de texto a imagen con espina dorsal de transformador de difusión, codificadores de texto duales, un VAE 32×, postentrenamiento RLHF y destilación de flujo medio para muestreo eficiente. Enlaces: Hugging Face · GitHub
Qwen2.5‑VL‑7B‑Instruct. Codificador multimodal de visión-lenguaje utilizado aquí como el codificador de texto semántico para mejorar la comprensión de indicaciones en escenas complejas y lenguajes. Enlace: Hugging Face
ByT5 Small. Codificador a nivel de bytes sin tokenización que fortalece el manejo de caracteres y glifos para el renderizado de texto dentro de imágenes. Enlaces: Hugging Face · Paper

Cómo usar el flujo de trabajo Comfyui Hunyuan Image 2.1

El gráfico sigue un camino claro desde la indicación hasta los píxeles: codifica texto con dos codificadores, prepara un lienzo latente nativo 2K, muestra con Hunyuan Image 2.1, decodifica a través del VAE correspondiente y guarda el resultado.

Codificación de texto con codificadores duales

El DualCLIPLoader (#33) carga Qwen2.5‑VL‑7B y ByT5 Small configurados para Hunyuan Image 2.1. Esta configuración dual permite al modelo analizar semánticas de escena mientras se mantiene robusto ante glifos y texto multilingüe.
Introduce tu descripción principal en CLIPTextEncode (#6). Puedes escribir en inglés o chino, mezclar pistas de cámara e iluminación e incluir instrucciones de texto en imagen.
Una indicación negativa lista para usar en CLIPTextEncode (#7) suprime artefactos comunes. Puedes adaptarla a tu estilo o dejarla tal como está para resultados equilibrados.

Lienzo latente en nativo 2K

EmptyHunyuanImageLatent (#29) inicializa el lienzo en 2048×2048 con un solo lote. Hunyuan Image 2.1 está diseñado para generación 2K, por lo que se recomiendan tamaños nativos 2K para la mejor calidad.
Ajusta el ancho y la altura si es necesario, manteniendo las proporciones que Hunyuan soporta. Para proporciones alternativas, mantente en dimensiones amigables con el modelo para evitar artefactos.

Muestreo eficiente con Hunyuan Image 2.1

UNETLoader (#37) carga el punto de control FP8 para reducir el VRAM mientras se preserva la fidelidad, luego alimenta a KSampler (#3) para la eliminación de ruido.
Usa las condiciones positivas y negativas de los codificadores para dirigir la composición y claridad. Ajusta la semilla para variedad, pasos para calidad versus velocidad, y guía para la adherencia a la indicación.
El flujo de trabajo se centra en el camino del modelo base. Hunyuan Image 2.1 también admite una etapa de refinamiento; puedes añadir una más tarde si deseas un pulido adicional.

Decodificar y guardar

VAELoader (#34) trae el VAE de Hunyuan Image 2.1, y VAEDecode (#8) reconstruye la imagen final del latente muestreado con el esquema de compresión 32× del modelo.
SaveImage (#9) escribe el resultado en el directorio elegido. Establece un prefijo claro para el nombre de archivo si planeas iterar entre semillas o indicaciones.

Nodulos clave en el flujo de trabajo Comfyui Hunyuan Image 2.1

`DualCLIPLoader` (#33)

Este nodo carga el par de codificadores de texto que Hunyuan Image 2.1 espera. Mantén el tipo de modelo configurado para Hunyuan, y selecciona Qwen2.5‑VL‑7B y ByT5 Small para combinar un fuerte entendimiento de escena con manejo de texto consciente de glifos. Si iteras en estilo, ajusta la indicación positiva en conjunto con la guía en lugar de cambiar codificadores.

`CLIPTextEncode` (#6 y #7)

Estos nodos convierten tus indicaciones positivas y negativas en condicionamiento. Mantén la indicación positiva concisa en la parte superior, luego añade pistas de lente, iluminación y estilo. Usa la indicación negativa para suprimir artefactos como extremidades extra o texto ruidoso; recórtala si la encuentras demasiado restrictiva para tu concepto.

`EmptyHunyuanImageLatent` (#29)

Define la resolución y lote de trabajo. El predeterminado 2048×2048 se alinea con la capacidad nativa 2K de Hunyuan Image 2.1. Para otras proporciones, elige pares de ancho y altura amigables con el modelo y considera aumentar ligeramente los pasos si te alejas mucho del cuadrado.

`KSampler` (#3)

Impulsa el proceso de eliminación de ruido con Hunyuan Image 2.1. Aumenta los pasos cuando necesites un micro-detalle más fino, disminúyelos para borradores rápidos. Aumenta la guía para una adherencia más fuerte a la indicación pero ten cuidado con la sobresaturación o rigidez; redúcelo para más variación natural. Cambia semillas para explorar composiciones sin cambiar tu indicación.

`UNETLoader` (#37)

Carga el UNet de Hunyuan Image 2.1. El punto de control FP8 incluido mantiene el uso de memoria moderado para la salida 2K. Si tienes VRAM suficiente y quieres el máximo margen para configuraciones agresivas, considera una variante de mayor precisión del mismo modelo de los lanzamientos oficiales.

`VAELoader` (#34) y `VAEDecode` (#8)

Estos nodos deben coincidir con la versión de Hunyuan Image 2.1 para decodificar correctamente. El VAE de alta compresión del modelo es clave para la generación rápida 2K; emparejar el VAE correcto evita cambios de color y texturas bloqueadas. Si cambias el modelo base, siempre actualiza el VAE en consecuencia.

Extras opcionales

Indicación
- Hunyuan Image 2.1 responde bien a indicaciones estructuradas: sujeto, acción, entorno, cámara, iluminación, estilo. Para texto en imagen, cita las palabras exactas que deseas y mantenlas breves.
Velocidad y memoria
- El FP8 UNet ya es eficiente. Si necesitas exprimir más, desactiva lotes grandes y prefiere menos pasos. Los nodos cargadores GGUF opcionales están presentes en el gráfico pero deshabilitados por defecto; los usuarios avanzados pueden intercambiarlos al experimentar con puntos de control cuantizados.
Proporciones
- Mantente en tamaños amigables con el nativo 2K para mejores resultados. Si te aventuras a formatos anchos o altos, verifica un render limpio y considera un pequeño aumento de pasos.
Refinamiento
- Hunyuan Image 2.1 admite una etapa de refinamiento. Para probarlo, añade un segundo muestreador después del paso base con un punto de control de refinamiento y un ligero desruido para preservar la estructura mientras se aumenta el micro-detalle.
Referencias
- Detalles del modelo y descargas de Hunyuan Image 2.1: Hugging Face · GitHub
- Qwen2.5‑VL‑7B‑Instruct: Hugging Face
- ByT5 Small y paper: Hugging Face · Paper

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a @Ai Verse y Hunyuan por Hunyuan Image 2.1 Demo por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación y los repositorios originales enlazados a continuación.

Recursos

Hunyuan/Hunyuan Image 2.1 Demo
- Documentos / Notas de lanzamiento: Tutorial de Hunyuan Image 2.1 Demo de @Ai Verse

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Flux Consistent Characters | Input Image

Crea personajes consistentes y asegúrate de que se vean uniformes usando tus imágenes.

Creador de Personajes Consistentes

Crea diseños de personajes consistentes y de alta resolución desde múltiples ángulos con control total sobre emociones, iluminación y entornos.

Flux Depth y Canny

Flux Tools Oficial - Flux Depth y Canny ControlNet Model

Flux UltraRealistic LoRA V2

Crea imágenes increíblemente realistas con Flux UltraRealistic LoRA V2

Wan2.2 S2V | Generador de Sonido a Video

Convierte tu clip de audio en un video realista y sincronizado desde una imagen

LongCat Avatar en ComfyUI | Animación de Avatar con Consistencia de Identidad

Convierte una imagen en una animación de avatar suave y consistente en identidad.

Pyramid Flow | Generación de Video

Incluyendo tanto el modo de texto a video como de imagen a video.

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

Intercambia personajes de video rápidamente con control realista de movimiento e iluminación.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Hunyuan Image 2.1 | Generador de Imágenes de IA de Alta Resolución

Genera imágenes nativas 2K con Hunyuan Image 2.1 en ComfyUI

Modelos clave en el flujo de trabajo Comfyui Hunyuan Image 2.1

Cómo usar el flujo de trabajo Comfyui Hunyuan Image 2.1

Codificación de texto con codificadores duales

Lienzo latente en nativo 2K

Muestreo eficiente con Hunyuan Image 2.1

Decodificar y guardar

Nodulos clave en el flujo de trabajo Comfyui Hunyuan Image 2.1

DualCLIPLoader (#33)

CLIPTextEncode (#6 y #7)

EmptyHunyuanImageLatent (#29)

KSampler (#3)

UNETLoader (#37)

VAELoader (#34) y VAEDecode (#8)

Extras opcionales

Agradecimientos

Recursos

Want More ComfyUI Workflows?

Flux Consistent Characters | Input Image

Creador de Personajes Consistentes

Flux Depth y Canny

Flux UltraRealistic LoRA V2

Wan2.2 S2V | Generador de Sonido a Video

LongCat Avatar en ComfyUI | Animación de Avatar con Consistencia de Identidad

Pyramid Flow | Generación de Video

Reemplazo de Personajes en Video (MoCha) | Herramienta de Intercambio Realista

`DualCLIPLoader` (#33)

`CLIPTextEncode` (#6 y #7)

`EmptyHunyuanImageLatent` (#29)

`KSampler` (#3)

`UNETLoader` (#37)

`VAELoader` (#34) y `VAEDecode` (#8)