ERNIE-Image ComfyUI: texto a imagen siguiendo instrucciones con representación de texto nítida
Este flujo de trabajo ERNIE-Image ComfyUI convierte indicaciones cortas en imágenes de alta calidad que siguen instrucciones y representan texto de manera confiable. Combina el modelo de difusión ERNIE-Image de Comfy-Org con un potente codificador de texto, un potenciador de indicaciones opcional y un moderno Flux2 VAE para preservar el detalle y la tipografía.
Diseñado para iteraciones rápidas, ERNIE-Image ComfyUI acepta tu indicación, la expande opcionalmente para una guía más rica, la codifica, la muestrea con ERNIE-Image y la decodifica a una imagen final. La ruta de mejora de indicaciones está incluida y es conmutable para que puedas comparar indicaciones originales versus mejoradas sin cambiar el gráfico.
Modelos clave en el flujo de trabajo Comfyui ERNIE-Image ComfyUI
- Modelo de difusión ERNIE-Image. El generador principal que desruida latentes en imágenes, ajustado para seguir instrucciones y representar texto. Model card
- Codificador de texto Ministral-3-3B. El codificador de texto principal que convierte tu indicación en condicionamiento para ERNIE-Image. File
- Potenciador de Indicaciones ERNIE-Image. Un codificador auxiliar utilizado por la rama de mejora para expandir indicaciones concisas en guías descriptivas. File
- Flux2 VAE. El decodificador que convierte latentes del muestreador en píxeles mientras preserva el detalle fino y el texto legible. File
Cómo usar el flujo de trabajo Comfyui ERNIE-Image ComfyUI
A un nivel alto, tu indicación fluye a través de un paso de mejora opcional, se codifica, luego se muestrea por ERNIE-Image en latentes que finalmente son decodificados por Flux2 VAE y guardados. Los grupos a continuación se mapean directamente al gráfico para que siempre sepas dónde ajustar las entradas.
Indicaciones
Escribe lo que quieres ver en el campo de indicaciones de nivel superior del subgráfico ERNIE-Image ComfyUI. Un lenguaje claro y directo funciona mejor para seguir instrucciones y para la representación de texto. Puedes incluir texto entre comillas que quieras que se dibuje en la imagen. El condicionamiento positivo se construye a partir de esta indicación; la ruta negativa comienza vacía, por lo que los resultados tienden a ser fieles a menos que agregues tus propios negativos más tarde.
Mejora de Indicaciones
Activa o desactiva la ruta de mejora usando ¿Habilitar mejora de indicaciones? (#76). Cuando está activada, tu breve resumen es expandido por TextGenerate (#74) usando el Potenciador de Indicaciones ERNIE-Image cargado a través de Load CLIP (PE) (#91). El potenciador utiliza una instrucción estructurada para enriquecer tu indicación y también pasa el ancho y la altura objetivo para fomentar una composición coherente. ComfySwitchNode (#75) enruta ya sea el texto original o el mejorado hacia adelante para que puedas hacer pruebas A/B fácilmente. Para una amplia compatibilidad, el conmutador está desactivado por defecto; actívalo una vez que el modelo potenciador esté presente.
Modelo
El flujo de trabajo carga tres activos: UNETLoader (#66) selecciona el modelo de difusión ERNIE-Image, CLIPLoader (#62) trae el codificador de texto Ministral-3-3B, y VAELoader (#63) proporciona el Flux2 VAE. Esta combinación es lo que da a ERNIE-Image ComfyUI una fuerte adherencia a las instrucciones y una tipografía limpia. Si cambias algún modelo, mantén el trío coordinado para evitar desajustes.
Tamaño de la Imagen
EmptyFlux2LatentImage (#71) define el lienzo. Establece el ancho y la altura en la relación de aspecto que desees; paisajes, retratos y gráficos cuadrados funcionan todos. Estas dimensiones también se inyectan en la indicación de mejora cuando el conmutador está activado, lo que ayuda al modelo a planificar el diseño y la colocación del texto. Los tamaños más grandes cuestan más computación; para vistas previas rápidas usa dimensiones más pequeñas, luego amplía según sea necesario.
Texto a Imagen
CLIPTextEncode (#67) convierte tu indicación enrutada en condicionamiento positivo, mientras que CLIPTextEncode (#72) proporciona la rama negativa (dejada en blanco por defecto). KSampler (#70) luego genera latentes usando el modelo ERNIE-Image y tu condicionamiento. Después de muestrear, VAEDecode (#65) convierte latentes a píxeles RGB. Todo está cableado para generación con un clic, así que una vez que tus entradas estén listas, solo encola el trabajo y observa la vista previa.
Salida
La imagen se guarda con SaveImage (#73). La verás aparecer en la vista previa de la interfaz de usuario y en tu directorio de salida. Usa semillas consistentes al comparar la mejora activada versus desactivada para aislar el efecto de la rama de texto.
Nodos clave en el flujo de trabajo Comfyui ERNIE-Image ComfyUI
KSampler (#70) El generador principal que controla la trayectoria de difusión. Ajusta steps para calidad versus velocidad, usa cfg para ajustar o relajar la adherencia a las indicaciones, y establece una seed fija para reproducibilidad a través de variantes de indicaciones. Una guía más alta puede agudizar el cumplimiento pero puede reducir la creatividad; equilibra a tu gusto. Consulta las referencias del muestreador de ComfyUI para el comportamiento general. ComfyUI
UNETLoader (#66) Carga el modelo de difusión ERNIE-Image que realmente desruida latentes en una imagen. Mantén esto configurado en el punto de control ERNIE-Image para beneficiarte del seguimiento de instrucciones y la representación de texto. Si cambias modelos, espera cambios en el estilo y la capacidad tipográfica. ERNIE-Image
CLIPLoader (#62) Proporciona el codificador de texto Ministral-3-3B utilizado para la ruta de condicionamiento principal. Cambiar codificadores cambia cómo el lenguaje se mapea a los visuales; para seguir instrucciones fielmente, mantenlo alineado con el conjunto ERNIE-Image. Este nodo afecta tanto a los codificadores positivos como negativos en la corriente descendente. Ministral-3-3B file
VAELoader (#63) Suministra el Flux2 VAE utilizado durante la decodificación. Un VAE emparejado preserva la fidelidad de color y borde y ayuda a mantener el texto representado nítido. Usa esto al generar con ERNIE-Image para obtener los mejores resultados. Flux2 VAE file
EmptyFlux2LatentImage (#71) Inicializa un lienzo latente vacío en tu resolución elegida. Esto establece el tamaño eventual de la imagen y guía sutilmente el diseño. Cambiar dimensiones también actualizará la instrucción interna del potenciador cuando esa ruta esté activa.
CLIPTextEncode (#67) Codifica la indicación final enrutada en condicionamiento positivo. Para mejorar la representación de texto, incluye las palabras exactas que deseas que aparezcan entre comillas y especifica el uso de mayúsculas si es importante. Mantén las instrucciones concisas y concretas para obtener el mejor cumplimiento.
CLIPTextEncode (#72) Codifica la indicación negativa. Está en blanco por defecto para mantener las salidas cercanas a tu intención. Si notas artefactos no deseados, agrega algunos términos negativos concisos aquí.
TextGenerate (#74) Genera una descripción expandida usando el Potenciador de Indicaciones ERNIE-Image cargado por Load CLIP (PE) (#91). Útil para convertir resúmenes cortos en direcciones visuales ricas que mejoran la composición y el detalle. Mantén el conmutador de mejora apagado para un control literal, encendido para variedad descriptiva. Prompt Enhancer file
ComfySwitchNode (#75) Enruta ya sea la indicación original o la mejorada hacia adelante basado en ¿Habilitar mejora de indicaciones? (#76). Esto hace que las pruebas A/B sean triviales sin cambiar conexiones. Usa una seed fija al comparar para aislar solo las diferencias de indicaciones.
VAEDecode (#65) Decodifica el latente final en una imagen usando Flux2 VAE. Este paso influye fuertemente en el color, la claridad y cómo se lee el texto pequeño. Manténlo emparejado con el Flux2 VAE del conjunto ERNIE-Image.
SaveImage (#73) Escribe la imagen generada en el disco y la expone en la interfaz de usuario. Usa convenciones de nombres consistentes si planeas evaluar múltiples ejecuciones de ERNIE-Image ComfyUI.
Extras opcionales
- Para letras nítidas, pon palabras exactas entre comillas y especifica indicaciones de estilo como "etiqueta de serif negrita" o "etiqueta escrita a mano"; ERNIE-Image ComfyUI está optimizado para la representación de texto.
- Usa directrices claras como "foto de producto centrada", "fondo blanco" o "diseño de póster 2:3" para que ERNIE-Image ComfyUI pueda seguir instrucciones con precisión.
- Al comparar la ruta del potenciador, bloquea la
seedy cambia solo el conmutador de mejora para ver diferencias reales en A/B. - Elige una relación de aspecto que coincida con la escena; ERNIE-Image ComfyUI respetará las sugerencias de tamaño y planificará el diseño en consecuencia.
Agradecimientos
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy-Org por ERNIE-Image (archivos y activos del modelo reempaquetados), Baidu por el modelo original de ERNIE-Image y al equipo de ComfyUI por el ejemplo del flujo de trabajo ERNIE-Image ComfyUI por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos
- Fuente del flujo de trabajo ComfyUI/ERNIE-Image ComfyUI
- GitHub: comfy-org/docs
- Documentación / Notas de lanzamiento: Ejemplo de flujo de trabajo ERNIE-Image ComfyUI
- Comfy-Org/ERNIE-Image
- GitHub: baidu/ERNIE-Image
- Hugging Face: Comfy-Org/ERNIE-Image
- Comfy-Org/ernie-image.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image.safetensors
- Comfy-Org/ministral-3-3b.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ministral-3-3b.safetensors
- Comfy-Org/ernie-image-prompt-enhancer.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: ernie-image-prompt-enhancer.safetensors
- Comfy-Org/flux2-vae.safetensors
- GitHub: baidu/ERNIE-Image
- Hugging Face: flux2-vae.safetensors
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.


