Gemma 4 Text Generation ComfyUI workflow: texto multimodal con contexto de imagen, video y audio#
Este flujo de trabajo Gemma 4 Text Generation ComfyUI es una plantilla compacta, lista para RunComfy, que genera texto de alta calidad mientras comprende imágenes y audio, con un ejemplo de video incluido. Está diseñado para iteración rápida en indicaciones multimodales, resumen de reseñas de productos, análisis de contenido y prototipos de asistentes ligeros dentro de ComfyUI.
El gráfico utiliza TextGenerate nativo de ComfyUI y CLIPLoader para ejecutar Gemma 4 E4B con entradas opcionales de imagen, audio y video. Puedes mantenerlo simple para generación de texto puro o adjuntar medios para guiar el razonamiento del modelo y producir salidas más ricas.
Modelos clave en Comfyui Gemma 4 Text Generation ComfyUI workflow#
- Modelo multimodal Instruct Gemma 4 E4B. Proporciona generación de texto con comprensión visual y de audio para respuestas concisas, resúmenes y análisis. Los activos del modelo para ComfyUI están organizados bajo el paquete comunitario Comfy-Org/gemma-4.
- Codificador de texto Gemma 4 E4B (FP8 escalado). El flujo de trabajo carga los pesos del codificador empaquetado
gemma4_e4b_it_fp8_scaled.safetensorsque respaldan las entradas de lenguaje y multimodales del nodoTextGenerate. Enlace directo del archivo para usuarios locales: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.
Cómo usar el flujo de trabajo Comfyui Gemma 4 Text Generation ComfyUI#
Lógica general: el flujo de trabajo carga el codificador Gemma 4, acepta medios opcionales, luego usa TextGenerate para producir una respuesta que se representa en una vista previa. Puedes ejecutarlo solo con texto, conectar una imagen y audio, o extenderlo a video conectando el grupo de ejemplo.
CLIPLoader(#3) Carga el codificador de texto Gemma 4 E4B requerido por el generador. Al ejecutarse localmente, seleccionagemma4_e4b_it_fp8_scaled.safetensorspara que el modelo de lenguaje tenga el tokenizador correcto y el codificador multimodal. En entornos gestionados, el archivo correcto suele preseleccionarse. No necesitas ajustar nada aquí una vez que los pesos elegidos son visibles.- Entrada de imagen con
LoadImage(#2) Proporciona una imagen de referencia única que el modelo puede describir, realizar OCR o analizar como parte de la indicación. Cambia el archivo de ejemplo por tu propia captura de pantalla, gráfico, documento o foto de producto. La imagen se pasa directamente aTextGenerate, que condiciona la respuesta en el contenido visual. Si deseas un comportamiento solo de texto, deja este nodo desconectado. - Entrada de audio con
LoadAudio(#5) Agrega un clip de audio para transcripción o razonamiento consciente de audio. Reemplaza el archivo de muestra con una nota de voz, extracto de reunión o grabación de reseña. La secuencia de audio se alimenta aTextGeneratepara que puedas pedir al modelo que transcriba o resuma junto con la imagen. Para tareas solo de texto, deja esta entrada vacía. - Grupo de ejemplo de entrada de video El grupo "Ejemplo de Entrada de Video" muestra cómo llevar video al mismo flujo utilizando
LoadVideo(#6) yGetVideoComponents(#7).GetVideoComponentsexpone marcos representativos y la banda sonora para que puedas analizar escenas, diapositivas o texto en pantalla. Para habilitar la comprensión de video, conecta la salida deimagesa la entrada deimagedeTextGeneratey la salida deaudioa su entrada deaudio. Esto permite que el flujo de trabajo Gemma 4 Text Generation ComfyUI razone sobre ambos marcos y el habla de un clip. - Generación de texto con
TextGenerate(#1) Este es el nodo principal que acepta tu instrucción más cualquier medio adjunto y devuelve el texto generado. Proporciona una indicación clara como "Describe la imagen y transcribe el audio, luego escribe un resumen de 2 oraciones." El nodo fusiona automáticamente el contexto visual y de audio, por lo que escribes instrucciones naturales sin marcadores de posición. Puedes mantener las indicaciones conversacionales o orientadas a tareas según tu caso de uso. - Vista del resultado con
PreviewAny(#4) Muestra el texto generado para que puedas copiarlo en tus notas o herramientas posteriores. Vuelve a ejecutar después de editar la indicación o intercambiar medios para comparar salidas rápidamente. Usa esta vista previa para validar cuánto influye cada modalidad en la respuesta.
Nodos clave en Comfyui Gemma 4 Text Generation ComfyUI workflow#
TextGenerate(#1) Impulsa la salida final y es donde reside la mayoría de los ajustes. Ajusta cuánto puede durar la respuesta y cuán exploratoria debería sentirse cambiando los tokens máximos y la temperatura de muestreo. Habilita el modo de razonamiento opcional si deseas un pensamiento más paso a paso antes de la respuesta. Para detalles de implementación, consulta el código fuente del nodo de generación de texto ComfyUI aquí.CLIPLoader(#3) Selecciona y carga el paquete de codificador Gemma 4 E4B necesario para la comprensión de texto y multimodal. Si mantienes modelos localmente, coloca el archivo en: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Después de la selección, rara vez necesitas revisar este nodo a menos que cambies las variantes del modelo.GetVideoComponents(#7) Útil cuando deseas que el modelo considere video. Expone marcos y audio para que puedas condicionarTextGenerateen ambos. Si tu clip es largo, elige un conjunto más pequeño de marcos para una respuesta más rápida; si necesitas un detalle más fino, aumenta el muestreo de marcos a costa de la velocidad.
Extras opcionales#
- Comienza con instrucciones explícitas como "Considera la imagen y el audio adjuntos" para hacer obvia la conexión multimodal.
- Para reseñas de productos, pide pros, contras y un veredicto de una oración para mantener las salidas estructuradas.
- Si tu tarea es puramente textual, desconecta imagen y audio para ejecuciones más rápidas.
- Para experimentar en lote, duplica el nodo
TextGeneratecon diferentes indicaciones y compara vistas previas lado a lado. - Los archivos y variantes del modelo para Gemma 4 están organizados en el paquete comunitario; explora los activos disponibles aquí: Comfy-Org/gemma-4.
Agradecimientos#
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy-Org por el paquete de modelo Gemma 4 ComfyUI y el codificador de texto E4B, a Comfy-Org (mantenedores de ComfyUI) por el nodo de TextGenerate incorporado, y a Comfy.org por el tutorial oficial de Gemma 4 y el blog de lanzamiento por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.
Recursos#
- ComfyUI Docs/Gemma 4 ComfyUI workflow example
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Gemma 4 ComfyUI workflow example
- Blog de ComfyUI/Nuevos Modelos de Código Abierto Ahora en ComfyUI: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Nuevos Modelos de Código Abierto Ahora en ComfyUI: VOID, BiRefNet & Gemma 4
- Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
- Codificador de texto E4B Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
- Nodo de TextGenerate de Comfy-Org/ComfyUI
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.




