Gemma 4 Text Generation ComfyUI workflow | Herramienta de Análisis de Imagen-Texto-Audio

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

¿Quiere ejecutar este flujo de trabajo?

Flujos de trabajo completamente operativos
Sin nodos ni modelos faltantes
No se requiere configuración manual
Presenta visuales impresionantes

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: texto multimodal con contexto de imagen, video y audio#

Este flujo de trabajo Gemma 4 Text Generation ComfyUI es una plantilla compacta, lista para RunComfy, que genera texto de alta calidad mientras comprende imágenes y audio, con un ejemplo de video incluido. Está diseñado para iteración rápida en indicaciones multimodales, resumen de reseñas de productos, análisis de contenido y prototipos de asistentes ligeros dentro de ComfyUI.

El gráfico utiliza TextGenerate nativo de ComfyUI y CLIPLoader para ejecutar Gemma 4 E4B con entradas opcionales de imagen, audio y video. Puedes mantenerlo simple para generación de texto puro o adjuntar medios para guiar el razonamiento del modelo y producir salidas más ricas.

Modelos clave en Comfyui Gemma 4 Text Generation ComfyUI workflow#

Modelo multimodal Instruct Gemma 4 E4B. Proporciona generación de texto con comprensión visual y de audio para respuestas concisas, resúmenes y análisis. Los activos del modelo para ComfyUI están organizados bajo el paquete comunitario Comfy-Org/gemma-4.
Codificador de texto Gemma 4 E4B (FP8 escalado). El flujo de trabajo carga los pesos del codificador empaquetado gemma4_e4b_it_fp8_scaled.safetensors que respaldan las entradas de lenguaje y multimodales del nodo TextGenerate. Enlace directo del archivo para usuarios locales: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Cómo usar el flujo de trabajo Comfyui Gemma 4 Text Generation ComfyUI#

Lógica general: el flujo de trabajo carga el codificador Gemma 4, acepta medios opcionales, luego usa TextGenerate para producir una respuesta que se representa en una vista previa. Puedes ejecutarlo solo con texto, conectar una imagen y audio, o extenderlo a video conectando el grupo de ejemplo.

CLIPLoader (#3) Carga el codificador de texto Gemma 4 E4B requerido por el generador. Al ejecutarse localmente, selecciona gemma4_e4b_it_fp8_scaled.safetensors para que el modelo de lenguaje tenga el tokenizador correcto y el codificador multimodal. En entornos gestionados, el archivo correcto suele preseleccionarse. No necesitas ajustar nada aquí una vez que los pesos elegidos son visibles.
Entrada de imagen con LoadImage (#2) Proporciona una imagen de referencia única que el modelo puede describir, realizar OCR o analizar como parte de la indicación. Cambia el archivo de ejemplo por tu propia captura de pantalla, gráfico, documento o foto de producto. La imagen se pasa directamente a TextGenerate, que condiciona la respuesta en el contenido visual. Si deseas un comportamiento solo de texto, deja este nodo desconectado.
Entrada de audio con LoadAudio (#5) Agrega un clip de audio para transcripción o razonamiento consciente de audio. Reemplaza el archivo de muestra con una nota de voz, extracto de reunión o grabación de reseña. La secuencia de audio se alimenta a TextGenerate para que puedas pedir al modelo que transcriba o resuma junto con la imagen. Para tareas solo de texto, deja esta entrada vacía.
Grupo de ejemplo de entrada de video El grupo "Ejemplo de Entrada de Video" muestra cómo llevar video al mismo flujo utilizando LoadVideo (#6) y GetVideoComponents (#7). GetVideoComponents expone marcos representativos y la banda sonora para que puedas analizar escenas, diapositivas o texto en pantalla. Para habilitar la comprensión de video, conecta la salida de images a la entrada de image de TextGenerate y la salida de audio a su entrada de audio. Esto permite que el flujo de trabajo Gemma 4 Text Generation ComfyUI razone sobre ambos marcos y el habla de un clip.
Generación de texto con TextGenerate (#1) Este es el nodo principal que acepta tu instrucción más cualquier medio adjunto y devuelve el texto generado. Proporciona una indicación clara como "Describe la imagen y transcribe el audio, luego escribe un resumen de 2 oraciones." El nodo fusiona automáticamente el contexto visual y de audio, por lo que escribes instrucciones naturales sin marcadores de posición. Puedes mantener las indicaciones conversacionales o orientadas a tareas según tu caso de uso.
Vista del resultado con PreviewAny (#4) Muestra el texto generado para que puedas copiarlo en tus notas o herramientas posteriores. Vuelve a ejecutar después de editar la indicación o intercambiar medios para comparar salidas rápidamente. Usa esta vista previa para validar cuánto influye cada modalidad en la respuesta.

Nodos clave en Comfyui Gemma 4 Text Generation ComfyUI workflow#

TextGenerate (#1) Impulsa la salida final y es donde reside la mayoría de los ajustes. Ajusta cuánto puede durar la respuesta y cuán exploratoria debería sentirse cambiando los tokens máximos y la temperatura de muestreo. Habilita el modo de razonamiento opcional si deseas un pensamiento más paso a paso antes de la respuesta. Para detalles de implementación, consulta el código fuente del nodo de generación de texto ComfyUI aquí.
CLIPLoader (#3) Selecciona y carga el paquete de codificador Gemma 4 E4B necesario para la comprensión de texto y multimodal. Si mantienes modelos localmente, coloca el archivo en: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Después de la selección, rara vez necesitas revisar este nodo a menos que cambies las variantes del modelo.
GetVideoComponents (#7) Útil cuando deseas que el modelo considere video. Expone marcos y audio para que puedas condicionar TextGenerate en ambos. Si tu clip es largo, elige un conjunto más pequeño de marcos para una respuesta más rápida; si necesitas un detalle más fino, aumenta el muestreo de marcos a costa de la velocidad.

Extras opcionales#

Comienza con instrucciones explícitas como "Considera la imagen y el audio adjuntos" para hacer obvia la conexión multimodal.
Para reseñas de productos, pide pros, contras y un veredicto de una oración para mantener las salidas estructuradas.
Si tu tarea es puramente textual, desconecta imagen y audio para ejecuciones más rápidas.
Para experimentar en lote, duplica el nodo TextGenerate con diferentes indicaciones y compara vistas previas lado a lado.
Los archivos y variantes del modelo para Gemma 4 están organizados en el paquete comunitario; explora los activos disponibles aquí: Comfy-Org/gemma-4.

Agradecimientos#

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Comfy-Org por el paquete de modelo Gemma 4 ComfyUI y el codificador de texto E4B, a Comfy-Org (mantenedores de ComfyUI) por el nodo de TextGenerate incorporado, y a Comfy.org por el tutorial oficial de Gemma 4 y el blog de lanzamiento por sus contribuciones y mantenimiento. Para detalles autorizados, consulta la documentación original y los repositorios enlazados a continuación.

Recursos#

ComfyUI Docs/Gemma 4 ComfyUI workflow example
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Gemma 4 ComfyUI workflow example
Blog de ComfyUI/Nuevos Modelos de Código Abierto Ahora en ComfyUI: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Nuevos Modelos de Código Abierto Ahora en ComfyUI: VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Codificador de texto E4B Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Nodo de TextGenerate de Comfy-Org/ComfyUI
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Generación de Video Revolucionaria

Crea videos increíbles a partir de texto o imágenes con IA revolucionaria ejecutándose en CPUs cotidianas.

Janus-Pro | T2I + I2T Model

Janus-Pro: Generación avanzada de Texto a Imagen y de Imagen a Texto.

Reallusion AI Render | Colección de Flujos de Trabajo de 3D a ComfyUI

ComfyUI + Reallusion = Velocidad, Accesibilidad y Facilidad para visuales 3D

MMAudio | Video a Audio

MMAudio: Modelo avanzado de video a audio para la generación de audio de alta calidad.

OmniGen | Imagen-a-Imagen

OmniGen: Modificar Imágenes Basadas en Imágenes de Referencia e Indicaciones

LBM Relighting | I2I

Ilumina sujetos usando entradas de iluminación basadas en imágenes con LBM.

LTX 2.3 Sulphur imagen a video flujo de trabajo | Generador Cinematográfico

Convierte imágenes fijas en escenas de movimiento cinematográfico rápida y suavemente.

LTX 2.3 IC-LoRA Control de Cámara | Herramienta de Movimiento de Video

Recrea el movimiento de cámara cinematográfico con precisión suave y controlable.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.

Gemma 4 Text Generation ComfyUI workflow | Escritor Multimodal