Gemma 4 Text Generation ComfyUI workflow | Ferramenta de Análise de Imagem-Texto-Áudio

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: texto multimodal com contexto de imagem, vídeo e áudio#

Este workflow Gemma 4 Text Generation ComfyUI é um modelo compacto, pronto para RunComfy, que gera texto de alta qualidade enquanto entende imagens e áudio, com um exemplo de vídeo incluído. É projetado para iteração rápida em prompts multimodais, sumarização de revisões de produtos, análise de conteúdo e protótipos de assistentes leves dentro do ComfyUI.

O gráfico utiliza os nativos TextGenerate e CLIPLoader do ComfyUI para executar o Gemma 4 E4B com entradas opcionais de imagem, áudio e vídeo. Você pode mantê-lo simples para geração de texto puro ou anexar mídia para guiar o raciocínio do modelo e produzir saídas mais ricas.

Modelos principais no workflow Gemma 4 Text Generation ComfyUI#

Modelo multimodal Gemma 4 E4B Instruct. Fornece geração de texto com compreensão visual e de áudio para respostas concisas, resumos e análises. Os ativos do modelo para ComfyUI estão organizados sob o pacote comunitário Comfy-Org/gemma-4.
Codificador de texto Gemma 4 E4B (FP8 escalado). O workflow carrega os pesos do codificador embalados gemma4_e4b_it_fp8_scaled.safetensors que suportam as entradas de linguagem e multimodais do nó TextGenerate. Link direto do arquivo para usuários locais: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Como usar o workflow Gemma 4 Text Generation ComfyUI#

Lógica geral: o workflow carrega o codificador Gemma 4, aceita mídia opcional e então usa TextGenerate para produzir uma resposta que é renderizada em uma pré-visualização. Você pode executá-lo apenas como texto, conectar uma imagem e áudio ou estendê-lo para vídeo conectando o grupo de exemplo.

CLIPLoader (#3) Carrega o codificador de texto Gemma 4 E4B necessário pelo gerador. Ao executar localmente, selecione gemma4_e4b_it_fp8_scaled.safetensors para que o modelo de linguagem tenha o tokenizador correto e o codificador multimodal. Em ambientes gerenciados, o arquivo correto é geralmente pré-selecionado. Você não precisa ajustar nada aqui uma vez que os pesos escolhidos estejam visíveis.
Entrada de imagem com LoadImage (#2) Fornece uma única imagem de referência que o modelo pode descrever, realizar OCR ou analisar como parte do prompt. Troque o arquivo de exemplo pela sua própria captura de tela, gráfico, documento ou foto de produto. A imagem é passada diretamente para TextGenerate, que condiciona a resposta ao conteúdo visual. Se você deseja um comportamento apenas de texto, deixe este nó desconectado.
Entrada de áudio com LoadAudio (#5) Adiciona um clipe de áudio para transcrição ou raciocínio consciente de áudio. Substitua o arquivo de amostra por uma nota de voz, trecho de reunião ou gravação de revisão. O fluxo de áudio é alimentado para TextGenerate para que você possa pedir ao modelo para transcrever ou resumir junto com a imagem. Para tarefas apenas de texto, mantenha esta entrada vazia.
Grupo de Exemplo de Entrada de Vídeo O grupo "Exemplo de Entrada de Vídeo" mostra como trazer vídeo para o mesmo fluxo usando LoadVideo (#6) e GetVideoComponents (#7). GetVideoComponents expõe quadros representativos e a trilha sonora para que você possa analisar cenas, slides ou texto na tela. Para habilitar a compreensão de vídeo, conecte a saída images à entrada image de TextGenerate e a saída audio à sua entrada audio. Isso permite que o workflow Gemma 4 Text Generation ComfyUI raciocine sobre quadros e fala de um clipe.
Geração de texto com TextGenerate (#1) Este é o nó central que aceita sua instrução mais qualquer mídia anexada e retorna o texto gerado. Forneça um prompt claro, como "Descreva a imagem e transcreva o áudio, depois escreva um resumo de 2 frases." O nó funde contexto visual e de áudio automaticamente, para que você escreva instruções naturais sem marcadores de posição. Você pode manter prompts conversacionais ou orientados para tarefas, dependendo do seu caso de uso.
Visualização de resultados com PreviewAny (#4) Exibe o texto gerado para que você possa copiá-lo para suas anotações ou ferramentas a jusante. Execute novamente após editar o prompt ou trocar a mídia para comparar saídas rapidamente. Use esta pré-visualização para validar quanto cada modalidade influencia a resposta.

Nós principais no workflow Gemma 4 Text Generation ComfyUI#

TextGenerate (#1) Conduz a saída final e é onde ocorre a maior parte do ajuste. Ajuste quanto tempo a resposta pode ser e quão exploratória deve parecer alterando os tokens máximos e a temperatura de amostragem. Habilite o modo de raciocínio opcional se quiser um pensamento mais passo a passo antes da resposta. Para detalhes de implementação, veja o código fonte do nó de geração de texto do ComfyUI aqui.
CLIPLoader (#3) Seleciona e carrega o pacote de codificador Gemma 4 E4B necessário para compreensão de texto e multimodal. Se você mantém modelos localmente, coloque o arquivo em: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Após a seleção, raramente você precisa revisitar este nó, a menos que mude as variantes do modelo.
GetVideoComponents (#7) Útil quando você quer que o modelo considere vídeo. Ele expõe quadros e áudio para que você possa condicionar TextGenerate em ambos. Se o seu clipe for longo, escolha um conjunto menor de quadros para um retorno mais rápido; se precisar de detalhes mais finos, aumente a amostragem de quadros ao custo da velocidade.

Extras opcionais#

Comece com instruções explícitas como "Considere a imagem e o áudio anexados" para tornar o fundamento multimodal óbvio.
Para revisões de produtos, peça prós, contras e um veredicto de uma frase para manter as saídas estruturadas.
Se sua tarefa for puramente textual, desconecte imagem e áudio para execuções mais rápidas.
Para experimentos em lote, duplique o nó TextGenerate com prompts diferentes e compare pré-visualizações lado a lado.
Arquivos e variantes de modelo para Gemma 4 estão organizados no pacote comunitário; explore os ativos disponíveis aqui: Comfy-Org/gemma-4.

Reconhecimentos#

Este workflow implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos a Comfy-Org pelo pacote de modelo Gemma 4 ComfyUI e codificador de texto E4B, Comfy-Org (mantenedores do ComfyUI) pelo nó embutido TextGenerate, e Comfy.org pelo tutorial oficial do Gemma 4 e blog de lançamento por suas contribuições e manutenção. Para detalhes autorizados, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

ComfyUI Docs/Gemma 4 ComfyUI workflow example
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Gemma 4 ComfyUI workflow example
ComfyUI Blog/Novos Modelos Open-Source Agora no ComfyUI: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Release Notes: Novos Modelos Open-Source Agora no ComfyUI: VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Comfy-Org/gemma-4 E4B text encoder
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Comfy-Org/ComfyUI TextGenerate node
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

Janus-Pro | Modelo T2I + I2T

Janus-Pro: Geração Avançada de Texto-para-Imagem e Imagem-para-Texto.

Reallusion AI Render | Coleção de Fluxos de Trabalho de 3D para ComfyUI

ComfyUI + Reallusion = Velocidade, Acessibilidade e Facilidade para visuais 3D

MMAudio | Vídeo para Áudio

MMAudio: Modelo avançado de vídeo para áudio para geração de áudio de alta qualidade.

OmniGen | Imagem-Para-Imagem

OmniGen: Modifique Imagens Baseadas em Imagens de Referência e Prompts

Krea 2 Muse ComfyUI | Gerador de Retrato & Arte Conceitual

Crie retratos nítidos e cenas deslumbrantes em segundos com o Krea 2 Muse.

LTX 2.3 Outpainting | Expansão de Quadro de Vídeo Contínua

Expanda cenas de vídeo suavemente com movimento e perspectiva consistentes.

IPAdapter Plus (V2) | Estilo e Composição

O IPAdapter Plus permite a transferência eficaz de estilo e composição, funcionando como um LoRA de 1 imagem.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Gemma 4 Text Generation ComfyUI workflow | Escritor Multimodal