ComfyUI>Fluxos de Trabalho>Gemma 4 Text Generation ComfyUI workflow | Escritor Multimodal

Gemma 4 Text Generation ComfyUI workflow | Escritor Multimodal

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
Este workflow capacita você a criar saídas de texto coerentes guiadas por pistas visuais, de áudio e vídeo. Você pode analisar mídia, resumir avaliações ou prototipar chatbots leves com contextualização precisa. Integra nós ComfyUI para tarefas de texto, CLIP e transcrição sem interrupções. A configuração aumenta a eficiência nos testes de LLM e na pesquisa multimodal. Ideal para designers e desenvolvedores que buscam geração de texto de IA rápida e consciente do contexto.

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: texto multimodal com contexto de imagem, vídeo e áudio#

Este workflow Gemma 4 Text Generation ComfyUI é um modelo compacto, pronto para RunComfy, que gera texto de alta qualidade enquanto entende imagens e áudio, com um exemplo de vídeo incluído. É projetado para iteração rápida em prompts multimodais, sumarização de revisões de produtos, análise de conteúdo e protótipos de assistentes leves dentro do ComfyUI.

O gráfico utiliza os nativos TextGenerate e CLIPLoader do ComfyUI para executar o Gemma 4 E4B com entradas opcionais de imagem, áudio e vídeo. Você pode mantê-lo simples para geração de texto puro ou anexar mídia para guiar o raciocínio do modelo e produzir saídas mais ricas.

Modelos principais no workflow Gemma 4 Text Generation ComfyUI#

  • Modelo multimodal Gemma 4 E4B Instruct. Fornece geração de texto com compreensão visual e de áudio para respostas concisas, resumos e análises. Os ativos do modelo para ComfyUI estão organizados sob o pacote comunitário Comfy-Org/gemma-4.
  • Codificador de texto Gemma 4 E4B (FP8 escalado). O workflow carrega os pesos do codificador embalados gemma4_e4b_it_fp8_scaled.safetensors que suportam as entradas de linguagem e multimodais do nó TextGenerate. Link direto do arquivo para usuários locais: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Como usar o workflow Gemma 4 Text Generation ComfyUI#

Lógica geral: o workflow carrega o codificador Gemma 4, aceita mídia opcional e então usa TextGenerate para produzir uma resposta que é renderizada em uma pré-visualização. Você pode executá-lo apenas como texto, conectar uma imagem e áudio ou estendê-lo para vídeo conectando o grupo de exemplo.

  • CLIPLoader (#3) Carrega o codificador de texto Gemma 4 E4B necessário pelo gerador. Ao executar localmente, selecione gemma4_e4b_it_fp8_scaled.safetensors para que o modelo de linguagem tenha o tokenizador correto e o codificador multimodal. Em ambientes gerenciados, o arquivo correto é geralmente pré-selecionado. Você não precisa ajustar nada aqui uma vez que os pesos escolhidos estejam visíveis.
  • Entrada de imagem com LoadImage (#2) Fornece uma única imagem de referência que o modelo pode descrever, realizar OCR ou analisar como parte do prompt. Troque o arquivo de exemplo pela sua própria captura de tela, gráfico, documento ou foto de produto. A imagem é passada diretamente para TextGenerate, que condiciona a resposta ao conteúdo visual. Se você deseja um comportamento apenas de texto, deixe este nó desconectado.
  • Entrada de áudio com LoadAudio (#5) Adiciona um clipe de áudio para transcrição ou raciocínio consciente de áudio. Substitua o arquivo de amostra por uma nota de voz, trecho de reunião ou gravação de revisão. O fluxo de áudio é alimentado para TextGenerate para que você possa pedir ao modelo para transcrever ou resumir junto com a imagem. Para tarefas apenas de texto, mantenha esta entrada vazia.
  • Grupo de Exemplo de Entrada de Vídeo O grupo "Exemplo de Entrada de Vídeo" mostra como trazer vídeo para o mesmo fluxo usando LoadVideo (#6) e GetVideoComponents (#7). GetVideoComponents expõe quadros representativos e a trilha sonora para que você possa analisar cenas, slides ou texto na tela. Para habilitar a compreensão de vídeo, conecte a saída images à entrada image de TextGenerate e a saída audio à sua entrada audio. Isso permite que o workflow Gemma 4 Text Generation ComfyUI raciocine sobre quadros e fala de um clipe.
  • Geração de texto com TextGenerate (#1) Este é o nó central que aceita sua instrução mais qualquer mídia anexada e retorna o texto gerado. Forneça um prompt claro, como "Descreva a imagem e transcreva o áudio, depois escreva um resumo de 2 frases." O nó funde contexto visual e de áudio automaticamente, para que você escreva instruções naturais sem marcadores de posição. Você pode manter prompts conversacionais ou orientados para tarefas, dependendo do seu caso de uso.
  • Visualização de resultados com PreviewAny (#4) Exibe o texto gerado para que você possa copiá-lo para suas anotações ou ferramentas a jusante. Execute novamente após editar o prompt ou trocar a mídia para comparar saídas rapidamente. Use esta pré-visualização para validar quanto cada modalidade influencia a resposta.

Nós principais no workflow Gemma 4 Text Generation ComfyUI#

  • TextGenerate (#1) Conduz a saída final e é onde ocorre a maior parte do ajuste. Ajuste quanto tempo a resposta pode ser e quão exploratória deve parecer alterando os tokens máximos e a temperatura de amostragem. Habilite o modo de raciocínio opcional se quiser um pensamento mais passo a passo antes da resposta. Para detalhes de implementação, veja o código fonte do nó de geração de texto do ComfyUI aqui.
  • CLIPLoader (#3) Seleciona e carrega o pacote de codificador Gemma 4 E4B necessário para compreensão de texto e multimodal. Se você mantém modelos localmente, coloque o arquivo em: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Após a seleção, raramente você precisa revisitar este nó, a menos que mude as variantes do modelo.
  • GetVideoComponents (#7) Útil quando você quer que o modelo considere vídeo. Ele expõe quadros e áudio para que você possa condicionar TextGenerate em ambos. Se o seu clipe for longo, escolha um conjunto menor de quadros para um retorno mais rápido; se precisar de detalhes mais finos, aumente a amostragem de quadros ao custo da velocidade.

Extras opcionais#

  • Comece com instruções explícitas como "Considere a imagem e o áudio anexados" para tornar o fundamento multimodal óbvio.
  • Para revisões de produtos, peça prós, contras e um veredicto de uma frase para manter as saídas estruturadas.
  • Se sua tarefa for puramente textual, desconecte imagem e áudio para execuções mais rápidas.
  • Para experimentos em lote, duplique o nó TextGenerate com prompts diferentes e compare pré-visualizações lado a lado.
  • Arquivos e variantes de modelo para Gemma 4 estão organizados no pacote comunitário; explore os ativos disponíveis aqui: Comfy-Org/gemma-4.

Reconhecimentos#

Este workflow implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos a Comfy-Org pelo pacote de modelo Gemma 4 ComfyUI e codificador de texto E4B, Comfy-Org (mantenedores do ComfyUI) pelo nó embutido TextGenerate, e Comfy.org pelo tutorial oficial do Gemma 4 e blog de lançamento por suas contribuições e manutenção. Para detalhes autorizados, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.