Gemma 4 Text Generation ComfyUI workflow | Strumento di Analisi Immagine-Testo-Audio

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: testo multimodale con contesto immagine, video e audio#

Questo workflow Gemma 4 Text Generation ComfyUI è un modello compatto, pronto per RunComfy, che genera testo di alta qualità comprendendo immagini e audio, con un esempio video incluso. È progettato per iterazioni rapide su prompt multimodali, riassunto di recensioni di prodotti, analisi dei contenuti e prototipi di assistenti leggeri all'interno di ComfyUI.

Il grafo utilizza i nativi TextGenerate e CLIPLoader di ComfyUI per eseguire Gemma 4 E4B con input opzionali di immagini, audio e video. Puoi mantenerlo semplice per la generazione di testo puro o allegare media per guidare il ragionamento del modello e produrre output più ricchi.

Modelli chiave nel workflow Comfyui Gemma 4 Text Generation ComfyUI#

Modello multimodale istruttivo Gemma 4 E4B. Fornisce generazione di testo con comprensione visiva e audio per risposte concise, riassunti e analisi. Gli asset del modello per ComfyUI sono organizzati nel pacchetto comunitario Comfy-Org/gemma-4.
Codificatore di testo Gemma 4 E4B (FP8 scalato). Il workflow carica i pesi del codificatore confezionati gemma4_e4b_it_fp8_scaled.safetensors che supportano gli input linguistici e multimodali del nodo TextGenerate. Link diretto al file per utenti locali: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Come usare il workflow Comfyui Gemma 4 Text Generation ComfyUI#

Logica generale: il workflow carica il codificatore Gemma 4, accetta media opzionali, quindi utilizza TextGenerate per produrre una risposta che viene resa in un'anteprima. Puoi eseguirlo solo come testo, collegare un'immagine e audio, o estenderlo al video collegando il gruppo di esempio.

CLIPLoader (#3) Carica il codificatore di testo Gemma 4 E4B richiesto dal generatore. Quando viene eseguito localmente, seleziona gemma4_e4b_it_fp8_scaled.safetensors in modo che il modello linguistico abbia il tokenizzatore corretto e il codificatore multimodale. Negli ambienti gestiti il file corretto è tipicamente preselezionato. Non è necessario regolare nulla qui una volta che i pesi scelti sono visibili.
Input immagine con LoadImage (#2) Fornisce un'immagine di riferimento singola che il modello può descrivere, OCR o analizzare come parte del prompt. Sostituisci il file di esempio con il tuo screenshot, grafico, documento o foto del prodotto. L'immagine viene passata direttamente a TextGenerate, che condiziona la risposta sul contenuto visivo. Se vuoi un comportamento solo testuale, lascia questo nodo disconnesso.
Input audio con LoadAudio (#5) Aggiunge una clip audio per trascrizione o ragionamento consapevole dell'audio. Sostituisci il file di esempio con una nota vocale, un estratto di riunione o una registrazione di recensione. Il flusso audio viene alimentato a TextGenerate in modo da poter chiedere al modello di trascrivere o riassumerlo insieme all'immagine. Per compiti solo testuali, lascia questo input vuoto.
Gruppo di esempio input video Il gruppo "Gruppo di Esempio Input Video" mostra come portare il video nello stesso flusso utilizzando LoadVideo (#6) e GetVideoComponents (#7). GetVideoComponents espone fotogrammi rappresentativi e la colonna sonora in modo da poter analizzare scene, diapositive o testo sullo schermo. Per abilitare la comprensione del video, collega l'output images all'input image di TextGenerate e l'output audio al suo input audio. Questo consente al workflow Gemma 4 Text Generation ComfyUI di ragionare su entrambi i fotogrammi e il parlato da un clip.
Generazione testo con TextGenerate (#1) Questo è il nodo principale che accetta la tua istruzione più qualsiasi media allegato e restituisce il testo generato. Fornisci un prompt chiaro come "Descrivi l'immagine e trascrivi l'audio, quindi scrivi un riassunto di 2 frasi." Il nodo fonde automaticamente contesto visivo e audio, quindi scrivi istruzioni naturali senza segnaposto. Puoi mantenere i prompt conversazionali o orientati ai compiti a seconda del tuo caso d'uso.
Visualizzazione risultato con PreviewAny (#4) Mostra il testo generato in modo da poterlo copiare nei tuoi appunti o strumenti a valle. Rerun dopo aver modificato il prompt o aver cambiato i media per confrontare rapidamente gli output. Usa questa anteprima per convalidare quanto ogni modalità influenza la risposta.

Nodi chiave nel workflow Comfyui Gemma 4 Text Generation ComfyUI#

TextGenerate (#1) Guida l'output finale e dove si trova la maggior parte della regolazione. Regola la lunghezza della risposta e quanto deve essere esplorativa cambiando i token massimi e la temperatura di campionamento. Abilita la modalità di ragionamento opzionale se vuoi un pensiero più passo-passo prima della risposta. Per dettagli sull'implementazione, vedi il codice sorgente del nodo di generazione testo ComfyUI qui.
CLIPLoader (#3) Seleziona e carica il pacchetto di codificatori Gemma 4 E4B necessario per la comprensione testuale e multimodale. Se mantieni i modelli localmente, posiziona il file sotto: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Dopo la selezione, raramente è necessario rivedere questo nodo a meno che non si cambi variante del modello.
GetVideoComponents (#7) Utile quando vuoi che il modello consideri il video. Esponi fotogrammi e audio in modo da poter condizionare TextGenerate su entrambi. Se il tuo clip è lungo, scegli un set più piccolo di fotogrammi per una risposta più veloce; se hai bisogno di dettagli più fini, aumenta il campionamento dei fotogrammi a scapito della velocità.

Extra opzionali#

Inizia con istruzioni esplicite come "Considera l'immagine e l'audio allegati" per rendere evidente il radicamento multimodale.
Per recensioni di prodotti, chiedi pro, contro e un verdetto in una frase per mantenere gli output strutturati.
Se il tuo compito è puramente testuale, disconnetti immagine e audio per esecuzioni più rapide.
Per esperimenti in batch, duplica il nodo TextGenerate con prompt diversi e confronta le anteprime fianco a fianco.
I file e le varianti del modello per Gemma 4 sono organizzati nel pacchetto comunitario; esplora gli asset disponibili qui: Comfy-Org/gemma-4.

Ringraziamenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine Comfy-Org per il pacchetto modello Gemma 4 ComfyUI e il codificatore di testo E4B, Comfy-Org (mantenitori di ComfyUI) per il nodo TextGenerate integrato, e Comfy.org per il tutorial ufficiale di Gemma 4 e il blog di rilascio per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

ComfyUI Docs/Esempio di workflow Gemma 4 ComfyUI
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Note di Rilascio: Esempio di workflow Gemma 4 ComfyUI
ComfyUI Blog/Nuovi Modelli Open-Source Ora in ComfyUI: VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Note di Rilascio: Nuovi Modelli Open-Source Ora in ComfyUI: VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Comfy-Org/gemma-4 E4B text encoder
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Comfy-Org/ComfyUI TextGenerate node
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

Nota: L'uso dei modelli, dataset e codice di cui sopra è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Wan 2.1 | Generazione Video Rivoluzionaria

Crea video incredibili da testo o immagini con l'innovativa AI che funziona su CPU di tutti i giorni.

Janus-Pro | Modello T2I + I2T

Janus-Pro: Generazione avanzata Text-to-Image e Image-to-Text.

Reallusion AI Render | Collezione di Workflows da 3D a ComfyUI

ComfyUI + Reallusion = Velocità, Accessibilità e Facilità per i visual 3D

MMAudio | Da Video a Audio

MMAudio: Modello avanzato da video a audio per la generazione di audio di alta qualità.

OmniGen | Immagine-A-Immagine

OmniGen: Modifica Immagini Basate su Immagini di Riferimento e Prompt

ERNIE-Image ComfyUI | Generatore Intelligente di Immagini da Testo

Trasforma le parole in immagini precise e dettagliate istantaneamente.

FLUX.1 Dev LoRA Inferenza | AI Toolkit ComfyUI

Esegui il tuo FLUX.1 Dev LoRA addestrato con l'AI Toolkit in ComfyUI con un comportamento allineato all'addestramento utilizzando un singolo nodo personalizzato RCFluxDev.

Flux Fill | Inpaint e Outpaint

Official Flux Tools - Flux Fill per Inpainting e Outpainting

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

Gemma 4 Text Generation ComfyUI workflow | Scrittore Multimodale