ComfyUI>Workflow>Gemma 4 Text Generation ComfyUI workflow | Scrittore Multimodale

Gemma 4 Text Generation ComfyUI workflow | Scrittore Multimodale

Workflow Name: RunComfy/Gemma-4-TextGen-Workflow
Workflow ID: 0000...1440
Questo workflow ti consente di creare output testuali coerenti guidati da indizi visivi, audio e video. Puoi analizzare media, riassumere recensioni o prototipare chatbot leggeri con contestualizzazione accurata. Integra i nodi ComfyUI per compiti di testo, CLIP e trascrizione senza interruzioni. L'installazione migliora l'efficienza nei test LLM e nella ricerca multimodale. Ideale per designer e sviluppatori che cercano una generazione di testo AI veloce e contestualmente consapevole.

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp
gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow: testo multimodale con contesto immagine, video e audio#

Questo workflow Gemma 4 Text Generation ComfyUI è un modello compatto, pronto per RunComfy, che genera testo di alta qualità comprendendo immagini e audio, con un esempio video incluso. È progettato per iterazioni rapide su prompt multimodali, riassunto di recensioni di prodotti, analisi dei contenuti e prototipi di assistenti leggeri all'interno di ComfyUI.

Il grafo utilizza i nativi TextGenerate e CLIPLoader di ComfyUI per eseguire Gemma 4 E4B con input opzionali di immagini, audio e video. Puoi mantenerlo semplice per la generazione di testo puro o allegare media per guidare il ragionamento del modello e produrre output più ricchi.

Modelli chiave nel workflow Comfyui Gemma 4 Text Generation ComfyUI#

  • Modello multimodale istruttivo Gemma 4 E4B. Fornisce generazione di testo con comprensione visiva e audio per risposte concise, riassunti e analisi. Gli asset del modello per ComfyUI sono organizzati nel pacchetto comunitario Comfy-Org/gemma-4.
  • Codificatore di testo Gemma 4 E4B (FP8 scalato). Il workflow carica i pesi del codificatore confezionati gemma4_e4b_it_fp8_scaled.safetensors che supportano gli input linguistici e multimodali del nodo TextGenerate. Link diretto al file per utenti locali: `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Come usare il workflow Comfyui Gemma 4 Text Generation ComfyUI#

Logica generale: il workflow carica il codificatore Gemma 4, accetta media opzionali, quindi utilizza TextGenerate per produrre una risposta che viene resa in un'anteprima. Puoi eseguirlo solo come testo, collegare un'immagine e audio, o estenderlo al video collegando il gruppo di esempio.

  • CLIPLoader (#3) Carica il codificatore di testo Gemma 4 E4B richiesto dal generatore. Quando viene eseguito localmente, seleziona gemma4_e4b_it_fp8_scaled.safetensors in modo che il modello linguistico abbia il tokenizzatore corretto e il codificatore multimodale. Negli ambienti gestiti il file corretto è tipicamente preselezionato. Non è necessario regolare nulla qui una volta che i pesi scelti sono visibili.
  • Input immagine con LoadImage (#2) Fornisce un'immagine di riferimento singola che il modello può descrivere, OCR o analizzare come parte del prompt. Sostituisci il file di esempio con il tuo screenshot, grafico, documento o foto del prodotto. L'immagine viene passata direttamente a TextGenerate, che condiziona la risposta sul contenuto visivo. Se vuoi un comportamento solo testuale, lascia questo nodo disconnesso.
  • Input audio con LoadAudio (#5) Aggiunge una clip audio per trascrizione o ragionamento consapevole dell'audio. Sostituisci il file di esempio con una nota vocale, un estratto di riunione o una registrazione di recensione. Il flusso audio viene alimentato a TextGenerate in modo da poter chiedere al modello di trascrivere o riassumerlo insieme all'immagine. Per compiti solo testuali, lascia questo input vuoto.
  • Gruppo di esempio input video Il gruppo "Gruppo di Esempio Input Video" mostra come portare il video nello stesso flusso utilizzando LoadVideo (#6) e GetVideoComponents (#7). GetVideoComponents espone fotogrammi rappresentativi e la colonna sonora in modo da poter analizzare scene, diapositive o testo sullo schermo. Per abilitare la comprensione del video, collega l'output images all'input image di TextGenerate e l'output audio al suo input audio. Questo consente al workflow Gemma 4 Text Generation ComfyUI di ragionare su entrambi i fotogrammi e il parlato da un clip.
  • Generazione testo con TextGenerate (#1) Questo è il nodo principale che accetta la tua istruzione più qualsiasi media allegato e restituisce il testo generato. Fornisci un prompt chiaro come "Descrivi l'immagine e trascrivi l'audio, quindi scrivi un riassunto di 2 frasi." Il nodo fonde automaticamente contesto visivo e audio, quindi scrivi istruzioni naturali senza segnaposto. Puoi mantenere i prompt conversazionali o orientati ai compiti a seconda del tuo caso d'uso.
  • Visualizzazione risultato con PreviewAny (#4) Mostra il testo generato in modo da poterlo copiare nei tuoi appunti o strumenti a valle. Rerun dopo aver modificato il prompt o aver cambiato i media per confrontare rapidamente gli output. Usa questa anteprima per convalidare quanto ogni modalità influenza la risposta.

Nodi chiave nel workflow Comfyui Gemma 4 Text Generation ComfyUI#

  • TextGenerate (#1) Guida l'output finale e dove si trova la maggior parte della regolazione. Regola la lunghezza della risposta e quanto deve essere esplorativa cambiando i token massimi e la temperatura di campionamento. Abilita la modalità di ragionamento opzionale se vuoi un pensiero più passo-passo prima della risposta. Per dettagli sull'implementazione, vedi il codice sorgente del nodo di generazione testo ComfyUI qui.
  • CLIPLoader (#3) Seleziona e carica il pacchetto di codificatori Gemma 4 E4B necessario per la comprensione testuale e multimodale. Se mantieni i modelli localmente, posiziona il file sotto: ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Dopo la selezione, raramente è necessario rivedere questo nodo a meno che non si cambi variante del modello.
  • GetVideoComponents (#7) Utile quando vuoi che il modello consideri il video. Esponi fotogrammi e audio in modo da poter condizionare TextGenerate su entrambi. Se il tuo clip è lungo, scegli un set più piccolo di fotogrammi per una risposta più veloce; se hai bisogno di dettagli più fini, aumenta il campionamento dei fotogrammi a scapito della velocità.

Extra opzionali#

  • Inizia con istruzioni esplicite come "Considera l'immagine e l'audio allegati" per rendere evidente il radicamento multimodale.
  • Per recensioni di prodotti, chiedi pro, contro e un verdetto in una frase per mantenere gli output strutturati.
  • Se il tuo compito è puramente testuale, disconnetti immagine e audio per esecuzioni più rapide.
  • Per esperimenti in batch, duplica il nodo TextGenerate con prompt diversi e confronta le anteprime fianco a fianco.
  • I file e le varianti del modello per Gemma 4 sono organizzati nel pacchetto comunitario; esplora gli asset disponibili qui: Comfy-Org/gemma-4.

Ringraziamenti#

Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo con gratitudine Comfy-Org per il pacchetto modello Gemma 4 ComfyUI e il codificatore di testo E4B, Comfy-Org (mantenitori di ComfyUI) per il nodo TextGenerate integrato, e Comfy.org per il tutorial ufficiale di Gemma 4 e il blog di rilascio per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse#

Nota: L'uso dei modelli, dataset e codice di cui sopra è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

RunComfy
Copyright 2026 RunComfy. Tutti i Diritti Riservati.

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.