Gemma 4 Text Generation ComfyUI workflow | Outil d'analyse Image-Texte-Audio

Gemma 4 Text Generation ComfyUI workflow Workflow

Gemma 4 Text Generation ComfyUI workflow | Image-Text-Audio Analysis Tool

Vous voulez exécuter ce workflow ?

Workflows entièrement opérationnels
Aucun nœud ou modèle manquant
Aucune configuration manuelle requise
Propose des visuels époustouflants

Gemma 4 Text Generation ComfyUI workflow Examples

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_01.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_02.webp

gemma-4-text-generation-comfyui-workflow-image-text-audio-analysis-tool-1440-example_03.webp

Gemma 4 Text Generation ComfyUI workflow : texte multimodal avec contexte image, vidéo et audio#

Ce workflow Gemma 4 Text Generation ComfyUI est un modèle compact, prêt pour RunComfy, qui génère du texte de haute qualité tout en comprenant les images et l'audio, avec un exemple vidéo inclus. Il est conçu pour des itérations rapides sur des invites multimodales, des résumés de produits, des analyses de contenu et des prototypes d'assistants légers dans ComfyUI.

Le graphique utilise les nœuds natifs TextGenerate et CLIPLoader de ComfyUI pour exécuter Gemma 4 E4B avec des entrées d'image, audio et vidéo optionnelles. Vous pouvez le garder simple pour la génération de texte pur ou ajouter des médias pour guider le raisonnement du modèle et produire des sorties plus riches.

Modèles clés dans le workflow Gemma 4 Text Generation ComfyUI#

Modèle multimodal instructif Gemma 4 E4B. Fournit une génération de texte avec compréhension visuelle et audio pour des réponses, résumés et analyses concis. Les ressources du modèle pour ComfyUI sont organisées sous le pack communautaire Comfy-Org/gemma-4.
Encodeur de texte Gemma 4 E4B (échelle FP8). Le workflow charge les poids d'encodeur empaquetés gemma4_e4b_it_fp8_scaled.safetensors qui soutiennent les entrées linguistiques et multimodales du nœud TextGenerate. Lien direct de fichier pour les utilisateurs locaux : `text_encoders/gemma4_e4b_it_fp8_scaled.safetensors`.

Comment utiliser le workflow Gemma 4 Text Generation ComfyUI#

Logique générale : le workflow charge l'encodeur Gemma 4, accepte les médias optionnels, puis utilise TextGenerate pour produire une réponse qui est rendue dans un aperçu. Vous pouvez l'exécuter en mode texte seulement, ajouter une image et de l'audio, ou l'étendre à la vidéo en connectant le groupe d'exemple.

CLIPLoader (#3) Charge l'encodeur de texte Gemma 4 E4B requis par le générateur. Lors de l'exécution locale, sélectionnez gemma4_e4b_it_fp8_scaled.safetensors afin que le modèle linguistique ait le bon tokenizer et encodeur multimodal. Dans les environnements gérés, le fichier correct est généralement présélectionné. Vous n'avez pas besoin d'ajuster quoi que ce soit ici une fois que les poids choisis sont visibles.
Entrée d'image avec LoadImage (#2) Fournit une image de référence unique que le modèle peut décrire, OCR ou analyser dans le cadre de l'invite. Remplacez le fichier exemple par votre propre capture d'écran, graphique, document ou photo de produit. L'image est directement passée à TextGenerate, qui conditionne la réponse sur le contenu visuel. Si vous souhaitez un comportement uniquement textuel, laissez ce nœud déconnecté.
Entrée audio avec LoadAudio (#5) Ajoute un extrait audio pour la transcription ou le raisonnement conscient de l'audio. Remplacez le fichier d'exemple par une note vocale, un extrait de réunion ou un enregistrement d'avis. Le flux audio est alimenté à TextGenerate afin que vous puissiez demander au modèle de le transcrire ou de le résumer en même temps que l'image. Pour les tâches uniquement textuelles, gardez cette entrée vide.
Exemple de groupe d'entrée vidéo Le groupe "Exemple d'entrée vidéo" montre comment intégrer la vidéo dans le même flux en utilisant LoadVideo (#6) et GetVideoComponents (#7). GetVideoComponents expose des images représentatives et la bande sonore pour que vous puissiez analyser les scènes, diapositives ou texte à l'écran. Pour activer la compréhension vidéo, connectez la sortie images à l'entrée image de TextGenerate et la sortie audio à son entrée audio. Cela permet au workflow Gemma 4 Text Generation ComfyUI de raisonner sur les images et le discours d'un clip.
Génération de texte avec TextGenerate (#1) C'est le nœud central qui accepte votre instruction plus tout média attaché et renvoie le texte généré. Fournissez une invite claire comme "Décrivez l'image et transcrivez l'audio, puis écrivez un résumé en 2 phrases." Le nœud fusionne automatiquement le contexte visuel et audio, vous permettant d'écrire des instructions naturelles sans espaces réservés. Vous pouvez garder les invites conversationnelles ou orientées tâche selon votre cas d'utilisation.
Visualisation du résultat avec PreviewAny (#4) Affiche le texte généré pour que vous puissiez le copier dans vos notes ou outils en aval. Relancez après avoir modifié l'invite ou échangé des médias pour comparer rapidement les sorties. Utilisez cet aperçu pour valider combien chaque modalité influence la réponse.

Nœuds clés dans le workflow Gemma 4 Text Generation ComfyUI#

TextGenerate (#1) Pilote la sortie finale et est l'endroit où la plupart des réglages résident. Ajustez la longueur de la réponse et la sensation exploratoire en modifiant le nombre maximum de tokens et la température d'échantillonnage. Activez le mode de raisonnement optionnel si vous souhaitez une réflexion plus étape par étape avant la réponse. Pour les détails de mise en œuvre, consultez le code source du nœud de génération de texte ComfyUI ici.
CLIPLoader (#3) Sélectionne et charge le package d'encodeur Gemma 4 E4B nécessaire pour la compréhension textuelle et multimodale. Si vous maintenez les modèles localement, placez le fichier sous : ComfyUI/models/text_encoders/gemma4_e4b_it_fp8_scaled.safetensors Après la sélection, vous n'avez généralement pas besoin de revisiter ce nœud sauf si vous changez de variantes de modèle.
GetVideoComponents (#7) Utile lorsque vous voulez que le modèle prenne en compte la vidéo. Il expose les images et l'audio pour que vous puissiez conditionner TextGenerate sur les deux. Si votre clip est long, choisissez un ensemble plus petit d'images pour un délai plus rapide ; si vous avez besoin de détails plus fins, augmentez l'échantillonnage des images au détriment de la vitesse.

Extras optionnels#

Commencez par des instructions explicites comme "Considérez l'image et l'audio attachés" pour rendre l'ancrage multimodal évident.
Pour les avis sur les produits, demandez des avantages, inconvénients et un verdict en une phrase pour garder les sorties structurées.
Si votre tâche est purement textuelle, déconnectez l'image et l'audio pour des exécutions plus rapides.
Pour expérimenter en lot, dupliquez le nœud TextGenerate avec différentes invites et comparez les aperçus côte à côte.
Les fichiers de modèle et variantes pour Gemma 4 sont organisés dans le pack communautaire ; explorez les ressources disponibles ici : Comfy-Org/gemma-4.

Remerciements#

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Comfy-Org pour le package de modèle Gemma 4 ComfyUI et l'encodeur de texte E4B, Comfy-Org (mainteneurs de ComfyUI) pour le nœud TextGenerate intégré, et Comfy.org pour le tutoriel officiel Gemma 4 et le blog de sortie pour leurs contributions et maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources#

ComfyUI Docs/Gemma 4 ComfyUI workflow example
- GitHub: Comfy-Org/ComfyUI
- Hugging Face: Comfy-Org/gemma-4
- Docs / Notes de version: Gemma 4 ComfyUI workflow example
Blog ComfyUI/Nouveaux modèles open-source maintenant dans ComfyUI : VOID, BiRefNet & Gemma 4
- GitHub: Comfy-Org/workflow_templates
- Hugging Face: Comfy-Org/gemma-4
- Docs / Notes de version: Nouveaux modèles open-source maintenant dans ComfyUI : VOID, BiRefNet & Gemma 4
Comfy-Org/gemma-4
- Hugging Face: Comfy-Org/gemma-4
Encodeur de texte Comfy-Org/gemma-4 E4B
- Hugging Face: Comfy-Org/gemma-4: gemma4_e4b_it_fp8_scaled.safetensors
Nœud TextGenerate Comfy-Org/ComfyUI
- GitHub: Comfy-Org/ComfyUI: comfy_extras/nodes_textgen.py

Note : L'utilisation des modèles, jeux de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.1 | Génération Vidéo Révolutionnaire

Créez des vidéos incroyables à partir de texte ou d'images avec une IA révolutionnaire fonctionnant sur des CPU quotidiens.

Janus-Pro | Modèle T2I + I2T

Janus-Pro : Génération avancée de texte-à-image et d'image-à-texte.

Reallusion AI Render | Collection de flux de travail de 3D à ComfyUI

ComfyUI + Reallusion = Rapidité, Accessibilité et Facilité pour les visuels 3D

MMAudio | Vidéo-à-Audio

MMAudio : Modèle vidéo-à-audio avancé pour la génération audio de haute qualité.

OmniGen | Image-à-Image

OmniGen : Modifier les Images Basées sur des Images de Référence et des Prompts

Qwen Image Edit Plus 2509 LoRA Inférence | AI Toolkit ComfyUI

Appliquez les LoRAs Qwen Image Edit Plus 2509 formés par AI Toolkit dans ComfyUI avec des modifications alignées sur l'aperçu à l'aide d'un seul nœud personnalisé RCQwenImageEditPlus.

Hunyuan Image 2.1 | Générateur d'Images IA Haute Résolution

Modèle de nouvelle génération 2.1 pour des visuels IA nets, précis et ultra-clairs rapidement.

HiDream-I1 | T2I

Génération d'images de haute qualité utilisant un modèle de 17B paramètres.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

Gemma 4 Text Generation ComfyUI workflow | Écrivain Multimodal