ComfyUI>Workflows>ComfyUI Grounding | Workflow de Suivi d'Objets

ComfyUI Grounding | Workflow de Suivi d'Objets

Workflow Name: RunComfy/ComfyUI-Grounding

Workflow ID: 0000...1310

Ce workflow vous aide à isoler et suivre des objets à travers les images vidéo avec une précision au niveau des pixels. Il vous permet de générer des masques propres et cohérents ainsi que des données de mouvement pour la composition et les tâches VFX avancées. Que vous ayez besoin d'isoler un personnage, de nettoyer l'arrière-plan ou de faire des modifications ciblées, il fournit un suivi fiable à chaque fois. Vous pouvez guider le processus avec des invites textuelles ou des références visuelles. Parfait pour les créateurs recherchant une segmentation précise et cohérente pour les effets visuels et le montage piloté par l'IA.

ComfyUI Grounding : Détection guidée, segmentation précise et superpositions vidéo

Ce workflow regroupe ComfyUI Grounding en trois chemins pratiques pour les lots d'images, les images uniques et les vidéos. Il transforme des invites en langage naturel en boîtes de délimitation d'objets et en masques de haute qualité, puis prévisualise des composites RGBA ou écrit des vidéos annotées avec audio préservé. Les artistes, éditeurs et généralistes VFX peuvent rapidement isoler les sujets, supprimer les arrière-plans et générer des superpositions propres pour la composition.

Basé sur la détection à vocabulaire ouvert et la segmentation moderne, ComfyUI Grounding est fiable pour des sujets et scènes variés. Vous pouvez piloter la sélection avec de courtes invites, affiner avec la segmentation et garder le timing des images intact lors du traitement vidéo.

Modèles clés dans le workflow ComfyUI Grounding

Microsoft Florence-2 Large. Un modèle de vision-langage qui prend en charge la détection à vocabulaire ouvert à partir d'invites en langage naturel, permettant des propositions de boîtes flexibles pour des objets arbitraires. Model card
Segment Anything 2 (SAM 2). Un modèle de base de segmentation qui transforme des points ou des boîtes en masques nets ; ici, il affine les détections de Florence-2 en sélections précises au pixel. Repository

Comment utiliser le workflow ComfyUI Grounding

Le workflow contient quatre groupes autonomes. Choisissez le chemin qui correspond à votre tâche ; chacun peut être exécuté indépendamment.

Batch - Normal

Ce chemin traite un dossier d'images et génère des composites RGBA. LoadImagesFromFolderKJ (#9) lit votre lot, tandis que GroundingModelLoader (#3) intègre Florence-2. Fournissez une courte invite dans GroundingDetector (#1) pour proposer des boîtes autour de votre cible ; ajustez la confiance si vous observez des erreurs ou des faux positifs. DownLoadSAM2Model (#12) charge SAM 2 et Sam2Segment (#11) convertit les boîtes en un masque propre. Inversez éventuellement la sélection avec InvertMask (#15) et prévisualisez le détourage avec alpha en utilisant JoinImageWithAlpha (#14) et PreviewImage (#17).

Normal - Image

Utilisez ceci pour des vérifications rapides d'invites sur une seule image. LoadImage (#24) charge votre image et GroundingDetector (#25) dessine des boîtes étiquetées basées sur votre invite textuelle. PreviewImage (#26) montre le résultat annoté pour que vous puissiez affiner la formulation avant le travail par lots ou vidéo.

Segment - Mask

Ce chemin crée une superposition de segmentation en une étape, guidée par le texte. GroundingMaskModelLoader (#21) charge le modèle de masque et LoadImage (#18) fournit l'image. Tapez une instruction descriptive dans GroundingMaskDetector (#22) pour obtenir directement un masque et une prévisualisation superposée ; PreviewImage (#20) affiche le composite, tandis que PreviewAny (#19) montre la chaîne d'instructions résolue. C'est idéal lorsque vous souhaitez une sélection sémantique rapide sans détection et affinage séparés.

Normal - Video

Ce chemin superpose des détections sur des images vidéo et réencode un clip synchronisé. VHS_LoadVideo (#32) importe les images et l'audio, et GroundingModelLoader (#30) fournit Florence-2. Définissez une invite telle que "faces" dans GroundingDetector (#28) pour dessiner des boîtes par image. VHS_VideoInfo (#40) transmet la fréquence d'images chargée à VHS_VideoCombine (#39), qui écrit un MP4 avec l'audio original et le timing correspondant. Le résultat est une vidéo annotée prête à être partagée pour révision ou planification de prise de vue.

Nœuds clés dans le workflow ComfyUI Grounding

`GroundingDetector` (#1)

Détecteur principal transformant votre invite textuelle en boîtes de délimitation. Augmentez le seuil de score pour moins de faux positifs ; abaissez-le si la cible est petite ou partiellement occluse. Gardez les invites courtes et spécifiques, par exemple "parapluie rouge" plutôt que de longues phrases. Utilisez ce nœud pour piloter à la fois les étapes de segmentation et de visualisation en aval.

`Sam2Segment` (#11)

Affine les boîtes grossières en masques nets à l'aide de SAM 2. Alimentez-le avec des boîtes de GroundingDetector ; ajoutez quelques points positifs ou négatifs uniquement lorsque la frontière nécessite un guidage supplémentaire. Si le sujet et l'arrière-plan s'inversent, associez-le à InvertMask pour le détourage souhaité. Utilisez le résultat partout où un alpha matte est requis.

`GroundingMaskDetector` (#22)

Génère un masque sémantique directement à partir d'une instruction en langage naturel. C'est idéal lorsque vous souhaitez une sélection en un clic sans assembler une chaîne détection-segmentation. Resserrez le texte et augmentez la confiance si plusieurs régions sont captées ; élargissez la formulation pour inclure des variations lorsque le sujet est manqué.

`JoinImageWithAlpha` (#14)

Compose l'image originale avec le masque en une sortie RGBA pour les éditeurs en aval. Utilisez-le lorsque vous avez besoin de fonds transparents, d'effets sélectifs ou de travaux de composition en couches. Combinez-le avec InvertMask pour alterner entre isoler le sujet et découper le sujet.

`VHS_LoadVideo` (#32)

Divise une vidéo en images et extrait l'audio pour le traitement. Si votre source a une fréquence d'images variable, fiez-vous à la fréquence d'images chargée qu'il rapporte pour maintenir la cohérence du timing. Ce nœud est le point d'entrée pour toute détection ou segmentation image par image à travers un clip.

`VHS_VideoCombine` (#39)

Réencode les images traitées en un MP4 tout en préservant l'audio. Faites correspondre la fréquence d'images à la valeur rapportée en amont pour éviter la dérive temporelle. Utilisez le préfixe de nom de fichier pour organiser les différentes exécutions dans votre dossier de sortie.

Extras optionnels

Gardez les invites ComfyUI Grounding courtes et axées sur les noms ; ajoutez un ou deux attributs si nécessaire, par exemple "excavatrice jaune" ou "chanteur principal avec lunettes".
Pour les scènes chargées, augmentez la confiance du détecteur et réduisez le nombre maximal de boîtes pour stabiliser les résultats avant d'envoyer les boîtes à SAM 2.
Lors de la préparation d'une vidéo, réduisez ou sous-échantillonnez à l'importation pour des itérations plus rapides, puis revenez aux comptes d'images complets pour les rendus finaux.
Si vous avez principalement besoin de masques sémantiques sans contrôle de boîte, utilisez le chemin Segment - Mask ; sinon, préférez la route détecteur-plus-SAM 2 pour des bords précis.
Les nœuds proviennent de l'extension ComfyUI Grounding ; consultez le projet pour les mises à jour et les modèles pris en charge. Repository

Remerciements

Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement PozzettiAndrea pour ComfyUI-Grounding pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Style Parchemin avec Unsampling

Convertissez votre vidéo en animations de style parchemin en utilisant la méthode Unsampling.

Style Argile avec Unsampling

Convertissez votre vidéo en style argile en utilisant la méthode Unsampling.

Effets d'animation graphique | Vid2Vid

Réalisez des effets d'animation graphique à partir d'une vidéo existante.

Transfert de Style Cohérent avec Unsampling

Le contrôle du bruit latent avec l'Unsampling aide à augmenter de manière spectaculaire la cohérence dans le transfert de style vidéo.

DiffuEraser | Restauration de Vidéo

Effacez des objets des vidéos avec un masquage automatique et une reconstruction réaliste.

FLUX Img2Img | Fusionner Visuels et Invites

Fusionnez visuels et invites pour des résultats époustouflants et améliorés.

Put It Here Kontext | Remplacement d'Objet

Mettez n'importe quoi n'importe où. Kontext le rend réaliste. Fonctionne parfaitement.

Face to Many | 3D, Emoji, Pixel, Argile, Jouet, Jeu vidéo

utilise les modèles LoRA, ControlNet et InstantID pour des transformations avancées de face-à-plusieurs

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

ComfyUI Grounding | Workflow de Suivi d'Objets

ComfyUI Grounding : Détection guidée, segmentation précise et superpositions vidéo

Modèles clés dans le workflow ComfyUI Grounding

Comment utiliser le workflow ComfyUI Grounding

Batch - Normal

Normal - Image

Segment - Mask

Normal - Video

Nœuds clés dans le workflow ComfyUI Grounding

GroundingDetector (#1)

Sam2Segment (#11)

GroundingMaskDetector (#22)

JoinImageWithAlpha (#14)

VHS_LoadVideo (#32)

VHS_VideoCombine (#39)

Extras optionnels

Remerciements

Ressources

Want More ComfyUI Workflows?

Style Parchemin avec Unsampling

Style Argile avec Unsampling

Effets d'animation graphique | Vid2Vid

Transfert de Style Cohérent avec Unsampling

DiffuEraser | Restauration de Vidéo

FLUX Img2Img | Fusionner Visuels et Invites

Put It Here Kontext | Remplacement d'Objet

Face to Many | 3D, Emoji, Pixel, Argile, Jouet, Jeu vidéo

`GroundingDetector` (#1)

`Sam2Segment` (#11)

`GroundingMaskDetector` (#22)

`JoinImageWithAlpha` (#14)

`VHS_LoadVideo` (#32)

`VHS_VideoCombine` (#39)