ComfyUI Grounding : Détection guidée, segmentation précise et superpositions vidéo
Ce workflow regroupe ComfyUI Grounding en trois chemins pratiques pour les lots d'images, les images uniques et les vidéos. Il transforme des invites en langage naturel en boîtes de délimitation d'objets et en masques de haute qualité, puis prévisualise des composites RGBA ou écrit des vidéos annotées avec audio préservé. Les artistes, éditeurs et généralistes VFX peuvent rapidement isoler les sujets, supprimer les arrière-plans et générer des superpositions propres pour la composition.
Basé sur la détection à vocabulaire ouvert et la segmentation moderne, ComfyUI Grounding est fiable pour des sujets et scènes variés. Vous pouvez piloter la sélection avec de courtes invites, affiner avec la segmentation et garder le timing des images intact lors du traitement vidéo.
Modèles clés dans le workflow ComfyUI Grounding
- Microsoft Florence-2 Large. Un modèle de vision-langage qui prend en charge la détection à vocabulaire ouvert à partir d'invites en langage naturel, permettant des propositions de boîtes flexibles pour des objets arbitraires. Model card
- Segment Anything 2 (SAM 2). Un modèle de base de segmentation qui transforme des points ou des boîtes en masques nets ; ici, il affine les détections de Florence-2 en sélections précises au pixel. Repository
Comment utiliser le workflow ComfyUI Grounding
Le workflow contient quatre groupes autonomes. Choisissez le chemin qui correspond à votre tâche ; chacun peut être exécuté indépendamment.
Batch - Normal
Ce chemin traite un dossier d'images et génère des composites RGBA. LoadImagesFromFolderKJ (#9) lit votre lot, tandis que GroundingModelLoader (#3) intègre Florence-2. Fournissez une courte invite dans GroundingDetector (#1) pour proposer des boîtes autour de votre cible ; ajustez la confiance si vous observez des erreurs ou des faux positifs. DownLoadSAM2Model (#12) charge SAM 2 et Sam2Segment (#11) convertit les boîtes en un masque propre. Inversez éventuellement la sélection avec InvertMask (#15) et prévisualisez le détourage avec alpha en utilisant JoinImageWithAlpha (#14) et PreviewImage (#17).
Normal - Image
Utilisez ceci pour des vérifications rapides d'invites sur une seule image. LoadImage (#24) charge votre image et GroundingDetector (#25) dessine des boîtes étiquetées basées sur votre invite textuelle. PreviewImage (#26) montre le résultat annoté pour que vous puissiez affiner la formulation avant le travail par lots ou vidéo.
Segment - Mask
Ce chemin crée une superposition de segmentation en une étape, guidée par le texte. GroundingMaskModelLoader (#21) charge le modèle de masque et LoadImage (#18) fournit l'image. Tapez une instruction descriptive dans GroundingMaskDetector (#22) pour obtenir directement un masque et une prévisualisation superposée ; PreviewImage (#20) affiche le composite, tandis que PreviewAny (#19) montre la chaîne d'instructions résolue. C'est idéal lorsque vous souhaitez une sélection sémantique rapide sans détection et affinage séparés.
Normal - Video
Ce chemin superpose des détections sur des images vidéo et réencode un clip synchronisé. VHS_LoadVideo (#32) importe les images et l'audio, et GroundingModelLoader (#30) fournit Florence-2. Définissez une invite telle que "faces" dans GroundingDetector (#28) pour dessiner des boîtes par image. VHS_VideoInfo (#40) transmet la fréquence d'images chargée à VHS_VideoCombine (#39), qui écrit un MP4 avec l'audio original et le timing correspondant. Le résultat est une vidéo annotée prête à être partagée pour révision ou planification de prise de vue.
Nœuds clés dans le workflow ComfyUI Grounding
GroundingDetector (#1)
Détecteur principal transformant votre invite textuelle en boîtes de délimitation. Augmentez le seuil de score pour moins de faux positifs ; abaissez-le si la cible est petite ou partiellement occluse. Gardez les invites courtes et spécifiques, par exemple "parapluie rouge" plutôt que de longues phrases. Utilisez ce nœud pour piloter à la fois les étapes de segmentation et de visualisation en aval.
Sam2Segment (#11)
Affine les boîtes grossières en masques nets à l'aide de SAM 2. Alimentez-le avec des boîtes de GroundingDetector ; ajoutez quelques points positifs ou négatifs uniquement lorsque la frontière nécessite un guidage supplémentaire. Si le sujet et l'arrière-plan s'inversent, associez-le à InvertMask pour le détourage souhaité. Utilisez le résultat partout où un alpha matte est requis.
GroundingMaskDetector (#22)
Génère un masque sémantique directement à partir d'une instruction en langage naturel. C'est idéal lorsque vous souhaitez une sélection en un clic sans assembler une chaîne détection-segmentation. Resserrez le texte et augmentez la confiance si plusieurs régions sont captées ; élargissez la formulation pour inclure des variations lorsque le sujet est manqué.
JoinImageWithAlpha (#14)
Compose l'image originale avec le masque en une sortie RGBA pour les éditeurs en aval. Utilisez-le lorsque vous avez besoin de fonds transparents, d'effets sélectifs ou de travaux de composition en couches. Combinez-le avec InvertMask pour alterner entre isoler le sujet et découper le sujet.
VHS_LoadVideo (#32)
Divise une vidéo en images et extrait l'audio pour le traitement. Si votre source a une fréquence d'images variable, fiez-vous à la fréquence d'images chargée qu'il rapporte pour maintenir la cohérence du timing. Ce nœud est le point d'entrée pour toute détection ou segmentation image par image à travers un clip.
VHS_VideoCombine (#39)
Réencode les images traitées en un MP4 tout en préservant l'audio. Faites correspondre la fréquence d'images à la valeur rapportée en amont pour éviter la dérive temporelle. Utilisez le préfixe de nom de fichier pour organiser les différentes exécutions dans votre dossier de sortie.
Extras optionnels
- Gardez les invites ComfyUI Grounding courtes et axées sur les noms ; ajoutez un ou deux attributs si nécessaire, par exemple "excavatrice jaune" ou "chanteur principal avec lunettes".
- Pour les scènes chargées, augmentez la confiance du détecteur et réduisez le nombre maximal de boîtes pour stabiliser les résultats avant d'envoyer les boîtes à SAM 2.
- Lors de la préparation d'une vidéo, réduisez ou sous-échantillonnez à l'importation pour des itérations plus rapides, puis revenez aux comptes d'images complets pour les rendus finaux.
- Si vous avez principalement besoin de masques sémantiques sans contrôle de boîte, utilisez le chemin Segment - Mask ; sinon, préférez la route détecteur-plus-SAM 2 pour des bords précis.
- Les nœuds proviennent de l'extension ComfyUI Grounding ; consultez le projet pour les mises à jour et les modèles pris en charge. Repository
Remerciements
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement PozzettiAndrea pour ComfyUI-Grounding pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
