Ce workflow regroupe ComfyUI Grounding en trois chemins pratiques pour les lots d'images, les images uniques et les vidéos. Il transforme des invites en langage naturel en boîtes de délimitation d'objets et en masques de haute qualité, puis prévisualise des composites RGBA ou écrit des vidéos annotées avec audio préservé. Les artistes, éditeurs et généralistes VFX peuvent rapidement isoler les sujets, supprimer les arrière-plans et générer des superpositions propres pour la composition.
Basé sur la détection à vocabulaire ouvert et la segmentation moderne, ComfyUI Grounding est fiable pour des sujets et scènes variés. Vous pouvez piloter la sélection avec de courtes invites, affiner avec la segmentation et garder le timing des images intact lors du traitement vidéo.
Le workflow contient quatre groupes autonomes. Choisissez le chemin qui correspond à votre tâche ; chacun peut être exécuté indépendamment.
Ce chemin traite un dossier d'images et génère des composites RGBA. LoadImagesFromFolderKJ (#9) lit votre lot, tandis que GroundingModelLoader (#3) intègre Florence-2. Fournissez une courte invite dans GroundingDetector (#1) pour proposer des boîtes autour de votre cible ; ajustez la confiance si vous observez des erreurs ou des faux positifs. DownLoadSAM2Model (#12) charge SAM 2 et Sam2Segment (#11) convertit les boîtes en un masque propre. Inversez éventuellement la sélection avec InvertMask (#15) et prévisualisez le détourage avec alpha en utilisant JoinImageWithAlpha (#14) et PreviewImage (#17).
Utilisez ceci pour des vérifications rapides d'invites sur une seule image. LoadImage (#24) charge votre image et GroundingDetector (#25) dessine des boîtes étiquetées basées sur votre invite textuelle. PreviewImage (#26) montre le résultat annoté pour que vous puissiez affiner la formulation avant le travail par lots ou vidéo.
Ce chemin crée une superposition de segmentation en une étape, guidée par le texte. GroundingMaskModelLoader (#21) charge le modèle de masque et LoadImage (#18) fournit l'image. Tapez une instruction descriptive dans GroundingMaskDetector (#22) pour obtenir directement un masque et une prévisualisation superposée ; PreviewImage (#20) affiche le composite, tandis que PreviewAny (#19) montre la chaîne d'instructions résolue. C'est idéal lorsque vous souhaitez une sélection sémantique rapide sans détection et affinage séparés.
Ce chemin superpose des détections sur des images vidéo et réencode un clip synchronisé. VHS_LoadVideo (#32) importe les images et l'audio, et GroundingModelLoader (#30) fournit Florence-2. Définissez une invite telle que "faces" dans GroundingDetector (#28) pour dessiner des boîtes par image. VHS_VideoInfo (#40) transmet la fréquence d'images chargée à VHS_VideoCombine (#39), qui écrit un MP4 avec l'audio original et le timing correspondant. Le résultat est une vidéo annotée prête à être partagée pour révision ou planification de prise de vue.
GroundingDetector (#1)Détecteur principal transformant votre invite textuelle en boîtes de délimitation. Augmentez le seuil de score pour moins de faux positifs ; abaissez-le si la cible est petite ou partiellement occluse. Gardez les invites courtes et spécifiques, par exemple "parapluie rouge" plutôt que de longues phrases. Utilisez ce nœud pour piloter à la fois les étapes de segmentation et de visualisation en aval.
Sam2Segment (#11)Affine les boîtes grossières en masques nets à l'aide de SAM 2. Alimentez-le avec des boîtes de GroundingDetector ; ajoutez quelques points positifs ou négatifs uniquement lorsque la frontière nécessite un guidage supplémentaire. Si le sujet et l'arrière-plan s'inversent, associez-le à InvertMask pour le détourage souhaité. Utilisez le résultat partout où un alpha matte est requis.
GroundingMaskDetector (#22)Génère un masque sémantique directement à partir d'une instruction en langage naturel. C'est idéal lorsque vous souhaitez une sélection en un clic sans assembler une chaîne détection-segmentation. Resserrez le texte et augmentez la confiance si plusieurs régions sont captées ; élargissez la formulation pour inclure des variations lorsque le sujet est manqué.
JoinImageWithAlpha (#14)Compose l'image originale avec le masque en une sortie RGBA pour les éditeurs en aval. Utilisez-le lorsque vous avez besoin de fonds transparents, d'effets sélectifs ou de travaux de composition en couches. Combinez-le avec InvertMask pour alterner entre isoler le sujet et découper le sujet.
VHS_LoadVideo (#32)Divise une vidéo en images et extrait l'audio pour le traitement. Si votre source a une fréquence d'images variable, fiez-vous à la fréquence d'images chargée qu'il rapporte pour maintenir la cohérence du timing. Ce nœud est le point d'entrée pour toute détection ou segmentation image par image à travers un clip.
VHS_VideoCombine (#39)Réencode les images traitées en un MP4 tout en préservant l'audio. Faites correspondre la fréquence d'images à la valeur rapportée en amont pour éviter la dérive temporelle. Utilisez le préfixe de nom de fichier pour organiser les différentes exécutions dans votre dossier de sortie.
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement PozzettiAndrea pour ComfyUI-Grounding pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Note : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Playground, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.