Workflow de Segmentation d'Images et Vidéos SAM 3 pour ComfyUI
Ce workflow apporte SAM 3 à ComfyUI pour une détection et une segmentation d'objets rapide et précise sur les images et vidéos. Il est conçu pour les artistes et les utilisateurs techniques qui ont besoin de masques fiables pour le VFX, le rotoscopie, la composition et le montage assisté par AI. Avec des invites textuelles, une sélection de boîtes et une propagation d'image en image, SAM 3 fournit des masques cohérents qui tiennent dans des scènes complexes.
Le graphe comprend deux pipelines d'images et un pipeline vidéo. Vous pouvez segmenter en décrivant la cible avec du texte, en dessinant des boîtes autour de celle-ci, ou en initialisant sur la première image vidéo et en laissant SAM 3 propager les masques à travers tout le clip. Le workflow prévisualise les résultats en ligne et enregistre les superpositions de visualisation et les sorties uniquement en masque.
Modèles clés dans le workflow ComfyUI SAM 3
- SAM 3. Le modèle de segmentation de nouvelle génération qui alimente le masquage d'images et de vidéos dans ce graphe. Il est fourni via l'intégration ComfyUI dans PozzettiAndrea/ComfyUI-SAM3 et fournit des masques robustes et des propositions de région à travers des contenus divers.
Comment utiliser le workflow ComfyUI SAM 3
En un coup d'œil, le workflow comporte trois voies : Image avec invite textuelle sémantique, Image avec invite de boîte, et Vidéo avec initialisation plus propagation. Toutes les voies utilisent les mêmes poids SAM 3 et convergent sur les prévisualisations et les sauvegardes.
Image
Le groupe Image charge une image avec LoadImage (#4) et les poids SAM 3 avec LoadSAM3Model (#1). De là, l'image s'écoule vers deux branches de segmentation SAM 3 alternatives pour que vous puissiez choisir le moyen le plus rapide d'obtenir un masque propre. Chaque branche retourne une superposition de visualisation pour un contrôle rapide et un masque binaire pour le travail en aval. Utilisez la voie image lorsque vous avez besoin d'un seul masque SAM 3 de haute qualité rapidement.
Solution Image Un : Segmentation Sémantique
Ce chemin segmente avec des indices de langage. DeepTranslatorTextNode (#16) vous permet de taper une description en langage naturel dans votre langue préférée, qui est ensuite acheminée vers SAM3Segmentation (#82). SAM 3 interprète le texte et retourne un masque plus une superposition colorisée que vous pouvez enregistrer via SaveImage (#23) et inspecter avec MaskPreview (#15). Utilisez des noms concrets et courts pour de meilleurs résultats, et affinez en étant plus spécifique si plusieurs objets correspondent.
Solution Image Trois : Boîtes
Ce chemin segmente avec des boîtes de région d'intérêt. Utilisez SAM3BBoxCollector (#84) pour dessiner une ou plusieurs boîtes autour de ce que vous voulez, puis exécutez SAM3Segmentation (#81) pour calculer le masque guidé par ces boîtes. Vous pouvez ajouter des boîtes d'exclusion pour supprimer les distracteurs proches et obtenir un masque SAM 3 plus serré. Les résultats sont prévisualisés avec PreviewImage (#65) et MaskPreview (#66) et peuvent être exportés pour le travail de comp.
Vidéo
Le groupe Vidéo charge votre clip avec VHS_LoadVideo (#75) de la Video Helper Suite et initialise le modèle avec SAM3VideoModelLoader (#69). Utilisez SAM3VideoSegmentation (#78) pour définir la sélection initiale sur la première image, éventuellement aidé par des points via SAM3PointCollector (#79) ou des boîtes si nécessaire. Ensuite, SAM3Propagate (#77) fait avancer et reculer SAM 3 à travers le clip pour maintenir des masques cohérents même avec le mouvement et l'occlusion. SAM3VideoOutput (#76) produit à la fois une visualisation de superposition et des masques par image, qui sont transformés en MP4 avec CreateVideo (#70, #74) et enregistrés via SaveVideo (#71, #72). Utilisez cette voie lorsque vous avez besoin de masques SAM 3 propres et temporellement stables pour le montage ou la composition.
Nœuds clés dans le workflow ComfyUI SAM 3
LoadSAM3Model (#1) Charge les poids SAM 3 pour les tâches d'image. Si vous échangez des poids, gardez vos voies d'image cohérentes pour que les prévisualisations et les sauvegardes reflètent le même backbone SAM 3.
SAM3Segmentation (#82) Segmentation d'image basée sur le texte. Fournissez une invite textuelle claire décrivant la classe cible. Si plusieurs objets sont détectés, rendez la description plus spécifique ou effectuez plusieurs passages pour collecter des masques SAM 3 séparés.
SAM3Segmentation (#81) Segmentation d'image basée sur les boîtes. Dessinez une ou plusieurs boîtes serrées autour de l'objet. Utilisez des boîtes supplémentaires pour exclure les régions adjacentes si le masque saigne, puis réexécutez pour affiner la sortie SAM 3.
SAM3VideoModelLoader (#69) Initialise le modèle vidéo SAM 3 pour la voie clip. Gardez cela cohérent avec votre choix de modèle d'image si vous prévoyez de faire correspondre les apparences à travers les images fixes et les séquences.
SAM3VideoSegmentation (#78) Définit la sélection initiale sur la première image en utilisant du texte, des points ou des boîtes. Commencez avec l'indice le plus simple qui isole clairement le sujet. Si le masque de la première image est parfait, la propagation sera plus facile et plus rapide à travers le reste de la vidéo.
SAM3Propagate (#77) Propage le masque initial à travers la séquence. Ajustez son comportement lorsque les sujets se déplacent rapidement, changent d'échelle ou s'occluent partiellement. Si une dérive apparaît après un changement de scène ou une coupe, réinitialisez près de la coupe et propagez à nouveau pour garder les résultats SAM 3 stables.
SAM3VideoOutput (#76) Emballe les masques SAM 3 propagés et une visualisation de superposition. Utilisez le MP4 de superposition pour réviser la qualité image par image, et utilisez le MP4 uniquement en masque pour l'ingestion directe dans le comp ou l'éditorial.
SAM3BBoxCollector (#84) Outil de boîte interactif pour la sélection d'image. Dessinez des boîtes positives serrées et des boîtes négatives optionnelles pour guider SAM 3 vers des limites précises, puis prévisualisez et itérez.
SAM3PointCollector (#79) Outil de point interactif pour l'initialisation vidéo. Ajoutez quelques clics positifs et négatifs bien placés sur la première image pour diriger SAM 3 lorsque le texte ou les boîtes seuls sont ambigus.
VHS_LoadVideo (#75) Ingestion vidéo de la Video Helper Suite Kosinkadink/ComfyUI-VideoHelperSuite. Utilisez-le pour charger votre clip, inspecter les images et remettre les images aux nœuds vidéo SAM 3 pour l'initialisation et la propagation.
Extras optionnels
- Combinez texte et boîtes sur des images difficiles. Utilisez une description textuelle spécifique SAM 3, puis ajoutez des boîtes pour supprimer les encombrements proches.
- Pour plusieurs objets, effectuez des passages séparés et enregistrez chaque masque SAM 3, puis superposez-les dans votre compositeur.
- Sur les vidéos avec des coupes dures, réinitialisez juste après la coupe avant de relancer la propagation SAM 3 pour des masques cohérents.
- Enregistrez à la fois la superposition et la vidéo uniquement en masque. La superposition est idéale pour le contrôle de qualité, tandis que le fichier uniquement en masque s'intègre directement dans les pipelines de rotoscopie ou de clé.
Remerciements
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement PozzettiAndrea pour ComfyUI-SAM3 pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.
Ressources
- PozzettiAndrea/ComfyUI-SAM3
- GitHub: ComfyUI-SAM3
Note: L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

