Workflow SAM 3.1 ComfyUI pour la segmentation guidée par invite, l'aperçu de la boîte englobante et le suivi vidéo#
Ce workflow SAM 3.1 ComfyUI offre une segmentation d'image native et prompte avec visualisation instantanée de la boîte englobante et suivi vidéo précis par image avec extraction de masque. Il utilise les nœuds comfy-core SAM 3.1 intégrés, vous obtenez donc une performance et une stabilité de premier ordre sans nœuds personnalisés tiers. Le résultat est des mattes rapides et réutilisables pour le compositing, l'isolement ou le montage ultérieur sur des images fixes et des vidéos complètes.
Conçu pour les artistes, les monteurs et les ingénieurs de pipeline, SAM 3.1 ComfyUI facilite le démarrage avec une invite texte ou une boîte englobante, la validation de la sélection sur place, puis la propagation d'un masque propre à travers un clip entier. En arrière-plan, il charge le checkpoint sam3.1_multiplex_fp16 et exécute les nœuds officiels SAM3_Detect, SAM3_VideoTrack, SAM3_TrackToMask, et SAM3_TrackPreview qui ont été ajoutés comme support natif à ComfyUI. Voir les fichiers modèles sur Hugging Face et la demande de tirage ComfyUI pour plus de contexte : Comfy-Org/sam3.1, ComfyUI PR #13408.
Modèles clés dans le workflow Comfyui SAM 3.1 ComfyUI#
- Checkpoint Comfy-Org SAM 3.1 Multiplex FP16. Les poids sam3.1_multiplex_fp16 alimentent la segmentation d'image prompte et le tracker utilisé par les nœuds SAM 3.1. Chargez-le avec
CheckpointLoaderSimpleet il fournit le modèle et le conditionnement texte utilisé tout au long du workflow. Source : Comfy-Org/sam3.1.
Comment utiliser le workflow Comfyui SAM 3.1 ComfyUI#
Le graphe a deux voies indépendantes. Le masquage d'image vous permet de segmenter une image fixe et de prévisualiser des boîtes englobantes pour un contrôle qualité rapide. Le masquage vidéo initialise un masque sur une image de référence, suit l'objet à travers le clip, prévisualise la piste, et exporte des masques pour le montage ou le compositing.
Masquage d'image#
Cette voie est idéale pour les images uniques ou pour prototyper votre invite avant de lancer le suivi. Commencez par charger une image avec LoadImage (#4) et écrire une courte invite texte dans CLIPTextEncode (#3), par exemple "un oiseau" ou "voiture rouge". Le conditionnement texte et l'image sont envoyés à SAM3_Detect (#1), qui renvoie à la fois un masque et des boîtes englobantes automatiques autour du sujet détecté. Utilisez MaskPreview+ (#5) pour inspecter visuellement le matte et DrawBBoxes (#6) plus PreviewImage (#7) pour confirmer le placement de la boîte. Si la sélection est ambiguë, affinez le texte, ajoutez des points positifs ou négatifs, ou fournissez une boîte plus serrée pour orienter SAM 3.1 ComfyUI vers l'objet souhaité.
Masquage vidéo#
Cette voie étend la même segmentation prompte aux clips complets. Chargez une vidéo dans VHS_LoadVideoPath (#12) ; elle fournit des images et des métadonnées au reste du graphe. Une image de référence est choisie avec ImageFromBatch (#15) et décrite en texte via CLIPTextEncode (#14). SAM3_Detect (#13) génère le masque initial sur cette image, qui sert de graine pour SAM3_VideoTrack (#8) pour suivre l'objet à travers les images restantes en utilisant le même modèle et conditionnement texte. Convertissez la piste résultante en mattes par image avec SAM3_TrackToMask (#9). Pour un aperçu binaire rapide ou pour inverser le premier plan/arrière-plan, les masques passent par InvertMask (#19) et MaskToImage (#16), puis VHS_VideoCombine (#17) peut rendre une vidéo de masque simple. Pour un aperçu interactif du résultat sur les images originales, SAM3_TrackPreview (#10) joue la superposition à la fréquence d'image source fournie par VHS_VideoInfoLoaded (#18). Ajustez l'image de départ ou l'invite si vous voyez une dérive, puis relancez pour verrouiller la piste avant l'exportation.
Nœuds clés dans le workflow Comfyui SAM 3.1 ComfyUI#
SAM3_Detect (#1)#
Génère un masque d'objet et des boîtes englobantes pour une image fixe basée sur votre invite et des points ou boîtes optionnels. Utilisez-le pour valider rapidement votre choix de sujet dans SAM 3.1 ComfyUI. Si le masque semble trop large ou inclut des sosies, resserrez la description textuelle ou dessinez une boîte plus contrainte pour améliorer la séparation.
SAM3_Detect (#13)#
Sème le tracker vidéo en produisant un masque propre sur une image de référence choisie. La qualité du suivi dans SAM 3.1 ComfyUI dépend fortement de cette graine, donc choisissez une image où la cible est visible et peu occultée. Si le sujet change d'apparence plus tard, réinitialisez à partir d'une autre image et concaténez les résultats dans votre éditeur.
SAM3_VideoTrack (#8)#
Propage le masque initial à travers le clip en utilisant le même modèle et l'invite texte. Gardez le conditionnement cohérent avec la graine pour éviter de s'accrocher à des objets similaires. Lors du suivi d'un sujet petit ou rapide, commencez à partir d'une image avec une graine confiante et envisagez de raccourcir le segment si l'éclairage ou l'échelle change de manière spectaculaire.
SAM3_TrackToMask (#9)#
Convertit la sortie du tracker en une séquence de masques pour l'exportation. Vous pouvez sortir toutes les images ou sélectionner un sous-ensemble en entrant des indices ou des plages simples. C'est le point de transfert pour soit écrire un aperçu vidéo ou pour sauvegarder une séquence PNG pour le compositing dans votre outil préféré.
SAM3_TrackPreview (#10)#
Rejoue le résultat suivi sur les images originales pour un contrôle qualité instantané. L'aperçu utilise la fréquence d'image source rapportée par VHS_VideoInfoLoaded (#18) pour que le timing corresponde à votre clip. Utilisez-le pour repérer la dérive, les échecs d'occlusion ou les échanges d'identité avant de vous engager dans une exportation complète.
Extras optionnels#
- Utilisez des boîtes englobantes pour lever les ambiguïtés lorsque votre invite texte correspond à plusieurs sujets dans l'image.
- Si la cible change d'échelle ou d'éclairage en milieu de clip, divisez la vidéo en segments logiques et réinitialisez
SAM3_Detect(#13) par segment pour un suivi plus stable. - Pour les exportations de mattes en tant que séquence d'images, dirigez
SAM3_TrackToMask(#9) vers un nœudSaveImageau lieu deVHS_VideoCombine(#17). - Gardez les invites courtes et spécifiques. Dans SAM 3.1 ComfyUI, des noms concis avec un attribut clé surpassent souvent une prose longue.
- Lorsque vous avez seulement besoin d'un masque fixe d'une image spécifique, exécutez le masquage d'image sur cette image directement pour éviter le suivi et gagner du temps.
Remerciements#
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Innovate Futures @ Benji pour le workflow de segmentation ComfyUI avec SAM 3.1, Comfy-Org pour les fichiers modèles SAM 3.1, et Comfy-Org pour la PR de support natif ComfyUI SAM 3.1 pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.
Ressources#
- Innovate Futures @ Benji/Source du workflow
- Docs / Notes de version : ComfyUI With SAM 3.1 Segmentation Native Support! No Custom Node Needed @Benji's AI Playground
- Comfy-Org/Fichiers modèles SAM 3.1
- GitHub : facebookresearch/sam3
- Hugging Face : Comfy-Org/sam3.1
- arXiv : SAM 3: Segment Anything with Concepts (2511.16719)
- Docs / Notes de version : RELEASE_SAM3p1.md
- Comfy-Org/PR de support natif ComfyUI SAM 3.1
- GitHub : Comfy-Org/ComfyUI#13408
Note : L'utilisation des modèles référencés, des ensembles de données et du code est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.
