ComfyUI Grounding Workflow | Tracciamento e Segmentazione Oggetti Precisi

ComfyUI Grounding: Rilevamento su richiesta, segmentazione precisa a livello di pixel e sovrapposizioni video

Questo workflow confeziona ComfyUI Grounding in tre percorsi pratici per lotti di immagini, immagini singole e video. Trasforma i suggerimenti in linguaggio naturale in riquadri di delimitazione degli oggetti e maschere di alta qualità, quindi visualizza in anteprima compositi RGBA o scrive video annotati con audio preservato. Artisti, editor e generalisti VFX possono rapidamente isolare i soggetti, eliminare sfondi e generare sovrapposizioni pulite per il compositing.

Basato su rilevamento a vocabolario aperto e segmentazione moderna, ComfyUI Grounding è affidabile per soggetti e scene variati. Puoi guidare la selezione con brevi suggerimenti, perfezionare con la segmentazione e mantenere intatto il timing dei fotogrammi durante il round-trip video.

Modelli chiave nel workflow Comfyui ComfyUI Grounding

Microsoft Florence-2 Large. Un modello visivo-linguistico che supporta il rilevamento a vocabolario aperto dai suggerimenti in linguaggio naturale, consentendo proposte di riquadri flessibili per oggetti arbitrari. Model card
Segment Anything 2 (SAM 2). Un modello di fondazione per la segmentazione che trasforma punti o riquadri in maschere nitide; qui affina le rilevazioni di Florence-2 in selezioni precise a livello di pixel. Repository

Come usare il workflow Comfyui ComfyUI Grounding

Il workflow contiene quattro gruppi autonomi. Scegli il percorso che corrisponde al tuo compito; ognuno può essere eseguito indipendentemente.

Batch - Normale

Questo percorso elabora una cartella di immagini e produce compositi RGBA. LoadImagesFromFolderKJ (#9) legge il tuo lotto, mentre GroundingModelLoader (#3) porta in Florence-2. Fornisci un breve suggerimento in GroundingDetector (#1) per proporre riquadri intorno al tuo obiettivo; regola la fiducia se vedi mancanze o falsi positivi. DownLoadSAM2Model (#12) carica SAM 2 e Sam2Segment (#11) converte i riquadri in una maschera pulita. Facoltativamente inverti la selezione con InvertMask (#15) e visualizza in anteprima il ritaglio con alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).

Normale - Immagine

Usa questo per controlli rapidi dei suggerimenti su un singolo fotogramma. LoadImage (#24) porta nella tua immagine e GroundingDetector (#25) disegna riquadri etichettati basati sul tuo suggerimento testuale. PreviewImage (#26) mostra il risultato annotato in modo da poter iterare sulla formulazione prima del lavoro in batch o video.

Segmento - Maschera

Questo percorso crea una sovrapposizione di segmentazione guidata dal testo in un solo passaggio. GroundingMaskModelLoader (#21) carica il modello di maschera e LoadImage (#18) fornisce il fotogramma. Digita un'istruzione descrittiva in GroundingMaskDetector (#22) per ottenere direttamente una maschera e un'anteprima sovrapposta; PreviewImage (#20) visualizza il composito, mentre PreviewAny (#19) mostra la stringa di istruzione risolta. È ideale quando desideri una selezione semantica rapida senza rilevamento e perfezionamento separati.

Normale - Video

Questo percorso sovrappone rilevamenti sui fotogrammi video e ricodifica una clip sincronizzata. VHS_LoadVideo (#32) importa fotogrammi e audio, e GroundingModelLoader (#30) fornisce Florence-2. Imposta un suggerimento come "faces" in GroundingDetector (#28) per disegnare riquadri per fotogramma. VHS_VideoInfo (#40) inoltra il frame rate caricato a VHS_VideoCombine (#39), che scrive un MP4 con l'audio originale e il timing corrispondente. Il risultato è un video annotato pronto per essere condiviso per la revisione o la pianificazione delle riprese.

Nodi chiave nel workflow Comfyui ComfyUI Grounding

`GroundingDetector` (#1)

Rilevatore principale che trasforma il tuo suggerimento testuale in riquadri di delimitazione. Alza la soglia del punteggio per meno falsi positivi; abbassala se l'obiettivo è piccolo o parzialmente occultato. Mantieni i suggerimenti brevi e specifici, ad esempio "ombrello rosso" piuttosto che frasi lunghe. Usa questo nodo per guidare sia le fasi di segmentazione che di visualizzazione a valle.

`Sam2Segment` (#11)

Affina i riquadri grezzi in maschere nitide usando SAM 2. Alimentalo con riquadri da GroundingDetector; aggiungi alcuni punti positivi o negativi solo quando il confine necessita di guida extra. Se il soggetto e lo sfondo si invertiscono, abbina con InvertMask per il ritaglio desiderato. Usa il risultato ovunque sia richiesto un alfa matte.

`GroundingMaskDetector` (#22)

Genera una maschera semantica direttamente da un'istruzione in linguaggio naturale. Questo è il migliore quando desideri una selezione con un solo clic senza assemblare una catena di rilevamento-segmentazione. Stringi il testo e aumenta la fiducia se vengono raccolte più regioni; amplia la formulazione per includere variazioni quando il soggetto viene perso.

`JoinImageWithAlpha` (#14)

Composita l'immagine originale con la maschera in un output RGBA per editor a valle. Usalo quando hai bisogno di sfondi trasparenti, effetti selettivi o lavori di composizione a strati. Combina con InvertMask per passare tra isolare il soggetto e ritagliare il soggetto.

`VHS_LoadVideo` (#32)

Divide un video in fotogrammi ed estrae l'audio per l'elaborazione. Se la tua sorgente ha un frame rate variabile, affidati al frame rate caricato che segnala per mantenere il timing coerente. Questo nodo è il punto di ingresso per qualsiasi rilevamento o segmentazione fotogramma per fotogramma su una clip.

`VHS_VideoCombine` (#39)

Ricodifica i fotogrammi elaborati in un MP4 preservando l'audio. Abbina il frame rate al valore riportato a monte per evitare derive temporali. Usa il prefisso del nome file per mantenere organizzate le diverse esecuzioni nella tua cartella di output.

Extra opzionali

Mantieni i suggerimenti di ComfyUI Grounding brevi e focalizzati sui sostantivi; aggiungi uno o due attributi quando necessario, ad esempio "escavatore giallo" o "cantante principale con occhiali".
Per scene affollate, aumenta la fiducia del rilevatore e riduci il conteggio massimo dei riquadri per stabilizzare i risultati prima di inviare i riquadri a SAM 2.
Quando prepari video, taglia o sottocampiona all'importazione per iterazioni più veloci, quindi torna al conteggio completo dei fotogrammi per i rendering finali.
Se hai principalmente bisogno di maschere semantiche senza controllo del riquadro, esegui il percorso Segment - Mask; altrimenti preferisci il percorso rilevatore più SAM 2 per bordi precisi.
I nodi provengono dall'estensione ComfyUI Grounding; vedi il progetto per aggiornamenti e modelli supportati. Repository

Riconoscimenti

Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine PozzettiAndrea per ComfyUI-Grounding per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.

Risorse

PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding

Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

Want More ComfyUI Workflows?

Stile Pergamena con Unsampling

Converti il tuo video in animazioni in stile pergamena usando il metodo Unsampling.

Stile Argilla con Unsampling

Converti il tuo video in stile argilla usando il metodo Unsampling.

Effetti di Animazione Motion Graphics | Vid2Vid

Ottieni effetti di animazione motion graphics partendo da un input video preesistente.

Trasferimento di Stile Consistente con Unsampling

Controllare il rumore latente con Unsampling aiuta ad aumentare drasticamente la coerenza nel trasferimento di stile video.

DiffuEraser | Video Inpainting

Cancella oggetti dai video con mascheramento automatico e ricostruzione realistica.

Hunyuan3D 2.1 | Da Immagine a Modello 3D

Grande salto dal 2.0: Trasforma le foto in incredibili modelli 3D istantaneamente.

Creatore di Personaggi Coerenti

Crea design di personaggi coerenti e ad alta risoluzione da più angolazioni con pieno controllo su emozioni, illuminazione e ambienti.

Wan Alpha | Generatore di Video Trasparenti

Magia Alpha: video con sfondo trasparente istantaneo per VFX e design.

Supporto

Risorse

Legale

RunComfy

RunComfy è la piattaforma principale ComfyUI che offre ComfyUI online ambiente e servizi, insieme a workflow di ComfyUI con visuali mozzafiato. RunComfy offre anche AI Models, consentire agli artisti di sfruttare gli ultimi strumenti di AI per creare arte incredibile.

ComfyUI Grounding | Workflow di Tracciamento Oggetti

ComfyUI Grounding: Rilevamento su richiesta, segmentazione precisa a livello di pixel e sovrapposizioni video

Modelli chiave nel workflow Comfyui ComfyUI Grounding

Come usare il workflow Comfyui ComfyUI Grounding

Batch - Normale

Normale - Immagine

Segmento - Maschera

Normale - Video

Nodi chiave nel workflow Comfyui ComfyUI Grounding

GroundingDetector (#1)

Sam2Segment (#11)

GroundingMaskDetector (#22)

JoinImageWithAlpha (#14)

VHS_LoadVideo (#32)

VHS_VideoCombine (#39)

Extra opzionali

Riconoscimenti

Risorse

Want More ComfyUI Workflows?

Stile Pergamena con Unsampling

Stile Argilla con Unsampling

Effetti di Animazione Motion Graphics | Vid2Vid

Trasferimento di Stile Consistente con Unsampling

DiffuEraser | Video Inpainting

Hunyuan3D 2.1 | Da Immagine a Modello 3D

Creatore di Personaggi Coerenti

Wan Alpha | Generatore di Video Trasparenti

`GroundingDetector` (#1)

`Sam2Segment` (#11)

`GroundingMaskDetector` (#22)

`JoinImageWithAlpha` (#14)

`VHS_LoadVideo` (#32)

`VHS_VideoCombine` (#39)