ComfyUI Grounding: Rilevamento su richiesta, segmentazione precisa a livello di pixel e sovrapposizioni video
Questo workflow confeziona ComfyUI Grounding in tre percorsi pratici per lotti di immagini, immagini singole e video. Trasforma i suggerimenti in linguaggio naturale in riquadri di delimitazione degli oggetti e maschere di alta qualità, quindi visualizza in anteprima compositi RGBA o scrive video annotati con audio preservato. Artisti, editor e generalisti VFX possono rapidamente isolare i soggetti, eliminare sfondi e generare sovrapposizioni pulite per il compositing.
Basato su rilevamento a vocabolario aperto e segmentazione moderna, ComfyUI Grounding è affidabile per soggetti e scene variati. Puoi guidare la selezione con brevi suggerimenti, perfezionare con la segmentazione e mantenere intatto il timing dei fotogrammi durante il round-trip video.
Modelli chiave nel workflow Comfyui ComfyUI Grounding
- Microsoft Florence-2 Large. Un modello visivo-linguistico che supporta il rilevamento a vocabolario aperto dai suggerimenti in linguaggio naturale, consentendo proposte di riquadri flessibili per oggetti arbitrari. Model card
- Segment Anything 2 (SAM 2). Un modello di fondazione per la segmentazione che trasforma punti o riquadri in maschere nitide; qui affina le rilevazioni di Florence-2 in selezioni precise a livello di pixel. Repository
Come usare il workflow Comfyui ComfyUI Grounding
Il workflow contiene quattro gruppi autonomi. Scegli il percorso che corrisponde al tuo compito; ognuno può essere eseguito indipendentemente.
Batch - Normale
Questo percorso elabora una cartella di immagini e produce compositi RGBA. LoadImagesFromFolderKJ (#9) legge il tuo lotto, mentre GroundingModelLoader (#3) porta in Florence-2. Fornisci un breve suggerimento in GroundingDetector (#1) per proporre riquadri intorno al tuo obiettivo; regola la fiducia se vedi mancanze o falsi positivi. DownLoadSAM2Model (#12) carica SAM 2 e Sam2Segment (#11) converte i riquadri in una maschera pulita. Facoltativamente inverti la selezione con InvertMask (#15) e visualizza in anteprima il ritaglio con alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).
Normale - Immagine
Usa questo per controlli rapidi dei suggerimenti su un singolo fotogramma. LoadImage (#24) porta nella tua immagine e GroundingDetector (#25) disegna riquadri etichettati basati sul tuo suggerimento testuale. PreviewImage (#26) mostra il risultato annotato in modo da poter iterare sulla formulazione prima del lavoro in batch o video.
Segmento - Maschera
Questo percorso crea una sovrapposizione di segmentazione guidata dal testo in un solo passaggio. GroundingMaskModelLoader (#21) carica il modello di maschera e LoadImage (#18) fornisce il fotogramma. Digita un'istruzione descrittiva in GroundingMaskDetector (#22) per ottenere direttamente una maschera e un'anteprima sovrapposta; PreviewImage (#20) visualizza il composito, mentre PreviewAny (#19) mostra la stringa di istruzione risolta. È ideale quando desideri una selezione semantica rapida senza rilevamento e perfezionamento separati.
Normale - Video
Questo percorso sovrappone rilevamenti sui fotogrammi video e ricodifica una clip sincronizzata. VHS_LoadVideo (#32) importa fotogrammi e audio, e GroundingModelLoader (#30) fornisce Florence-2. Imposta un suggerimento come "faces" in GroundingDetector (#28) per disegnare riquadri per fotogramma. VHS_VideoInfo (#40) inoltra il frame rate caricato a VHS_VideoCombine (#39), che scrive un MP4 con l'audio originale e il timing corrispondente. Il risultato è un video annotato pronto per essere condiviso per la revisione o la pianificazione delle riprese.
Nodi chiave nel workflow Comfyui ComfyUI Grounding
GroundingDetector (#1)
Rilevatore principale che trasforma il tuo suggerimento testuale in riquadri di delimitazione. Alza la soglia del punteggio per meno falsi positivi; abbassala se l'obiettivo è piccolo o parzialmente occultato. Mantieni i suggerimenti brevi e specifici, ad esempio "ombrello rosso" piuttosto che frasi lunghe. Usa questo nodo per guidare sia le fasi di segmentazione che di visualizzazione a valle.
Sam2Segment (#11)
Affina i riquadri grezzi in maschere nitide usando SAM 2. Alimentalo con riquadri da GroundingDetector; aggiungi alcuni punti positivi o negativi solo quando il confine necessita di guida extra. Se il soggetto e lo sfondo si invertiscono, abbina con InvertMask per il ritaglio desiderato. Usa il risultato ovunque sia richiesto un alfa matte.
GroundingMaskDetector (#22)
Genera una maschera semantica direttamente da un'istruzione in linguaggio naturale. Questo è il migliore quando desideri una selezione con un solo clic senza assemblare una catena di rilevamento-segmentazione. Stringi il testo e aumenta la fiducia se vengono raccolte più regioni; amplia la formulazione per includere variazioni quando il soggetto viene perso.
JoinImageWithAlpha (#14)
Composita l'immagine originale con la maschera in un output RGBA per editor a valle. Usalo quando hai bisogno di sfondi trasparenti, effetti selettivi o lavori di composizione a strati. Combina con InvertMask per passare tra isolare il soggetto e ritagliare il soggetto.
VHS_LoadVideo (#32)
Divide un video in fotogrammi ed estrae l'audio per l'elaborazione. Se la tua sorgente ha un frame rate variabile, affidati al frame rate caricato che segnala per mantenere il timing coerente. Questo nodo è il punto di ingresso per qualsiasi rilevamento o segmentazione fotogramma per fotogramma su una clip.
VHS_VideoCombine (#39)
Ricodifica i fotogrammi elaborati in un MP4 preservando l'audio. Abbina il frame rate al valore riportato a monte per evitare derive temporali. Usa il prefisso del nome file per mantenere organizzate le diverse esecuzioni nella tua cartella di output.
Extra opzionali
- Mantieni i suggerimenti di ComfyUI Grounding brevi e focalizzati sui sostantivi; aggiungi uno o due attributi quando necessario, ad esempio "escavatore giallo" o "cantante principale con occhiali".
- Per scene affollate, aumenta la fiducia del rilevatore e riduci il conteggio massimo dei riquadri per stabilizzare i risultati prima di inviare i riquadri a SAM 2.
- Quando prepari video, taglia o sottocampiona all'importazione per iterazioni più veloci, quindi torna al conteggio completo dei fotogrammi per i rendering finali.
- Se hai principalmente bisogno di maschere semantiche senza controllo del riquadro, esegui il percorso Segment - Mask; altrimenti preferisci il percorso rilevatore più SAM 2 per bordi precisi.
- I nodi provengono dall'estensione ComfyUI Grounding; vedi il progetto per aggiornamenti e modelli supportati. Repository
Riconoscimenti
Questo workflow implementa e si basa sui seguenti lavori e risorse. Riconosciamo con gratitudine PozzettiAndrea per ComfyUI-Grounding per i loro contributi e la manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.
