ComfyUI Grounding: Detecção orientada, segmentação precisa e sobreposições de vídeo
Este fluxo de trabalho embala o ComfyUI Grounding em três caminhos práticos para lotes de imagens, imagens únicas e vídeos. Converte prompts de linguagem natural em caixas delimitadoras de objetos e máscaras de alta qualidade, depois pré-visualiza composições RGBA ou escreve vídeos anotados com áudio preservado. Artistas, editores e generalistas de VFX podem isolar rapidamente assuntos, remover fundos e gerar sobreposições limpas para composição.
Construído com detecção de vocabulário aberto e segmentação moderna, o ComfyUI Grounding é confiável para uma variedade de assuntos e cenas. Você pode direcionar a seleção com prompts curtos, refinar com segmentação e manter o tempo dos quadros intacto ao fazer round-tripping de vídeo.
Modelos principais no fluxo de trabalho Comfyui ComfyUI Grounding
- Microsoft Florence-2 Large. Um modelo de visão-linguagem que suporta detecção de vocabulário aberto a partir de prompts de linguagem natural, permitindo propostas de caixas flexíveis para objetos arbitrários. Model card
- Segment Anything 2 (SAM 2). Um modelo de fundação de segmentação que transforma pontos ou caixas em máscaras nítidas; aqui refina as detecções do Florence-2 em seleções precisas de pixels. Repository
Como usar o fluxo de trabalho Comfyui ComfyUI Grounding
O fluxo de trabalho contém quatro grupos autônomos. Escolha o caminho que corresponde à sua tarefa; cada um pode ser executado de forma independente.
Lote - Normal
Este caminho processa uma pasta de imagens e gera composições RGBA. LoadImagesFromFolderKJ (#9) lê seu lote, enquanto GroundingModelLoader (#3) traz o Florence-2. Forneça um prompt curto em GroundingDetector (#1) para propor caixas ao redor do seu alvo; ajuste a confiança se perceber falhas ou falsos positivos. DownLoadSAM2Model (#12) carrega o SAM 2 e Sam2Segment (#11) converte as caixas em uma máscara limpa. Opcionalmente, inverta a seleção com InvertMask (#15) e visualize o recorte com alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).
Normal - Imagem
Use isso para verificações rápidas de prompts em um único quadro. LoadImage (#24) traz sua imagem e GroundingDetector (#25) desenha caixas rotuladas com base no seu prompt de texto. PreviewImage (#26) mostra o resultado anotado para que você possa iterar nas palavras antes do trabalho em lote ou vídeo.
Segmentar - Máscara
Este caminho cria uma sobreposição de segmentação orientada por texto em um único passo. GroundingMaskModelLoader (#21) carrega o modelo de máscara e LoadImage (#18) fornece o quadro. Digite uma instrução descritiva em GroundingMaskDetector (#22) para obter diretamente uma máscara e uma pré-visualização sobreposta; PreviewImage (#20) exibe a composição, enquanto PreviewAny (#19) mostra a string de instrução resolvida. É ideal quando você deseja uma seleção semântica rápida sem detecção e refinamento separados.
Normal - Vídeo
Este caminho sobrepõe detecções em quadros de vídeo e reencoda um clipe sincronizado. VHS_LoadVideo (#32) importa quadros e áudio, e GroundingModelLoader (#30) fornece o Florence-2. Defina um prompt como “faces” em GroundingDetector (#28) para desenhar caixas por quadro. VHS_VideoInfo (#40) encaminha a taxa de quadros carregada para VHS_VideoCombine (#39), que escreve um MP4 com o áudio original e o tempo correspondente. O resultado é um vídeo anotado pronto para compartilhamento para revisão ou planejamento de filmagem.
Nós principais no fluxo de trabalho Comfyui ComfyUI Grounding
GroundingDetector (#1)
Detector principal que transforma seu prompt de texto em caixas delimitadoras. Aumente o limite de pontuação para menos falsos positivos; diminua se o alvo for pequeno ou parcialmente oculto. Mantenha os prompts curtos e específicos, por exemplo, “guarda-chuva vermelho” em vez de frases longas. Use este nó para impulsionar tanto a segmentação quanto as etapas de visualização a jusante.
Sam2Segment (#11)
Refina caixas grosseiras em máscaras nítidas usando o SAM 2. Alimente-o com caixas do GroundingDetector; adicione alguns pontos positivos ou negativos apenas quando o limite precisar de orientação extra. Se o assunto e o fundo se inverterem, combine com InvertMask para o recorte pretendido. Use o resultado sempre que uma máscara alfa for necessária.
GroundingMaskDetector (#22)
Gera uma máscara semântica diretamente de uma instrução de linguagem natural. Isso é melhor quando você deseja uma seleção de um clique sem montar uma cadeia de detecção para segmentação. Aperte o texto e aumente a confiança se várias regiões estiverem sendo captadas; amplie a redação para incluir variações quando o assunto for perdido.
JoinImageWithAlpha (#14)
Composita a imagem original com a máscara em uma saída RGBA para editores a jusante. Use-o quando precisar de fundos transparentes, efeitos seletivos ou trabalho de comp em camadas. Combine com InvertMask para alternar entre isolar o sujeito e cortar o sujeito.
VHS_LoadVideo (#32)
Divide um vídeo em quadros e extrai áudio para processamento. Se sua fonte tiver uma taxa de quadros variável, confie na taxa de quadros carregada que ele relata para manter o tempo consistente. Este nó é o ponto de entrada para qualquer detecção ou segmentação quadro a quadro em um clipe.
VHS_VideoCombine (#39)
Reencoda quadros processados em um MP4 enquanto preserva o áudio. Combine a taxa de quadros com o valor relatado a montante para evitar desvio de tempo. Use o prefixo do nome do arquivo para manter diferentes execuções organizadas na sua pasta de saída.
Extras opcionais
- Mantenha os prompts do ComfyUI Grounding curtos e focados em substantivos; adicione um ou dois atributos quando necessário, por exemplo, “escavadeira amarela” ou “vocalista com óculos”.
- Para cenas movimentadas, aumente a confiança do detector e reduza a contagem máxima de caixas para estabilizar os resultados antes de enviar as caixas para o SAM 2.
- Ao preparar vídeos, corte ou subamostre na importação para iterações mais rápidas, depois mude de volta para contagens de quadros completas para renderizações finais.
- Se você principalmente precisar de máscaras semânticas sem controle de caixa, execute o caminho Segmentar - Máscara; caso contrário, prefira a rota detector mais SAM 2 para bordas precisas.
- Os nós vêm da extensão ComfyUI Grounding; veja o projeto para atualizações e modelos suportados. Repository
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos profundamente a PozzettiAndrea por ComfyUI-Grounding por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
