Este fluxo de trabalho embala o ComfyUI Grounding em três caminhos práticos para lotes de imagens, imagens únicas e vídeos. Converte prompts de linguagem natural em caixas delimitadoras de objetos e máscaras de alta qualidade, depois pré-visualiza composições RGBA ou escreve vídeos anotados com áudio preservado. Artistas, editores e generalistas de VFX podem isolar rapidamente assuntos, remover fundos e gerar sobreposições limpas para composição.
Construído com detecção de vocabulário aberto e segmentação moderna, o ComfyUI Grounding é confiável para uma variedade de assuntos e cenas. Você pode direcionar a seleção com prompts curtos, refinar com segmentação e manter o tempo dos quadros intacto ao fazer round-tripping de vídeo.
O fluxo de trabalho contém quatro grupos autônomos. Escolha o caminho que corresponde à sua tarefa; cada um pode ser executado de forma independente.
Este caminho processa uma pasta de imagens e gera composições RGBA. LoadImagesFromFolderKJ (#9) lê seu lote, enquanto GroundingModelLoader (#3) traz o Florence-2. Forneça um prompt curto em GroundingDetector (#1) para propor caixas ao redor do seu alvo; ajuste a confiança se perceber falhas ou falsos positivos. DownLoadSAM2Model (#12) carrega o SAM 2 e Sam2Segment (#11) converte as caixas em uma máscara limpa. Opcionalmente, inverta a seleção com InvertMask (#15) e visualize o recorte com alfa usando JoinImageWithAlpha (#14) e PreviewImage (#17).
Use isso para verificações rápidas de prompts em um único quadro. LoadImage (#24) traz sua imagem e GroundingDetector (#25) desenha caixas rotuladas com base no seu prompt de texto. PreviewImage (#26) mostra o resultado anotado para que você possa iterar nas palavras antes do trabalho em lote ou vídeo.
Este caminho cria uma sobreposição de segmentação orientada por texto em um único passo. GroundingMaskModelLoader (#21) carrega o modelo de máscara e LoadImage (#18) fornece o quadro. Digite uma instrução descritiva em GroundingMaskDetector (#22) para obter diretamente uma máscara e uma pré-visualização sobreposta; PreviewImage (#20) exibe a composição, enquanto PreviewAny (#19) mostra a string de instrução resolvida. É ideal quando você deseja uma seleção semântica rápida sem detecção e refinamento separados.
Este caminho sobrepõe detecções em quadros de vídeo e reencoda um clipe sincronizado. VHS_LoadVideo (#32) importa quadros e áudio, e GroundingModelLoader (#30) fornece o Florence-2. Defina um prompt como “faces” em GroundingDetector (#28) para desenhar caixas por quadro. VHS_VideoInfo (#40) encaminha a taxa de quadros carregada para VHS_VideoCombine (#39), que escreve um MP4 com o áudio original e o tempo correspondente. O resultado é um vídeo anotado pronto para compartilhamento para revisão ou planejamento de filmagem.
GroundingDetector (#1)Detector principal que transforma seu prompt de texto em caixas delimitadoras. Aumente o limite de pontuação para menos falsos positivos; diminua se o alvo for pequeno ou parcialmente oculto. Mantenha os prompts curtos e específicos, por exemplo, “guarda-chuva vermelho” em vez de frases longas. Use este nó para impulsionar tanto a segmentação quanto as etapas de visualização a jusante.
Sam2Segment (#11)Refina caixas grosseiras em máscaras nítidas usando o SAM 2. Alimente-o com caixas do GroundingDetector; adicione alguns pontos positivos ou negativos apenas quando o limite precisar de orientação extra. Se o assunto e o fundo se inverterem, combine com InvertMask para o recorte pretendido. Use o resultado sempre que uma máscara alfa for necessária.
GroundingMaskDetector (#22)Gera uma máscara semântica diretamente de uma instrução de linguagem natural. Isso é melhor quando você deseja uma seleção de um clique sem montar uma cadeia de detecção para segmentação. Aperte o texto e aumente a confiança se várias regiões estiverem sendo captadas; amplie a redação para incluir variações quando o assunto for perdido.
JoinImageWithAlpha (#14)Composita a imagem original com a máscara em uma saída RGBA para editores a jusante. Use-o quando precisar de fundos transparentes, efeitos seletivos ou trabalho de comp em camadas. Combine com InvertMask para alternar entre isolar o sujeito e cortar o sujeito.
VHS_LoadVideo (#32)Divide um vídeo em quadros e extrai áudio para processamento. Se sua fonte tiver uma taxa de quadros variável, confie na taxa de quadros carregada que ele relata para manter o tempo consistente. Este nó é o ponto de entrada para qualquer detecção ou segmentação quadro a quadro em um clipe.
VHS_VideoCombine (#39)Reencoda quadros processados em um MP4 enquanto preserva o áudio. Combine a taxa de quadros com o valor relatado a montante para evitar desvio de tempo. Use o prefixo do nome do arquivo para manter diferentes execuções organizadas na sua pasta de saída.
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos profundamente a PozzettiAndrea por ComfyUI-Grounding por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Playground, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.