Este flujo de trabajo empaqueta ComfyUI Grounding en tres caminos prácticos para lotes de imágenes, imágenes individuales y videos. Convierte indicaciones en lenguaje natural en cuadros delimitadores de objetos y máscaras de alta calidad, luego previsualiza composiciones RGBA o escribe videos anotados con audio preservado. Artistas, editores y generalistas de VFX pueden aislar rápidamente sujetos, eliminar fondos y generar superposiciones limpias para la composición.
Construido sobre detección de vocabulario abierto y segmentación moderna, ComfyUI Grounding es confiable para sujetos y escenas variados. Puede impulsar la selección con indicaciones cortas, refinar con segmentación y mantener el tiempo de fotogramas intacto al procesar videos.
El flujo de trabajo contiene cuatro grupos autónomos. Elija el camino que coincida con su tarea; cada uno puede ejecutarse de forma independiente.
Este camino procesa una carpeta de imágenes y genera composiciones RGBA. LoadImagesFromFolderKJ (#9) lee su lote, mientras que GroundingModelLoader (#3) incorpora Florence-2. Proporcione una breve indicación en GroundingDetector (#1) para proponer cuadros alrededor de su objetivo; ajuste la confianza si observa fallos o falsos positivos. DownLoadSAM2Model (#12) carga SAM 2 y Sam2Segment (#11) convierte los cuadros en una máscara limpia. Opcionalmente invierta la selección con InvertMask (#15) y previsualice el recorte con alfa usando JoinImageWithAlpha (#14) y PreviewImage (#17).
Utilice esto para verificar rápidamente indicaciones en un solo fotograma. LoadImage (#24) trae su imagen y GroundingDetector (#25) dibuja cuadros etiquetados según su indicación de texto. PreviewImage (#26) muestra el resultado anotado para que pueda iterar en la redacción antes de trabajar en lotes o videos.
Este camino crea una superposición de segmentación impulsada por texto en un solo paso. GroundingMaskModelLoader (#21) carga el modelo de máscara y LoadImage (#18) suministra el fotograma. Escriba una instrucción descriptiva en GroundingMaskDetector (#22) para obtener directamente una máscara y una previsualización superpuesta; PreviewImage (#20) muestra la composición, mientras que PreviewAny (#19) muestra la cadena de instrucciones resuelta. Es ideal cuando desea una selección semántica rápida sin detección y refinamiento separados.
Este camino superpone detecciones en fotogramas de video y re-codifica un clip sincronizado. VHS_LoadVideo (#32) importa fotogramas y audio, y GroundingModelLoader (#30) proporciona Florence-2. Establezca una indicación como "caras" en GroundingDetector (#28) para dibujar cuadros por fotograma. VHS_VideoInfo (#40) reenvía la tasa de fotogramas cargada a VHS_VideoCombine (#39), que escribe un MP4 con el audio original y el tiempo coincidente. El resultado es un video anotado listo para compartir para revisión o planificación de tomas.
GroundingDetector (#1)Detector central que convierte su indicación de texto en cuadros delimitadores. Aumente el umbral de puntuación para menos falsos positivos; bájelo si el objetivo es pequeño o está parcialmente ocluido. Mantenga las indicaciones cortas y específicas, por ejemplo, "paraguas rojo" en lugar de oraciones largas. Use este nodo para impulsar tanto las etapas de segmentación como de visualización.
Sam2Segment (#11)Refina cuadros toscos en máscaras nítidas usando SAM 2. Aliméntelo con cuadros de GroundingDetector; agregue algunos puntos positivos o negativos solo cuando el límite necesite orientación adicional. Si el sujeto y el fondo se invierten, combine con InvertMask para el recorte deseado. Use el resultado donde sea necesario un mate alfa.
GroundingMaskDetector (#22)Genera una máscara semántica directamente desde una instrucción en lenguaje natural. Esto es mejor cuando desea una selección de un clic sin ensamblar una cadena de detección a segmentación. Ajuste el texto e incremente la confianza si se están seleccionando múltiples regiones; amplíe la redacción para incluir variaciones cuando se pierda el sujeto.
JoinImageWithAlpha (#14)Compone la imagen original con la máscara en una salida RGBA para editores posteriores. Úselo cuando necesite fondos transparentes, efectos selectivos o trabajo compuesto en capas. Combine con InvertMask para alternar entre aislar el sujeto y recortar el sujeto.
VHS_LoadVideo (#32)Divide un video en fotogramas y extrae audio para procesamiento. Si su fuente tiene una tasa de fotogramas variable, confíe en la tasa de fotogramas cargada que informa para mantener el tiempo consistente. Este nodo es el punto de entrada para cualquier detección o segmentación fotograma por fotograma a través de un clip.
VHS_VideoCombine (#39)Re-codifica fotogramas procesados en un MP4 mientras preserva el audio. Haga coincidir la tasa de fotogramas con el valor informado aguas arriba para evitar el desajuste de tiempo. Use el prefijo del nombre de archivo para mantener organizadas diferentes ejecuciones en su carpeta de salida.
Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos sinceramente a PozzettiAndrea por ComfyUI-Grounding por sus contribuciones y mantenimiento. Para detalles autorizados, consulte la documentación original y los repositorios vinculados a continuación.
Nota: El uso de los modelos, conjuntos de datos y código referenciados está sujeto a las licencias y términos respectivos proporcionados por sus autores y mantenedores.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.