ComfyUI Grounding: Обнаружение по подсказкам, пиксельная сегментация и видео-наложения
Этот рабочий процесс упаковывает ComfyUI Grounding в три практических пути для партий изображений, одиночных изображений и видео. Он превращает подсказки на естественном языке в ограничивающие рамки объектов и высококачественные маски, затем предварительно просматривает RGBA-композиты или записывает аннотированные видео с сохранением аудио. Художники, редакторы и специалисты по VFX могут быстро изолировать объекты, удалять фоны и создавать чистые наложения для композитинга.
Основанный на обнаружении с открытым словарем и современной сегментации, ComfyUI Grounding надежен для различных объектов и сцен. Вы можете управлять выбором с помощью коротких подсказок, уточнять с помощью сегментации и сохранять временную синхронизацию кадров при возврате видео.
Ключевые модели в рабочем процессе Comfyui ComfyUI Grounding
- Microsoft Florence-2 Large. Модель визуального языка, поддерживающая обнаружение с открытым словарем из подсказок на естественном языке, позволяя гибко предлагать рамки для произвольных объектов. Model card
- Segment Anything 2 (SAM 2). Модель сегментации, которая превращает точки или рамки в четкие маски; здесь она уточняет обнаружения Florence-2 в пиксельные выборки. Repository
Как использовать рабочий процесс Comfyui ComfyUI Grounding
Рабочий процесс содержит четыре автономные группы. Выберите путь, соответствующий вашей задаче; каждый из них можно запускать независимо.
Batch - Normal
Этот путь обрабатывает папку с изображениями и выводит RGBA-композиты. LoadImagesFromFolderKJ (#9) читает вашу партию, в то время как GroundingModelLoader (#3) загружает Florence-2. Укажите короткую подсказку в GroundingDetector (#1), чтобы предложить рамки вокруг вашей цели; настройте уверенность, если заметите пропуски или ложные срабатывания. DownLoadSAM2Model (#12) загружает SAM 2, а Sam2Segment (#11) преобразует рамки в чистую маску. При необходимости переверните выбор с помощью InvertMask (#15) и предварительно просмотрите вырезку с альфа-каналом, используя JoinImageWithAlpha (#14) и PreviewImage (#17).
Normal - Image
Используйте это для быстрой проверки подсказок на одном кадре. LoadImage (#24) загружает ваше изображение, а GroundingDetector (#25) рисует рамки с метками на основе вашей текстовой подсказки. PreviewImage (#26) показывает аннотированный результат, чтобы вы могли изменить формулировку перед пакетной или видео работой.
Segment - Mask
Этот путь создает одношаговое наложение сегментации, управляемое текстом. GroundingMaskModelLoader (#21) загружает модель маски, а LoadImage (#18) предоставляет кадр. Введите описательную инструкцию в GroundingMaskDetector (#22), чтобы напрямую получить маску и предварительный просмотр с наложением; PreviewImage (#20) отображает композит, в то время как PreviewAny (#19) показывает разрешенную строку инструкции. Это идеально, когда вам нужна быстрая семантическая выборка без отдельного обнаружения и уточнения.
Normal - Video
Этот путь накладывает обнаружения на кадры видео и перекодирует синхронизированный клип. VHS_LoadVideo (#32) импортирует кадры и аудио, а GroundingModelLoader (#30) предоставляет Florence-2. Установите подсказку, такую как "faces", в GroundingDetector (#28), чтобы рисовать рамки для каждого кадра. VHS_VideoInfo (#40) передает загруженную частоту кадров в VHS_VideoCombine (#39), который записывает MP4 с оригинальным аудио и совпадающим временем. Результат — готовое к обмену аннотированное видео для обзора или планирования съемки.
Ключевые узлы в рабочем процессе Comfyui ComfyUI Grounding
GroundingDetector (#1)
Основной детектор, превращающий вашу текстовую подсказку в ограничивающие рамки. Повышайте порог оценки для уменьшения ложных срабатываний; снижайте его, если цель мала или частично закрыта. Держите подсказки короткими и конкретными, например "красный зонт" вместо длинных предложений. Используйте этот узел для управления как сегментацией, так и визуализацией на последующих этапах.
Sam2Segment (#11)
Уточняет грубые рамки в четкие маски, используя SAM 2. Подайте ему рамки из GroundingDetector; добавьте несколько положительных или отрицательных точек только тогда, когда границе требуется дополнительное руководство. Если объект и фон меняются местами, используйте InvertMask для нужной вырезки. Используйте результат везде, где требуется альфа-мат.
GroundingMaskDetector (#22)
Генерирует семантическую маску непосредственно из инструкции на естественном языке. Это лучше всего, когда вам нужна выборка одним кликом без сборки цепочки обнаружения-сегментации. Уточняйте текст и увеличивайте уверенность, если выбирается несколько регионов; расширяйте формулировку, чтобы включать варианты, когда объект не выбран.
JoinImageWithAlpha (#14)
Комбинирует оригинальное изображение с маской в RGBA-вывод для последующих редакторов. Используйте его, когда вам нужны прозрачные фоны, выборочные эффекты или многослойная работа с композитом. Объединяйте с InvertMask, чтобы переключаться между изоляцией объекта и его вырезкой.
VHS_LoadVideo (#32)
Разделяет видео на кадры и извлекает аудио для обработки. Если ваш источник имеет переменную частоту кадров, полагайтесь на загруженную частоту кадров, которую он сообщает, чтобы сохранить временную синхронизацию. Этот узел является точкой входа для любого обнаружения или сегментации по кадрам на протяжении всего клипа.
VHS_VideoCombine (#39)
Перекодирует обработанные кадры в MP4, сохраняя аудио. Сопоставьте частоту кадров со значением, сообщаемым выше, чтобы избежать временного дрейфа. Используйте префикс имени файла, чтобы организовать разные запуски в вашей папке вывода.
Дополнительные опции
- Держите подсказки ComfyUI Grounding короткими и сосредоточенными на существительных; добавляйте один или два атрибута при необходимости, например "желтый экскаватор" или "лидер группы в очках".
- Для загруженных сцен увеличьте уверенность детектора и уменьшите максимальное количество рамок, чтобы стабилизировать результаты перед отправкой рамок в SAM 2.
- При подготовке видео обрезайте или подсэмплируйте при импорте для более быстрых итераций, затем переключайтесь обратно на полные подсчеты кадров для финальных рендеров.
- Если вам в основном нужны семантические маски без управления рамками, используйте путь Segment - Mask; в противном случае предпочитайте маршрут "детектор плюс SAM 2" для точных краев.
- Узлы происходят из расширения ComfyUI Grounding; см. проект для обновлений и поддерживаемых моделей. Repository
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим PozzettiAndrea за ComfyUI-Grounding за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- PozzettiAndrea/ComfyUI-Grounding
- GitHub: ComfyUI-Grounding
Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.
