Анимация персонажей, управляемая позами, в ComfyUI с помощью SCAIL
Этот рабочий процесс приносит SCAIL в ComfyUI для анимации персонажей, управляемой позами и основанной на ссылках. Компонуя одно референсное изображение с извлечёнными человеческими позами, SCAIL сохраняет идентичность объекта, структуру тела и согласованность движений по кадрам, в то время как вы управляете стилем с помощью подсказок. Он поддерживает либо входное видео для переноса движения, либо изображения и отрендеренные позы для хореографии, затем выводит многокадровые видео с возможным аудио-проходом.
Используйте этот рабочий процесс SCAIL для переноса движений танцев и действий, стилизованной анимации персонажей и согласованных многокадровых последовательностей, где важны временная стабильность и точные позы. В основе лежит WanVideo для генерации видео с диффузионными трансформаторами, усиливает идентичность через CLIP vision и управляет структурой с помощью сигналов поз NLF и ViTPose/DWPose, все настроено для эффективного семплирования длинных последовательностей.
Примечание: из-за ограничений совместимости машина 2XL не может использоваться с текущим рабочим процессом ComfyUI.
Ключевые модели в рабочем процессе ComfyUI SCAIL
- SCAIL: анимация персонажей студийного уровня через полноконтекстное внедрение поз и 3D-совместимое представление поз; основа сохранения идентичности и точности поз в этом рабочем процессе. GitHub, arXiv
- Wan 2.x Image-to-Video основа: крупные модели диффузии видео, используемые здесь в качестве основы семплирования для генерации, обусловленной SCAIL; поддерживает задачи высокого качества I2V и анимации. Примеры: Wan-AI/Wan2.1-I2V-14B-480P, Wan-AI/Wan2.2-Animate-14B
- UMT5-XXL текстовый энкодер: многоязычный вариант T5, используемый Wan pipelines для преобразования подсказок в условные встраивания. Hugging Face
- CLIP ViT-H/14 визуальный энкодер: извлекает надежные особенности референсного изображения для закрепления идентичности во время синтеза видео. GitHub
- ViTPose (Whole-Body): высококачественный 2D оценщик человеческих поз, который предоставляет плотные ключевые точки для тела, рук и лица, используемые утилитами выравнивания и рисования SCAIL. GitHub
- DWPose: формат ключевых точек всего тела и модели, использованные для дополнительных деталей лица/рук и выравнивания поз. GitHub
- NLF (Neural Localizer Fields): прогнозирует непрерывные подсказки формы/позы человека, которые преобразуются в изображения поз SCAIL, осведомлённые о 3D, используемые для сильного структурного контроля. GitHub
- YOLOv10: быстрый детектор, используемый в цепочке предварительной обработки поз для локализации человека. GitHub
Как использовать рабочий процесс ComfyUI SCAIL
Общий поток: загрузите референсное изображение и необязательное управляющее видео; извлеките и отрендерьте позы; закодируйте референс с помощью CLIP vision; добавьте референс SCAIL и встраивания поз SCAIL; соберите текстовое условие; семплируйте кадры с WanVideo; декодируйте и экспортируйте видео. Граф включает публичные переменные “Set_”, так что ширина, высота, CFG и количество кадров распространяются автоматически.
-
Входные данные и размеры
- Загрузите референсное изображение персонажа или видео для переноса движения. Рабочий процесс изменяет размер референса до размера генерации и гарантирует, что целевые размеры делятся на 32. Если вы загружаете видео, его аудио доступно для прохождения в финальный экспорт.
- Установите ширину, высоту и количество кадров один раз; значения поступают в семплер, декодер и экспортер через общие получатели и установщики. Держите соотношение сторон согласованным между референсом и выходом, чтобы минимизировать артефакты растяжения.
-
Извлечение поз (группа: Извлечение поз)
- Входные кадры видео или изображения изменяются для анализа и подаются в предсказатель поз NLF и детектор ViTPose. Выход ViTPose преобразуется в формат DWPose для дополнительных деталей лица/рук и для выравнивания глобальной позы с референсным объектом.
- Отрендеренные изображения поз SCAIL создаются при половине разрешения генерации для эффективности, затем компонуются до целевого размера, сохраняя глубинные подсказки и окклюзии. Рисование лица/рук можно отключить, всё ещё используя выравнивание; отключите DWPose, если хотите отключить выравнивание поз.
-
Кодирование идентичности референса
- Референсное изображение кодируется с CLIP ViT-H/14 и преобразуется в встраивания изображений WanVideo. Эти встраивания захватывают цвет, текстуру и локальную структуру, чтобы SCAIL мог удерживать персонажа согласованным через сложные движения.
- Если идентичность отклоняется на длинных или стилизованных кадрах, держите чистый, фронтально ориентированный референс и избегайте сильных обрезок; это усиливает сигнал CLIP, используемый далее.
-
Условие поз SCAIL
- Рендеры поз SCAIL внедряются как дополнительные встраивания изображений. Они действуют как сильное структурное руководство, которое обеспечивает расположение конечностей, порядок глубины и стабильность силуэта по кадрам.
- Вы можете поменять источник управления на этом этапе: используйте извлечённые позы из видео для переноса движения или подавайте предварительно отрендеренные изображения поз SCAIL для хореографии последовательностей без драйвера.
-
Условие текстовой подсказки
- Подсказки кодируются в текстовые встраивания, которые влияют на стиль, гардероб, освещение и окружение. Используйте краткие описания, которые дополняют референсное изображение; негативный текст может уменьшить перенасыщенность, артефакты или беспорядок.
- Подсказки необязательны, когда вы хотите, чтобы выход следовал за референсным видом под управлением SCAIL.
-
Семплирование и планирование
- Семплер WanVideo запускает диффузионный трансформатор с моделью, расписанием, встраиваниями изображений (референс + поза SCAIL), текстовыми встраиваниями и руководством CFG. Узел контекстных опций может обрабатывать длинные последовательности для генерации, удобной для памяти, сохраняя временную согласованность.
- Если вы замечаете мерцание или мягкие края, рассмотрите более медленный планировщик или немного более сильный CFG; если движение кажется чрезмерно ограниченным, уменьшите общее руководство, чтобы структура SCAIL и подсказки внешности естественно сбалансировались.
-
Декодирование и экспорт
- Латенты декодируются в кадры с помощью Wan VAE, и видео записывается с выбранной частотой кадров и префиксом имени файла. Рабочий процесс может конкатенировать визуальные эффекты для A/B срезов и передаёт аудио, когда подключено.
- Проверьте выход; если руки или ноги обрезаются во время быстрых поворотов, пересмотрите качество извлечения поз или входные данные выравнивания, а затем повторно поставьте в очередь с теми же семенами для контролируемой итерации.
Ключевые узлы в рабочем процессе ComfyUI SCAIL
-
WanVideoAddSCAILReferenceEmbeds (#350)
- Добавляет условие идентичности и внешности из референсного изображения в поток встраивания изображений. Увеличьте его влияние, когда лицо или одежда персонажа отклоняются; уменьшите, если модель отказывается адаптироваться к большим поворотам тела или драматическому освещению.
-
WanVideoAddSCAILPoseEmbeds (#324)
- Внедряет отрендеренные изображения поз SCAIL как структурное руководство. Повышайте его влияние для более строгого расположения конечностей и стабильности силуэта; уменьшите, если движение выглядит слишком жёстким или если вы хотите больше свободы для стиля подсказок, чтобы слегка изменить позу.
-
RenderNLFPoses (#362)
- Рендерит непрерывные предсказания NLF в изображения поз SCAIL, опционально накладывая лицо/руки DWPose и выполняя выравнивание позы с референсом. Держите внутренний рендер позы на половине целевого разрешения, чтобы соответствовать дизайну SCAIL и избежать артефактов; отключите DWPose, чтобы убрать выравнивание.
-
WanVideoSamplerv2 (#348)
- Управляет основным семплированием диффузии с моделью, встраиваниями изображений/текста, расписанием, дополнительными аргументами и
cfg. Если вы видите временное дрожание, используйте более стабильное расписание или больше шагов; если детали превышают референс, уменьшите cfg, чтобы подсказки идентичности SCAIL вели.
-
WanVideoSchedulerv2 (#349)
- Контролирует поведение расписания денойзинга. Выбирайте расписания, которые балансируют детали и стабильность; более медленные расписания часто улучшают временную согласованность для обширных движений и длинных последовательностей.
-
WanVideoClipVisionEncode (#327)
- Кодирует референсное изображение с ViT-H/14 и выводит встраивания изображений CLIP для идентичности. Используйте высококачественные, хорошо освещённые референсы; фронтальные или 3/4 виды лучше закрепляют лица и волосы.
Дополнительные опции
- Размеры должны делиться на 32. Держите соотношение сторон референса и выхода согласованным, чтобы избежать искажения.
- SCAIL ожидает рендеры поз при половине разрешения генерации; этот рабочий процесс автоматически рассчитывает это, так что вам не нужно управлять этим вручную.
- Для точных рук и выражений держите DWPose подключённым для включения подсказок лица/рук; чтобы отключить только выравнивание, отключите ссылку DWPose, но держите отрендеренные изображения поз.
- Длинные последовательности: используйте узел контекстных опций для оконной генерации для эффективности памяти, сохраняя перекрытие для плавных переходов.
- Если вы используете предварительные веса SCAIL, перепакованные для ComfyUI, получайте их из распределений сообщества, когда это необходимо. Пример предварительного пакета: Kijai/WanVideo_comfy SCAIL и Kijai/WanVideo_comfy_fp8_scaled SCAIL.
Благодарности
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны Ai Verse Z.ai (zai-org) за SCAIL (официальная реализация) и teal024 за страницу проекта SCAIL за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.
Ресурсы
- zai-org/SCAIL
- teal024/SCAIL Project Page
Примечание: использование указанных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.