Модель SCAIL в ComfyUI | Рабочий процесс анимации персонажей на основе поз

ComfyUI SCAIL Workflow

SCAIL Model in ComfyUI | Pose-Based Character Animation Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI SCAIL Examples

Анимация персонажей, управляемая позами, в ComfyUI с помощью SCAIL#

Этот рабочий процесс приносит SCAIL в ComfyUI для анимации персонажей, управляемой позами и основанной на ссылках. Компонуя одно референсное изображение с извлечёнными человеческими позами, SCAIL сохраняет идентичность объекта, структуру тела и согласованность движений по кадрам, в то время как вы управляете стилем с помощью подсказок. Он поддерживает либо входное видео для переноса движения, либо изображения и отрендеренные позы для хореографии, затем выводит многокадровые видео с возможным аудио-проходом.

Используйте этот рабочий процесс SCAIL для переноса движений танцев и действий, стилизованной анимации персонажей и согласованных многокадровых последовательностей, где важны временная стабильность и точные позы. В основе лежит WanVideo для генерации видео с диффузионными трансформаторами, усиливает идентичность через CLIP vision и управляет структурой с помощью сигналов поз NLF и ViTPose/DWPose, все настроено для эффективного семплирования длинных последовательностей.

Примечание: из-за ограничений совместимости машина 2XL не может использоваться с текущим рабочим процессом ComfyUI.

Ключевые модели в рабочем процессе ComfyUI SCAIL#

SCAIL: анимация персонажей студийного уровня через полноконтекстное внедрение поз и 3D-совместимое представление поз; основа сохранения идентичности и точности поз в этом рабочем процессе. GitHub, arXiv
Wan 2.x Image-to-Video основа: крупные модели диффузии видео, используемые здесь в качестве основы семплирования для генерации, обусловленной SCAIL; поддерживает задачи высокого качества I2V и анимации. Примеры: Wan-AI/Wan2.1-I2V-14B-480P, Wan-AI/Wan2.2-Animate-14B
UMT5-XXL текстовый энкодер: многоязычный вариант T5, используемый Wan pipelines для преобразования подсказок в условные встраивания. Hugging Face
CLIP ViT-H/14 визуальный энкодер: извлекает надежные особенности референсного изображения для закрепления идентичности во время синтеза видео. GitHub
ViTPose (Whole-Body): высококачественный 2D оценщик человеческих поз, который предоставляет плотные ключевые точки для тела, рук и лица, используемые утилитами выравнивания и рисования SCAIL. GitHub
DWPose: формат ключевых точек всего тела и модели, использованные для дополнительных деталей лица/рук и выравнивания поз. GitHub
NLF (Neural Localizer Fields): прогнозирует непрерывные подсказки формы/позы человека, которые преобразуются в изображения поз SCAIL, осведомлённые о 3D, используемые для сильного структурного контроля. GitHub
YOLOv10: быстрый детектор, используемый в цепочке предварительной обработки поз для локализации человека. GitHub

Как использовать рабочий процесс ComfyUI SCAIL#

Общий поток: загрузите референсное изображение и необязательное управляющее видео; извлеките и отрендерьте позы; закодируйте референс с помощью CLIP vision; добавьте референс SCAIL и встраивания поз SCAIL; соберите текстовое условие; семплируйте кадры с WanVideo; декодируйте и экспортируйте видео. Граф включает публичные переменные “Set_”, так что ширина, высота, CFG и количество кадров распространяются автоматически.

Входные данные и размеры
- Загрузите референсное изображение персонажа или видео для переноса движения. Рабочий процесс изменяет размер референса до размера генерации и гарантирует, что целевые размеры делятся на 32. Если вы загружаете видео, его аудио доступно для прохождения в финальный экспорт.
- Установите ширину, высоту и количество кадров один раз; значения поступают в семплер, декодер и экспортер через общие получатели и установщики. Держите соотношение сторон согласованным между референсом и выходом, чтобы минимизировать артефакты растяжения.
Извлечение поз (группа: Извлечение поз)
- Входные кадры видео или изображения изменяются для анализа и подаются в предсказатель поз NLF и детектор ViTPose. Выход ViTPose преобразуется в формат DWPose для дополнительных деталей лица/рук и для выравнивания глобальной позы с референсным объектом.
- Отрендеренные изображения поз SCAIL создаются при половине разрешения генерации для эффективности, затем компонуются до целевого размера, сохраняя глубинные подсказки и окклюзии. Рисование лица/рук можно отключить, всё ещё используя выравнивание; отключите DWPose, если хотите отключить выравнивание поз.
Кодирование идентичности референса
- Референсное изображение кодируется с CLIP ViT-H/14 и преобразуется в встраивания изображений WanVideo. Эти встраивания захватывают цвет, текстуру и локальную структуру, чтобы SCAIL мог удерживать персонажа согласованным через сложные движения.
- Если идентичность отклоняется на длинных или стилизованных кадрах, держите чистый, фронтально ориентированный референс и избегайте сильных обрезок; это усиливает сигнал CLIP, используемый далее.
Условие поз SCAIL
- Рендеры поз SCAIL внедряются как дополнительные встраивания изображений. Они действуют как сильное структурное руководство, которое обеспечивает расположение конечностей, порядок глубины и стабильность силуэта по кадрам.
- Вы можете поменять источник управления на этом этапе: используйте извлечённые позы из видео для переноса движения или подавайте предварительно отрендеренные изображения поз SCAIL для хореографии последовательностей без драйвера.
Условие текстовой подсказки
- Подсказки кодируются в текстовые встраивания, которые влияют на стиль, гардероб, освещение и окружение. Используйте краткие описания, которые дополняют референсное изображение; негативный текст может уменьшить перенасыщенность, артефакты или беспорядок.
- Подсказки необязательны, когда вы хотите, чтобы выход следовал за референсным видом под управлением SCAIL.
Семплирование и планирование
- Семплер WanVideo запускает диффузионный трансформатор с моделью, расписанием, встраиваниями изображений (референс + поза SCAIL), текстовыми встраиваниями и руководством CFG. Узел контекстных опций может обрабатывать длинные последовательности для генерации, удобной для памяти, сохраняя временную согласованность.
- Если вы замечаете мерцание или мягкие края, рассмотрите более медленный планировщик или немного более сильный CFG; если движение кажется чрезмерно ограниченным, уменьшите общее руководство, чтобы структура SCAIL и подсказки внешности естественно сбалансировались.
Декодирование и экспорт
- Латенты декодируются в кадры с помощью Wan VAE, и видео записывается с выбранной частотой кадров и префиксом имени файла. Рабочий процесс может конкатенировать визуальные эффекты для A/B срезов и передаёт аудио, когда подключено.
- Проверьте выход; если руки или ноги обрезаются во время быстрых поворотов, пересмотрите качество извлечения поз или входные данные выравнивания, а затем повторно поставьте в очередь с теми же семенами для контролируемой итерации.

Ключевые узлы в рабочем процессе ComfyUI SCAIL#

WanVideoAddSCAILReferenceEmbeds (#350)
- Добавляет условие идентичности и внешности из референсного изображения в поток встраивания изображений. Увеличьте его влияние, когда лицо или одежда персонажа отклоняются; уменьшите, если модель отказывается адаптироваться к большим поворотам тела или драматическому освещению.
WanVideoAddSCAILPoseEmbeds (#324)
- Внедряет отрендеренные изображения поз SCAIL как структурное руководство. Повышайте его влияние для более строгого расположения конечностей и стабильности силуэта; уменьшите, если движение выглядит слишком жёстким или если вы хотите больше свободы для стиля подсказок, чтобы слегка изменить позу.
RenderNLFPoses (#362)
- Рендерит непрерывные предсказания NLF в изображения поз SCAIL, опционально накладывая лицо/руки DWPose и выполняя выравнивание позы с референсом. Держите внутренний рендер позы на половине целевого разрешения, чтобы соответствовать дизайну SCAIL и избежать артефактов; отключите DWPose, чтобы убрать выравнивание.
WanVideoSamplerv2 (#348)
- Управляет основным семплированием диффузии с моделью, встраиваниями изображений/текста, расписанием, дополнительными аргументами и cfg. Если вы видите временное дрожание, используйте более стабильное расписание или больше шагов; если детали превышают референс, уменьшите cfg, чтобы подсказки идентичности SCAIL вели.
WanVideoSchedulerv2 (#349)
- Контролирует поведение расписания денойзинга. Выбирайте расписания, которые балансируют детали и стабильность; более медленные расписания часто улучшают временную согласованность для обширных движений и длинных последовательностей.
WanVideoClipVisionEncode (#327)
- Кодирует референсное изображение с ViT-H/14 и выводит встраивания изображений CLIP для идентичности. Используйте высококачественные, хорошо освещённые референсы; фронтальные или 3/4 виды лучше закрепляют лица и волосы.

Дополнительные опции#

Размеры должны делиться на 32. Держите соотношение сторон референса и выхода согласованным, чтобы избежать искажения.
SCAIL ожидает рендеры поз при половине разрешения генерации; этот рабочий процесс автоматически рассчитывает это, так что вам не нужно управлять этим вручную.
Для точных рук и выражений держите DWPose подключённым для включения подсказок лица/рук; чтобы отключить только выравнивание, отключите ссылку DWPose, но держите отрендеренные изображения поз.
Длинные последовательности: используйте узел контекстных опций для оконной генерации для эффективности памяти, сохраняя перекрытие для плавных переходов.
Если вы используете предварительные веса SCAIL, перепакованные для ComfyUI, получайте их из распределений сообщества, когда это необходимо. Пример предварительного пакета: Kijai/WanVideo_comfy SCAIL и Kijai/WanVideo_comfy_fp8_scaled SCAIL.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы благодарны Ai Verse Z.ai (zai-org) за SCAIL (официальная реализация) и teal024 за страницу проекта SCAIL за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

zai-org/SCAIL
- GitHub: zai-org/SCAIL
- Hugging Face: zai-org/SCAIL-Preview
- arXiv: arXiv:2512.05905
teal024/SCAIL Project Page
- Документы / Примечания к выпуску: Страница проекта
- GitHub: zai-org/SCAIL
- Hugging Face: zai-org/SCAIL-Preview
- arXiv: arXiv:2512.05905

Примечание: использование указанных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

Wan 2.2 | Лидер в открытой генерации видео

Доступно сейчас! Лучшая точность + более плавное движение.

Wan 2.2 + Lightx2v V2 | Сверхбыстрое I2V & T2V

Двойная настройка Light LoRA, в 4 раза быстрее.

Wan 2.2 Lightning T2V I2V | 4-шаговая ультрабыстрая

Wan 2.2 теперь в 20 раз быстрее! T2V + I2V в 4 шага.

Wan 2.2 FLF2V | Генерация видео из первого и последнего кадров

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.2 FLF2V.

Wan 2.2 Low Vram | Обёртка Kijai

Низкая видеопамять. Больше никакого ожидания. Обёртка Kijai включена.

Wan 2.2 Видео Перестиль | Перестиль первого кадра для последовательного и кинематографического создания видео

Измените первый кадр, друзья, ваш стиль делает всё видео потрясающим. Чистая магия.

SAM 3.1 ComfyUI | Родная сегментация и отслеживание

Невероятная точность для сегментации изображений и отслеживания объектов.

ChatterBox TTS ComfyUI | Генератор AI голосов

Создавайте реалистичные голоса быстро и легко на любом языке и в любом стиле.

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

Модель SCAIL | Создатель анимаций, управляемых позами