SCAIL 2 Многофункциональная передача действий: многоперсонажная передача движения с сохранением идентичности для ComfyUI#
Этот рабочий процесс обеспечивает передачу действий SCAIL 2: он берет управляющее видео и переносит действия на одного или нескольких ссылочных персонажей, сохраняя визуальную идентичность каждого субъекта. Поддерживает передачу движения и полную замену персонажей, обрабатывает многократные ссылки на идентичность изображений и создает согласованные многоперсонажные сцены, подходящие для повествования, диалогов и групповых представлений.
Основан на генерации видео Wan 2.1 с встраиваниями SCAIL_2, направлением CLIP Vision и масками ролей на основе сегментации, конвейер фокусируется на согласованной идентичности, естественных движениях и управляемых взаимодействиях в пределах всего клипа.
Ключевые модели в рабочем процессе передачи действий Comfyui SCAIL 2#
- Генератор видео Wan 2.1 через ComfyUI-WanVideoWrapper. Генератор синтезирует кадры видео из встраиваний изображений SCAIL_2, визуальной настройки и текстовых подсказок, обрабатывая длинные контексты и эффективное использование памяти. GitHub
- Кодировщик CLIP Vision. Обеспечивает надежные визуальные встраивания из основного ссылочного изображения или коллажа для управления идентичностью и внешностью во время генерации. Смотрите статью CLIP для получения информации о обучении представлений изображения-текста. arXiv
- Кодировщик текста семейства mT5. Кодирует положительные и отрицательные подсказки, используемые для смещения содержания в сторону нужных субъектов и действий на всех кадрах. arXiv
- Сегментация в стиле Segment Anything для отслеживания объектов в видео. Рабочий процесс использует контрольную точку семейства SAM для обнаружения и отслеживания субъектов и создания масок для ролей, которые управляют передачей действий для нескольких персонажей. Фон по сегментации SAM: GitHub
- Адаптеры LoRA. Дополнительные адаптеры специализируют генератор для сохранения идентичности и точности действий без повторного обучения полной модели. Фон по настройке LoRA: arXiv
- Утилиты FeiHou Toolbox. Утилиты для коллажа и масок облегчают многократные ссылки на идентичность изображений и цветные, осведомленные о ролях маски для SCAIL 2. GitHub
- Утилиты изображений KJNodes. Высококачественное изменение размера согласовывает входные данные и маски с размерами видео для стабильной выборки. GitHub
Как использовать рабочий процесс передачи действий Comfyui SCAIL 2#
Рабочий процесс имеет четыре основных этапа: загрузка активов и генератора, создание многоролевых ссылок и масок, компиляция встраиваний SCAIL_2, затем выборка и экспорт конечного видео. Группы выполняются сверху вниз, с полезными превью на каждом этапе.
Зона загрузки моделей#
Эта зона подготавливает основу Wan 2.1 и его VAE. Используйте WanAnimatePlus ModelLoader (#37), чтобы выбрать базовую модель и точность, и WanAnimatePlus VAELoader (#71) для соответствующего VAE. Если вы планируете дополнительно смещать идентичность или движение, добавьте адаптеры с помощью WanAnimatePlus LoraSelectMulti (#66), затем примените их к модели через WanAnimatePlus SetLoRAs (#69). Дополнительные WanVideoTorchCompileSettings (#72) могут снизить задержку, компилируя блоки внимания.
Загрузка одного изображения#
Предоставьте основное изображение идентичности с помощью LoadImage в группе загрузки одного изображения. Эта картинка закрепляет внешний вид вашего основного субъекта. Если вы предпочитаете создать коллаж из нескольких идентичностей или ролей, переключитесь в группе Quick Toggle, чтобы маршрутизировать из ввода коллажа вместо одного изображения.
Ввод коллажа#
Используйте AutoRefCollage (#370), чтобы собрать несколько ссылочных изображений в одну компоновку, автоматически обнаруживая людей и размещая обрезки на чистом холсте. Коллаж действует как доска идентичности для нескольких ролей: каждый субъект вносит внешние подсказки для этапа передачи действий SCAIL 2. Узел превью показывает собранный коллаж, чтобы вы могли проверить кадрирование перед продолжением.
Ссылка на несколько изображений#
Здесь вы также можете загрузить три или более отобранных портрета с помощью LoadImage и упаковать их, используя ImageBatchMulti (#331). ImageResizeKJv2 согласовывает их размер с предполагаемым разрешением видео. Этот путь полезен, когда вы хотите более жестко контролировать, какие идентичности и углы информируют модель внешности.
Загрузка видео#
VHS_LoadVideo (#297) загружает управляющее видео и аудио. Вы можете принудительно задать целевую частоту кадров для более плавного движения, ограничить общее количество кадров для ограничения длительности, пропустить вступительный сегмент или выбрать каждый N-й кадр для более быстрого итерационного тестирования. Отдельный подпроцесс "Reference Video Preview" объединяет и воспроизводит загруженные кадры, чтобы вы могли подтвердить, что клип выглядит правильно перед отслеживанием.
Зона масок#
Рабочий процесс обнаруживает и отслеживает субъекты для создания масок, осведомленных о ролях, которые питают передачу действий SCAIL 2. Три узла SAM3_VideoTrack (#315, #316, #306) отслеживают объекты в управляющем видео, ссылочных изображениях и дополнительных кадрах-префиксах. SCAIL2ColoredMaskV2 (#354) объединяет эти треки в три вывода: видео-маску позы, цветную маску ссылочного изображения и префиксную маску для теплых стартов. Превью для одно- и многоролевых масок помогают вам проверить, что каждый цвет соответствует правильному персонажу перед выборкой.
Передача движения - обработка встраиваний#
WanAnimatePlus SCAIL_2 Embeds (#342) преобразует ваши входные данные в встраивания изображений SCAIL_2, используемые генератором. Он объединяет функции VAE, встраивания CLIP Vision, ваше ссылочное изображение или коллаж, замену фона (опционально), отслеженные кадры позы и цветные маски. Вы можете запустить в двух режимах: передача движения (используйте ссылочную внешность с управляющим движением) или замена персонажа (замените человека в входном видео вашей ссылкой). Также существуют опции для сохранения основного ссылочного фона и обрезки или мозаики префиксных кадров для длинных или высокоразрешенных запусков.
Зона выборки#
WanVideoTextEncodeCached кодирует подсказки, а WanVideoContextOptions (#290) управляет временными окнами на всех кадрах. WanAnimatePlus SamplerSettings (#332) собирает модель, встраивания изображений SCAIL_2 и текстовые встраивания вместе с гиперпараметрами выборки и расписанием; WanAnimatePlus SamplerFromSettings (#311) выполняет генерацию. WanAnimatePlus Decode (#267) преобразует латенты в кадры; вы можете включить мозаичное декодирование VAE здесь, если у вас есть ограничения памяти. Видео завершается через VHS_VideoCombine и экспортируется из зоны превью; сопутствующее объединение может экспортировать клип только с маской для быстрой отладки.
Быстрое переключение и размеры видео#
Переключатель "true = Замена персонажа | false = Передача движения" (#341) мгновенно изменяет, как роли обрабатываются дальше. Константы ширины и высоты подают все узлы изменения размера и масок, чтобы формы оставались согласованными. FastGroupsBypassSwitch (#351) позволяет вам переключаться между вводом одного изображения и коллажа без перенастройки.
Ключевые узлы в рабочем процессе передачи действий Comfyui SCAIL 2#
SCAIL2ColoredMaskV2 (#354)#
Создает маски, осведомленные о ролях, путем объединения треков объектов из управляющего видео, ссылочных изображений и дополнительных кадров-префиксов. Используйте object_indices, чтобы выбрать, какие отслеженные идентификаторы становятся ролями и prefix_mask_mode, чтобы указать одно- или многокрасочную компоновку, когда вы управляете несколькими персонажами одновременно. Сохраняйте replacement_mode согласованным с глобальным переключателем, чтобы семантика маски соответствовала этапу встраивания.
WanAnimatePlus SCAIL_2 Embeds (#342)#
Объединяет VAE, CLIP Vision, многократные ссылки на изображения, кадры позы и маски в встраивания SCAIL_2 для генератора. Увеличьте ref_strength, когда идентичность отклоняется; увеличьте pose_strength, когда точность движения низка. Для сцен, которые должны сохранить ссылочный фон, включите сохранение фона; при запуске с одного префиксного кадра включите кодирование префикса для одного кадра.
SAM3_VideoTrack (#315, #316, #306)#
Обнаруживает и отслеживает субъекты на кадрах для подачи в генератор масок. Если вы недостаточно обнаруживаете персонажей, понизьте detection_threshold или разрешите больше max_objects; если отслеживание шумное, увеличьте detect_interval, чтобы уменьшить дрожание переобнаружения. Всегда проверяйте превью цветной маски, чтобы убедиться, что каждая роль остается стабильной с течением времени.
VHS_LoadVideo (#297)#
Управляет управляющим клипом. force_rate устанавливает рабочую частоту кадров, frame_load_cap ограничивает длительность, skip_first_frames обрезает вступления, и select_every_nth позволяет вам подвыбирать кадры для более быстрых тестов. Эти настройки напрямую влияют на контекстные окна и память, поэтому настройте их перед выборкой.
WanAnimatePlus SamplerSettings (#332)#
Содержит основные ручки генерации. steps, scheduler и cfg управляют детализацией, плавностью и соответствием подсказкам; denoise_strength регулирует, насколько SCAIL_2 может изменять кадры. Используйте вход seed для воспроизводимости при уточнении многоперсонажных сцен.
WanAnimatePlus BlockSwap (#67)#
Дополнительный инструмент для экономии памяти, который меняет вычислительные блоки во время выборки. При жестких бюджетах VRAM или длинных диапазонах кадров увеличьте обмен, чтобы предотвратить ошибки из-за нехватки памяти; на GPU с высоким VRAM уменьшите или отключите его для скорости.
WanAnimatePlus Decode (#267)#
Декодирует латенты в RGB кадры. Если ваше разрешение или длина клипа высоки и декодирование вызывает ошибки из-за нехватки памяти, включите мозаичное декодирование VAE и установите соответствующие размеры и шаги плиток, чтобы плитки перекрывались чисто.
Дополнительные элементы#
- Для многоперсонажных клипов предоставьте каждой роли хотя бы один чистый, анфасный портрет и держите освещение согласованным по всему коллажу.
- Начните с режима передачи движения, чтобы проверить маски и качество движения, затем переключитесь на замену персонажа, если вам нужно полностью заменить исполнителя.
- Используйте предварительный просмотр видео только с маской, чтобы подтвердить назначение ролей и стабильность цвета перед долгой рендерингом.
- Держите все входные данные согласованными по ширине и высоте; используйте предоставленные узлы изменения размера, а не внешние инструменты, чтобы избежать тонких несовпадений форм.
- Если результаты выглядят чрезмерно стилизованными или не соответствуют идентичности, уменьшите силу подсказок и увеличьте акцент на ссылке на этапе встраивания; отрегулируйте смесь LoRA, если вы включили адаптеры.
- Длинные клипы выигрывают от больших контекстных окон в
WanVideoContextOptions; уравновешивайте это с памятью, включая мозаичное декодирование VAE и, если необходимо, умеренный обмен блоками.
Этот рабочий процесс передачи действий SCAIL 2 разработан для того, чтобы сделать передачу движения для нескольких ролей повторяемой и предсказуемой: подготовьте четкие ссылки, проверьте маски, затем выберите с устойчивыми настройками для идентичной, естественной передачи движения между персонажами.
Благодарности#
Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы с благодарностью признаем SCAIL 2 за рабочий процесс передачи действий SCAIL 2 и его вклад и обслуживание. Для получения авторитетной информации, пожалуйста, обращайтесь к оригинальной документации и репозиториям, приведенным ниже.
Ресурсы#
- SCAIL 2/SCAIL 2 Multi-role Reference Action Transfer Workflow Source
- Документация / Примечания к выпуску: SCAIL 2 Multi-role Reference Action Transfer Workflow Source
Примечание: использование указанных моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими организациями.


