ComfyUI>Рабочие процессы>SCAIL-2 Перенос Движения | Создатель Длинных Видео

SCAIL-2 Перенос Движения | Создатель Длинных Видео

Workflow Name: RunComfy/SCAIL-2-MotionTransfer
Workflow ID: 0000...1444
Этот рабочий процесс помогает преобразовать одно референсное фото в расширенные видеоролики, которые сохраняют идентичность и стиль персонажа с исключительной точностью. Он выравнивает ваше изображение с динамичным движением, обеспечивая постоянную детализацию от кадра к кадру. Вы получаете контроль над освещением, маскированием и адаптацией сцены, используя продвинутое видео кондиционирование и ускорение LightX2V. Идеально подходит для демонстрации тестов модного движения, прототипов редакционного характера или анимационных роликов с фокусом на идентичность. Подходит для создателей, стремящихся к детализированному контролю с минимальной ручной ретушью и профессиональным результатом.

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Workflow

SCAIL-2 Motion Transfer in ComfyUI | Reference Image to Video
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI SCAIL-2 character motion transfer, reference image to long video workflow, Western editorial market example Examples

Перенос движения персонажа SCAIL-2: рабочий процесс от изображения к длинному видео#

Этот конвейер ComfyUI превращает одно референсное изображение в длинное, идентично верное представление персонажа, заимствуя движение из управляющего видео. Основан на пути SCAIL-2 Wan 2.1 14B с кондиционированием CLIP Vision, маскированием на основе SAM и ускорением LightX2V, оптимизирован для стабильности на длинных последовательностях и легкой боковой инспекции. Это практический рабочий процесс переноса движения персонажа SCAIL-2 от референсного изображения к длинному видео для создателей, которым нужна консистентность идентичности, гардероба и стиля на сотнях кадров.

Используйте его для создания тестов движения в стиле каталога, демонстраций от изображения к видео и примеров для западного редакционного рынка. Рабочий процесс поддерживает опциональное руководство по переосвещению, чтобы субъект мог быть гармонизирован с управляющей сценой, сохраняя при этом детали лица и одежды в соответствии с вашим референсным изображением.

Ключевые модели в рабочем процессе переноса движения персонажа SCAIL-2 в ComfyUI#

  • SCAIL-2 на Wan 2.1 14B. Основное видеодиффузионное ядро с учетом идентичности, используемое для переноса движения. Рабочий процесс загружает веса SCAIL-2 14B, упакованные для ComfyUI, и сочетает их с Wan VAE для реконструкции. См. коллекцию моделей в Comfy-Org/SCAIL-2 и обзор метода в zai-org/SCAIL.
  • OpenCLIP ViT-H/14 для CLIP Vision. Извлекает надежные встраивания идентичности и внешности из референсного изображения для кондиционирования генерации, улучшая верность персонажа на всех кадрах. Семейство референсных моделей: laion/CLIP-ViT-H-14-laion2B-s32B-b79K.
  • Семейство Segment Anything (SAM). Предоставляет маски человека и треки на кадр, которые локализуют субъект как в управляющем видео, так и в референсном изображении, позволяя целенаправленное кондиционирование. Референс проекта: facebookresearch/segment-anything.
  • LightX2V LoRA и WanAnimate Relight LoRA. Опциональные адаптеры, которые загружает рабочий процесс для ускорения вывода от кадра к кадру и предлагают руководство по переосвещению, чтобы переданный персонаж соответствовал освещению управляющего клипа.

Как использовать рабочий процесс переноса движения персонажа SCAIL-2 в ComfyUI#

На высоком уровне вы предоставляете одно референсное изображение и одно управляющее видео. Группа сегментации находит и маскирует человека в обоих источниках, CLIP Vision кодирует референсную идентичность, первый проход генерирует начальный сегмент, а цикл мульти-проходов прокатывает эту логику сегментации по всей временной шкале, чтобы доставить длинное, связное видео. Панели предварительного просмотра бок о бок упрощают проверку соответствия идентичности и позы.

Модели#

Эта группа инициализирует основные модели и опциональные адаптеры. UNet загружает контрольную точку SCAIL-2 Wan 2.1 14B, а VAE обрабатывает латентное декодирование для видеокадров. Рабочий процесс также загружает CLIP Vision для встраиваний идентичности и два адаптера LoRA: LightX2V для скорости и WanAnimate Relight для руководства по освещению. Текстовые подсказки кодируются текстовым стеком Wan, чтобы подталкивать сцену и тон, что удобно при создании примера для западного редакционного рынка.

Параметры#

Используйте группу параметров, чтобы установить контроль проекта. Разрешение раскрыто, чтобы вы могли выбрать быструю базовую линию или более четкую настройку, соответствующую вашему бюджету GPU. Частота кадров определяет, как управляющее видео отсамплировано и как выход закодирован для воспроизведения. Длина сегмента определяет, сколько кадров содержит каждый фрагмент вывода, что сохраняет память предсказуемой на длинных временных шкалах. Доступен окончательный лимит кадров, чтобы ограничить обработку во время разработки вида перед запуском полного клипа.

Сегментация#

Группа сегментации подготавливает чистое, целенаправленное руководство для переноса движения. VHS_LoadVideo (#33) импортирует управляющее видео, и кадры изменяются на ваш выбранный размер, чтобы они соответствовали пути SCAIL-2. Два трекера, SAM3_VideoTrack (#85) для видео позы и SAM3_VideoTrack (#91) для референса, запускают обнаружение человека, направляемое простым текстовым кондиционированием "person", чтобы увеличить отзыв. SCAIL2ColoredMask (#104) объединяет треки в две согласованные маски, одну для видео позы и одну для референсного изображения, которые узлы генерации используют, чтобы сосредоточить правки на субъекте.

Первый проход#

Первый проход загружает последовательность и устанавливает блокировку идентичности. CLIPVisionEncode (#76) извлекает встраивания из референсного изображения, затем WanSCAILToVideo (#114) комбинирует эти встраивания с видео позы и двумя масками, чтобы создать латентную последовательность для первого сегмента. Простая стопка сэмплеров SamplerCustom (#19) с BasicScheduler (#18) рендерит эту латентную в изображения, декодированные VAEDecode (#6). Этот проход также раскрывает смещение кадров, которое стадия мульти-проходов использует для выравнивания последующих фрагментов.

Мульти-проход#

Группа мульти-проходов масштабирует запуск до длинных видео, не теряя последовательности. Пара for-циклов, easy forLoopStart (#233) и easy forLoopEnd (#234), итеративно проходит по всей временной шкале в фиксированных сегментах, передавая декодированные кадры вперед как временной контекст. WanSCAILToVideo (#115) потребляет этот контекст через вход previous_frames, улучшая непрерывность лица, волос и гардероба через границы сегментов. Стопка сэмплеров SamplerCustom (#63) управляется выбранным вами сэмплером и расписанием сигмы, чтобы вы могли балансировать скорость и приверженность, а VAEDecode (#66) возвращает каждый фрагмент в виде изображений. Затем рабочий процесс сшивает диапазоны вместе и подготавливает их для экспорта.

Маска#

Группа масок направляет маски человека, вычисленные в Сегментации, так чтобы как узлы Первого прохода, так и мульти-проходов получали правильные области субъекта. Get_pose_video_mask (#122) и Get_reference_image_mask (#120) обеспечивают, чтобы перенос стиля и сохранение идентичности применялись точно там, где это необходимо, снижая дрейф фона и защищая детали сцены за пределами субъекта.

Включить замену персонажа#

Эта группа позволяет переключаться между переносом идентичности с учетом оригинального фона и полной заменой переднего плана. easy imageRemBg (#204) удаляет фон с референсного изображения, а ImpactConditionalBranch (#270) переключает, используется ли очищенный передний план дальше. Включите его, когда хотите строгую замену персонажа, что полезно для тестов в стиле каталога или примера для западного редакционного рынка, где субъект должен соответствовать стандартному виду.

Предварительный просмотр и экспорт#

Рабочий процесс предлагает визуализацию бок о бок и окончательные рендеры. ImageConcatMulti (#153) создает быструю панель, показывающую кадры позы и референсное изображение для проверки здравого смысла. Другой ImageConcatMulti (#72) может отображать вывод модели рядом с входными данными для QA по кадру. Окончательные видео записываются VHS_VideoCombine (#71) и VHS_VideoCombine (#236), которые могут включать аудио из источника, если это необходимо, чтобы обзоры оставались верными по времени.

Ключевые узлы в рабочем процессе переноса движения персонажа SCAIL-2 в ComfyUI#

WanSCAILToVideo (#114)#

Генерирует начальный латентный сегмент, объединяя кадры позы, маски субъекта и встраивания идентичности CLIP Vision из референсного изображения. Настройте pose_strength, чтобы сбалансировать между точным копированием движения и позволением тонкой адаптации стиля. Используйте length, чтобы соответствовать размеру вашего сегмента, чтобы сэмплер обрабатывал предсказуемый фрагмент каждый проход. Если вы строго заменяете человека на экране, установите replacement_mode, чтобы предпочесть идентичность над стилем фона. Поддерживается SCAIL-2 на Wan 2.1 14B, как упаковано в Comfy-Org/SCAIL-2 с контекстом метода из zai-org/SCAIL.

WanSCAILToVideo (#115)#

Запускается в цикле, чтобы покрыть оставшуюся часть временной шкалы с улучшенной временной стабильностью. Предоставьте previous_frames из предыдущего сегмента, чтобы помочь модели сохранять детали одежды и идентичность лица через границы. video_frame_offset и previous_frame_count держат сегменты в синхронизации с управляющим клипом. Когда включено руководство по переосвещению через LoRA, немного усиливайте соответствие стиля в этом проходе, чтобы гармонизировать глобальное освещение.

SAM3_VideoTrack (#85, #91)#

Обнаруживает и отслеживает человека как в видео позы, так и в референсном изображении. Текстовое кондиционирование "person" улучшает надежность, когда присутствует несколько объектов. Если трекер дрейфует, увеличьте уверенность в обнаружении или ограничьте max_objects, чтобы один и тот же субъект был выбран на протяжении всего времени. Концепция отслеживания следует семейству Segment Anything, см. facebookresearch/segment-anything для фона.

CLIPVisionEncode (#76)#

Создает встраивание идентичности, которое кондиционирует каждый кадр. Для референсов с головой и плечами держите crop на нейтральном выборе, чтобы энкодер видел весь силуэт и наряд. Если субъект маленький в кадре, подготовьте более плотное референсное изображение вместо чрезмерного обрезания в узле. Этот узел полагается на функции стилизованного видения OpenCLIP ViT-H/14, как в laion/CLIP-ViT-H-14-laion2B-s32B-b79K.

VHS_LoadVideo (#33)#

Импортирует и, при необходимости, ресэмплирует управляющее видео для согласованного времени. Соответствуйте force_rate желаемому выходному ритму, затем держите его постоянным во время разработки вида, чтобы получить сопоставимые результаты между итерациями. Используйте опциональный лимит кадров во время тестирования, чтобы ускорить обороты, затем снимите его для окончательных рендеров.

Опциональные дополнения#

  • Для быстрых итераций выберите портретное разрешение, затем увеличьте его при утверждении окончательных результатов. Рабочий процесс настроен для типичных настроек 9:16, с более высокой опцией, доступной, когда память GPU позволяет.
  • Пишите подсказки, которые описывают гардероб, возраст и обстановку простым языком, чтобы соответствовать нормам примеров для западного редакционного рынка, например "человек средних лет в синем свитере на яркой кухне".
  • Если наряд субъекта должен быть точным, уменьшите художественные подсказки и увеличьте зависимость от маскирования, чтобы система приоритизировала одежду и цвет по сравнению с настроением фона.
  • Используйте замену персонажа, когда хотите строгую замену человека на экране. Оставьте это выключенным, когда хотите, чтобы модель мягко гармонизировала персонажа со сценой.
  • Избегайте сильных перекрытий или быстрых переходов в управляющем видео. Умеренное движение камеры и чистое, фронтальное движение обеспечивают наиболее стабильный перенос идентичности.
  • При добавлении руководства по переосвещению начните консервативно, чтобы оттенки кожи и материалы оставались естественными, при этом соответствуя направлению освещения сцены.

Признания#

Этот рабочий процесс реализует и строит на основе следующих работ и ресурсов. Мы выражаем благодарность zai-org и teal024 за SCAIL/SCAIL-2, Comfy-Org за файлы моделей SCAIL-2 и контрольную точку Wan 2.1 14B FP8, а также командам RunningHub и RunComfy за ссылки на рабочие процессы и рабочий процесс облачного сохранения за их вклад и поддержку. Для авторитетных подробностей, пожалуйста, обратитесь к оригинальной документации и репозиториям, приведенным ниже.

Ресурсы#

Примечание: использование упомянутых моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.