Dance Video Transform | Face Swap & Scene Customization

Что делает рабочий процесс Dance Video Transform ComfyUI#

Рабочий процесс Dance Video Transform ComfyUI преобразует танцевальные видео в потрясающие новые сцены с профессиональной заменой лиц, сохраняя оригинальную хореографию и обеспечивая высокое качество вывода. Процесс проходит поэтапно, от анализа движения до замены лица, позволяя проводить проверки качества на каждом этапе.

Как работает рабочий процесс Dance Video Transform ComfyUI#

Рабочий процесс преобразует ваше танцевальное видео, автоматизируя эти сложные преобразования через несколько этапов, требуя только ваше видео, изображение лица и описание сцены: Анализ движения → Передача стиля → Замена лица

Анализирует танцевальные движения и пространственную информацию
Преобразует сцену в соответствии с вашим описанием
Интегрирует новое лицо, сохраняя выражения

Ключевые особенности рабочего процесса Dance Video Transform ComfyUI#

Оптимизирован для вертикального формата (соотношение сторон 9:16)
Тройная система ControlNet для стабильных преобразований
Профессиональная замена лиц с естественным смешиванием
Быстрый тестовый режим (обработка 50 кадров за считанные минуты)
Поддержка вывода высокого разрешения (до 896 пикселей в высоту)
Продвинутое сохранение движения с использованием AnimateDiff
Двойная система вывода для проверки качества

Краткое руководство по началу работы#

Шаг 1: Начальная настройка#

В соответствующих узлах:

Загрузить видео (Upload):
- Загрузите 10-15 секундное танцевальное видео с соотношением сторон 9:16
- Если ваше видео не в формате 9:16, вам нужно будет настроить параметры Width и Height, чтобы они соответствовали вашему видео.
- Ограничение загрузки кадров: 50 (рендер только первых 50 кадров для быстрого теста)
Загрузить изображение:
- Загрузите четкую, фронтальную фотографию лица
Планирование пакетной подсказки:
- Кратко опишите сцену и любые другие аспекты, которые вы хотите преобразовать "0": "[человек] в майке KC Chiefs, одетый в синие джинсы и бейсболку, танцующий в раздевалке"
- Установите отрицательную подсказку по мере необходимости <img src="https://cdn.runcomfy.net/workflow_assets/1181/readme01.webp" alt="dance video transform" width="450"/> <img src="https://cdn.runcomfy.net/workflow_assets/1181/readme02.webp" alt="dance video transform" width="450"/> <img src="https://cdn.runcomfy.net/workflow_assets/1181/readme03.webp" alt="dance video transform" width="450"/>

Шаг 2: Быстрый тестовый запуск#

Нажмите "Queue Prompt"
Это обработает ~2 секунды видео
Вы увидите два вывода:
- Первый вывод: Только преобразование сцены
- Второй вывод: С примененной заменой лица

Шаг 3: Полная обработка видео#

Только после того, как быстрый тест выглядит хорошо:

Вернитесь к узлу "Load Video"
Измените Frame Load Cap на 0 для полного видео
Нажмите "Queue Prompt" для полной обработки (Это займет значительно больше времени)

Советы автора для начинающих#

Следуйте заметкам: Ищите любые заметки в интерфейсе — они будут направлять вас шаг за шагом
Не беспокойтесь о продвинутых настройках: В большинстве случаев вам не нужно настраивать что-либо за пределами упомянутого здесь
Важность соотношения сторон: Убедитесь, что соотношение сторон правильное, иначе видео может выглядеть растянутым или обрезанным

Справочник ключевых узлов#

Настройки AnimateDiff#

Узлы здесь создают плавное сохранение движения на протяжении всего преобразования видео. Опции контекста определяют, как кадры должны быть сгруппированы и обработаны, передавая эти настройки в AnimateDiff Loader, который затем применяет фактическое сохранение движения. Настройки длины контекста и перекрытия напрямую влияют на то, как AnimateDiff Loader поддерживает согласованность движения.

Узел контекстных опций (#94): Достигает группировки кадров и управления временной обработкой для согласованного движения.
- context_length:
  - Управляет количеством обрабатываемых вместе кадров
  - Больше = более плавное, но большее использование VRAM
  - Меньше = быстрее, но может потерять согласованность движения
- context_overlap:
  - Обрабатывает плавность переходов между кадрами
  - Больше = лучшее смешивание, но более медленная обработка
  - Меньше = быстрее, но могут появиться разрывы в переходах
- context_schedule:
  - Управляет распределением кадров
  - "uniform" лучше всего подходит для танцевальных движений
  - Не изменяйте, если нет специфических нужд
- closed_loop:
  - Управляет поведением видео цикла
  - True только для идеально цикличных видео
Узел AnimateDiff Loader (#93): Реализует сохранение движения с использованием модели AnimateDiff и применяет временную согласованность.
- motion_scale:
  - Управляет силой движения
  - Больше: Преувеличенное движение
  - Меньше: Сдержанное движение
- beta_schedule: lcm >> sqrt_linear
  - Управляет поведением выборки
  - Оптимизировано для этого рабочего процесса
  - Не изменяйте, если нет необходимости

Стек ControlNet#

Узлы здесь поддерживают целостность видео через трехслойную систему руководства. Три ControlNet обрабатывают входные кадры одновременно, каждый фокусируется на разных аспектах. Soft Edge обеспечивает базовую структуру, Depth добавляет пространственное понимание, а OpenPose обеспечивает точность движения. Результаты комбинируются через стекеры с общей силой, не превышающей 1.4 для стабильности.

Soft Edge ControlNet: Извлекает и сохраняет структурные элементы и формы из оригинальных кадров.
- Strength:
  - Управляет сохранением структуры
  - Больше = более сильное соблюдение оригинальных форм
  - Меньше = больше свободы в изменении форм
- End percent:
  - Когда влияние контроля заканчивается
  - Больше = более долгое влияние на протяжении процесса
  - Меньше = позволяет больше отклонений на поздних этапах
Depth ControlNet: Обрабатывает пространственные отношения и поддерживает 3D согласованность.
- Strength:
  - Управляет осведомленностью о пространстве
  - Больше = более сильная 3D согласованность
  - Меньше = больше художественной свободы с пространством
- End percent:
  - Поддерживает длительность влияния глубины
  - Должно совпадать с Soft Edge для согласованности
OpenPose ControlNet: Захватывает и передает информацию о позе для точного движения.
- Strength:
  - Управляет сохранением позы
  - Больше = более строгое следование позе
  - Меньше = более гибкая интерпретация позы
- End percent:
  - Поддерживает влияние позы
  - Сохраняет движение естественным на протяжении процесса

Обработка лиц#

Узлы здесь обрабатывают замену лица и улучшение для естественных результатов. Процесс работает в два этапа: FaceRestore сначала улучшает качество оригинального лица, затем ReActor выполняет замену, используя улучшенное лицо в качестве эталона. Этот двухэтапный процесс обеспечивает естественную интеграцию при сохранении выражений.

Система FaceRestore: Улучшает детали лица и подготавливает для замены.
- Fidelity:
  - Управляет сохранением деталей в восстановлении
  - Больше = более детализированно, но возможны артефакты
  - Меньше = более плавно, но может потерять детали
- Detection:
  - Выбор модели обнаружения лиц
  - Надежно для большинства сценариев
  - Не изменяйте, если лица не обнаружены
ReActor Face Swap: Выполняет замену лица и смешивание с сохраненными выражениями.
- Visibility:
  - Управляет видимостью замены
  - Больше = более сильный эффект замены лица
  - Меньше = более тонкое смешивание
- Weight:
  - Баланс сохранения черт лица
  - Больше = более сильные черты исходного лица
  - Меньше = лучшее смешивание с целью
- Console log level:
  - Управляет информацией отладки
  - Больше = более подробные журналы

Дополнительные детали узлов#

Ввод и предобработка#

Цель: Загружает видео, настраивает размеры и подготавливает модель VAE для обработки.

Загрузить видео:
- Frame Load Cap:
  - Управляет количеством обрабатываемых кадров
  - 50 = быстрый тест (обработка ~2 секунд)
  - 0 = обработка всего видео
  - Влияет на общее время обработки
- Skip First Frames:
  - Определяет начальную точку в видео
  - Больше = начинается позже в видео
  - Полезно для пропуска вступлений
- Select Every Nth:
  - Управляет частотой выборки кадров
  - Более высокие числа пропускают кадры
  - 1 = использовать каждый кадр
  - 2 = использовать каждый второй кадр и т.д.
Масштаб изображения:
- Width: 512
  - Управляет шириной выходного кадра
  - Должно поддерживать соотношение 9:16 с высотой
- Height: 896
  - Управляет высотой выходного кадра
  - Должно поддерживать соотношение 9:16 с шириной
- Method: nearest-exact
  - Лучшее для сохранения четкости
  - Альтернативы могут размыть контент
  - Рекомендуется для танцевальных видео
  - Не изменяйте, если нет специфических нужд
VAE Loader:
- Model: vae-ft-mse-840000-ema-pruned
  - Оптимизировано для стабильности и качества
  - Обрабатывает кодирование/декодирование изображений
  - Сбалансированное соотношение сжатия
  - Не изменяйте, если нет специфических нужд
- VAE Mode: Не изменяйте
  - Оптимизировано для текущего рабочего процесса
  - Влияет на качество кодирования

Обработка латентного пространства#

Цель: Обрабатывает все операции и преобразования в латентном пространстве.

Empty Latent Image:
- Width/Height: соответствует вводу
  - Должно соответствовать размерам Image Scale
  - Прямо влияет на использование памяти
  - Большие размеры требуют больше VRAM
  - Не может быть меньше, чем ввод
- Batch Size: из видеокадров
  - Устанавливается автоматически по количеству кадров
  - Влияет на скорость обработки и VRAM
  - Больше = нужно больше памяти
VAE Encode:
- VAE Model: из VAE Loader
  - Использует настройки из VAE Loader
  - Поддерживает согласованность
- Decode: включено
  - Управляет качеством декодирования
  - Отключите только при ограниченном VRAM
  - Влияет на качество вывода
Latent Blend:
- Blend Factor:
  - Управляет смешиванием латентных пространств
  - 0 = полное исходное содержание
  - Больше = большее влияние пустого латента
  - Влияет на силу переноса стиля
Latent Upscale By:
- Method: nearest-exact
  - Лучшее для сохранения четкости
  - Альтернативные методы могут размыть
  - Сохраняет детали движения
- Scale:
  - Управляет увеличением размера
  - Больше = лучше детализация, но больше VRAM
  - Меньше = быстрее обработка
  - 1.6 оптимально для большинства случаев

Выборка и уточнение#

Цель: Двухэтапный процесс выборки для качественного преобразования.

KSampler (Первый проход):
- Steps:
  - Количество шагов денойзинга
  - Больше = лучше качество, но медленнее
  - 6 оптимально для lcm sampler
- CFG:
  - Управляет влиянием подсказки
  - Больше = сильнее соблюдение стиля
  - Меньше = больше свободы
- Sampler: lcm
  - Оптимизировано для скорости
  - Хороший баланс качества и скорости
- Scheduler: sgm_uniform
  - Лучше всего работает с lcm
  - Поддерживает временную согласованность
- Denoise:
  - Полная сила для первого прохода
  - Управляет интенсивностью преобразования
KSampler (Hires Pass):
- Steps:
  - Соответствует первому проходу для согласованности
  - Больше не нужно для уточнения
- CFG:
  - Поддерживает согласованность стиля
  - Сбалансированное сохранение деталей
- Sampler: lcm
  - Такой же, как первый проход
  - Поддерживает согласованность
- Scheduler: sgm_uniform
  - Поддерживает согласованность с первым проходом
  - Хорош для уточнения деталей
- Denoise:
  - Меньше, чем первый проход
  - Сохраняет больше оригинальных деталей
  - Хороший баланс для уточнения

Обработка вывода#

Цель: Создает финальные видео выходы с и без замены лица.

Видео объединение (Raw):
- Frame Rate:
  - Стандартная частота кадров видео
  - Управляет скоростью воспроизведения
  - Меньше = меньший размер файла
  - Больше = более плавное движение
- Format: video/h264-mp4
  - Стандартный формат для совместимости
  - Хороший баланс качества и размера
  - Широко поддерживается

json

CRF:
Управляет качеством сжатия
Меньше = лучше качество, но больше размер файла
Больше = меньший размер файла, но ниже качество
19 — высокое качество
Pixel Format: yuv420p
Стандартный формат для совместимости
Не изменяйте, если нет необходимости
Обеспечивает широкую поддержку воспроизведения

Видео объединение (Face Swap):
- Те же параметры, что и для необработанного вывода
- Использует идентичные настройки для согласованности
- Добавляет интеграцию замены лица
- Поддерживает настройки качества видео

Советы по оптимизации#

Компромиссы между качеством и скоростью#

Баланс разрешения:
- Стандарт: 512x896
  - Быстрая обработка
  - Хорошо для большинства применений
- Высокое качество: 768x1344
  - Лучшая детализация
  - В 2-3 раза дольше время обработки
Качество замены лица:
- Стандарт: настройки по умолчанию
  - Естественная интеграция
  - Сбалансированное время обработки
- Максимальное качество:
  - Увеличьте codeformer_fidelity до 0.9
  - Медленнее, но более детализированные лица
Плавность движения:
- Быстрая обработка:
  - Уменьшите context_overlap до 2
  - Менее плавные переходы
- Лучшее движение:
  - Увеличьте перекрытие до 6
  - Использует больше VRAM, медленнее обработка

Общие проблемы и решения#

Смешивание лиц:
- Проблема: Неестественный переход лица
- Решение: Настройте codeformer_weight
  - Попробуйте диапазон 0.4-0.7
  - Меньше = лучшее смешивание
  - Больше = больше деталей лица
Сила стиля:
- Проблема: Слабая передача стиля
- Решение: Увеличьте cfg
  - Попробуйте диапазон 7-8
  - Больше = сильнее стиль
  - Может повлиять на качество движения
Управление памятью:
- Проблема: Ограничения VRAM
- Решения:
  - Включите нарезку VAE
  - Уменьшите разрешение
  - Обрабатывайте более короткие сегменты

Дополнительная информация#

Для получения дополнительной информации и удивительных творений, пожалуйста, посетите Instagram junkboxai.

Dance Video Transform | Scene Customization & Face Swap

ComfyUI Dance Video Transform Workflow

ComfyUI Dance Video Transform Examples