LongCat Аватар в ComfyUI | WanVideo Анимация с сохранением идентичности

LongCat Avatar in ComfyUI Workflow

Хотите запустить этот рабочий процесс?

Полностью функциональные рабочие процессы
Нет недостающих узлов или моделей
Не требуется ручная настройка
Отличается потрясающей визуализацией

LongCat Avatar in ComfyUI Examples

LongCat Аватар в ComfyUI: от одного изображения к видео говорящего аватара#

LongCat Аватар в ComfyUI преобразует одно эталонное изображение в видео аватара, управляемое аудио, с устойчивой идентичностью. Основан на обертке WanVideo от kijai, он фокусируется на согласованности лица, плавности движений и естественной синхронизации губ без тонкой настройки для каждого персонажа. Вы предоставляете одно изображение персонажа и аудио трек; рабочий процесс создает временно согласованное представление, подходящее для клипов с говорящей головой, стилизованных представлений персонажей и быстрых тестов движения аватара.

Создатели, которые хотят быстро повторять, найдут LongCat Аватар в ComfyUI прагматичным и надежным. Рабочий процесс использует модель LongCat с сохранением идентичности и схему генерации с окнами для расширения последовательностей, сохраняя стабильность выражений. Выходные данные собираются в видео с исходным аудио для легкого просмотра или публикации.

Примечание: На машинах 2XL или выше, пожалуйста, установите backend внимания на "sdpa" в узле WanVideo Model Loader. Стандартный backend segeattn может вызвать проблемы совместимости на высокопроизводительных GPU.

Основные модели в рабочем процессе Comfyui LongCat Аватар в ComfyUI#

Модель LongCat‑Avatar для WanVideo. Генерация изображений в видео с фокусом на идентичности, адаптированная для ComfyUI, обеспечивающая сильное сохранение персонажа на всех кадрах. См. релизы WanVideo Comfy от kijai на Hugging Face для контрольных точек и заметок. Hugging Face: Kijai/WanVideo_comfy
LongCat distill LoRA. Дистиллированная LoRA, усиливающая структуру лица и особенности идентичности во время выборки, улучшая стабильность при движении. Доступно с активами WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
Wan 2.1 VAE. Видео VAE используется для кодирования эталонного кадра(ов) в латенты и декодирования сгенерированных образцов обратно в изображения. Hugging Face: Kijai/WanVideo_comfy
UM‑T5 текстовый энкодер. Используется WanVideo для интерпретации текстовых подсказок, которые направляют описание сцены и стиль, сохраняя идентичность. Hugging Face: google/umt5‑xxl
Представления речи Wav2Vec 2.0. Обеспечивает надежные речевые характеристики, которые управляют движением губ и челюсти через встраивания MultiTalk. Фоновая статья: wav2vec 2.0. arXiv и совместимая модель: Hugging Face: TencentGameMate/chinese‑wav2vec2‑base
MelBandRoFormer вокальный сепаратор. Опциональное разделение вокала и музыки, чтобы модуль синхронизации губ получал более чистый речевой сигнал. Hugging Face: Kijai/MelBandRoFormer_comfy

Как использовать рабочий процесс Comfyui LongCat Аватар в ComfyUI#

Рабочий процесс состоит из трех основных фаз: модели и настройки, аудио к сигналам движения и эталонное изображение к видео с расширением окон. Он рендерится с фиксированной скоростью, предназначенной для движения, управляемого аудио, затем сшивает окна в бесшовный клип.

Модели
- WanVideoModelLoader (#122) загружает контрольную точку LongCat‑Avatar и LongCat distill LoRA, а WanVideoVAELoader (#129) предоставляет видео VAE. WanVideoSchedulerv2 (#325) подготавливает расписание выборки, используемое во время диффузии. Эти компоненты определяют точность, сохранение идентичности и общий вид. После настройки они выступают в качестве основы для всех последующих шагов выборки.
Аудио
- Загрузите голосовой трек с помощью LoadAudio (#125), при необходимости обрежьте с помощью TrimAudioDuration (#317) и отделите вокал с помощью MelBandRoFormerSampler (#302), чтобы уменьшить фоновый шум. MultiTalkWav2VecEmbeds (#194) преобразует очищенную речь во встраивания, которые управляют движением рта и тонкими динамиками головы. Эффективное количество кадров определяется длительностью аудио, поэтому более длинное аудио приводит к более длинным последовательностям. Аудиопоток позже мультиплексируется с изображениями на этапе объединения видео.
Входное изображение
- Добавьте изображение вашего персонажа с помощью LoadImage (#284). ImageResizeKJv2 (#281) изменяет его размер для модели, а WanVideoEncode (#312) превращает его в ref_latent, который закрепляет идентичность на всех кадрах. Этот латент является фиксированной ссылкой, которую конвейер LongCat Аватар в ComfyUI повторно использует, вводя изменяющееся во времени движение из аудио и подсказок.
Расширение окна 1
- WanVideoLongCatAvatarExtendEmbeds (#345) объединяет ref_latent с аудио встраиваниями для создания встраиваний изображений для первого окна. WanVideoSamplerv2 (#324) затем устраняет шум в латентах, создавая короткий клип. WanVideoDecode (#313) превращает их в изображения для предварительного просмотра и первого экспорта видео с помощью VHS_VideoCombine (#320). Размер окна и перекрытие отслеживаются внутренне, чтобы следующее окно могло выровняться без видимых швов.
Расширение окна 2
- Вторая группа расширения повторяет ту же идею, чтобы продолжить последовательность. WanVideoLongCatAvatarExtendEmbeds (#346, #461) вычисляет встраивания, обусловленные предыдущими латентами, с учетом текущего перекрытия. WanVideoSamplerv2 (#327, #456) генерирует следующий фрагмент, который декодируется и объединяется с ImageBatchExtendWithOverlap (#341, #460) для поддержания непрерывности. Дополнительные шаги расширения окна могут быть повторены для более длинных результатов, и каждый этап может быть экспортирован с помощью VHS_VideoCombine (#386, #453).

Основные узлы в рабочем процессе Comfyui LongCat Аватар в ComfyUI#

WanVideoModelLoader (#122)
- Загружает контрольную точку LongCat‑Avatar и присоединяет LongCat distill LoRA, определяя точность идентичности и поведение движения. Если вы используете более крупные экземпляры, переключите реализацию внимания для лучшей пропускной способности, как рекомендовано в обертке WanVideo. Репозиторий для справки: github.com/kijai/ComfyUI‑WanVideoWrapper.
MultiTalkWav2VecEmbeds (#194)
- Создает аудио‑управляемые встраивания из речи, которые направляют движение губ, челюсти и тонкие движения головы. Для более сильной артикуляции увеличьте влияние речи и рассмотрите возможность дополнительного прохода для более плотной синхронизации, когда ваше аудио очень четкое. Информация о фоновом модели: arXiv: wav2vec 2.0.
WanVideoLongCatAvatarExtendEmbeds (#346)
- Основной узел LongCat Аватар в ComfyUI, этот узел расширяет встраивания изображений во времени, оставаясь привязанным к эталонному латенту. Настройте длину окна и перекрытие, чтобы сбалансировать плавность, время выполнения и стабильность на более длинных клипах.
WanVideoSamplerv2 (#327)
- Выполняет процесс диффузии, используя модель, планировщик, текстовое руководство и встраивания изображений. Отрегулируйте силу руководства, чтобы сбалансировать следование подсказкам с вариацией; небольшие изменения могут иметь заметные эффекты на жесткость идентичности и движение.
VHS_VideoCombine (#320)
- Мультиплексирует отрендеренные кадры с оригинальным аудио в mp4 для легкого просмотра. Используйте встроенную опцию обрезки, когда вы хотите, чтобы визуальные эффекты заканчивались точно с аудио или экспортировались только последние окна.

Дополнительные возможности#

Убедитесь, что продолжительность аудио охватывает все запланированные окна расширения, чтобы избежать окончания речи в середине последовательности.
Для длинных клипов умеренно увеличьте размер окна и оставьте некоторое перекрытие, чтобы переходы оставались плавными; слишком маленькое перекрытие может вызвать щелчки, слишком большое может замедлить рендеринг.
Конвейер работает с фиксированной частотой кадров, привязанной к шагу, управляемому речью, что поддерживает синхронизацию губ во время экспорта.
Если вы используете тип большой машины, установите реализацию внимания в загрузчике модели на вариант, экономящий память, для улучшения скорости.
Не смешивайте несовместимые форматы моделей; держите основную модель и любые компоненты речи в одном семействе, как предоставлено в релизах WanVideo Comfy. Полезные центры моделей: Kijai/WanVideo_comfy и GGUF варианты, такие как city96/Wan2.1‑I2V‑14B‑480P‑gguf.

Благодарности#

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим Kijai за ComfyUI-WanVideoWrapper (LongCatAvatar workflow) и @Benji’s AI Playground создателя упомянутого видео на YouTube за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы#

YouTube/Видео инструкция
- Документы / Примечания к выпуску: Видео на YouTube от Benji’s AI Playground
Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
- GitHub: kijai/ComfyUI-WanVideoWrapper
- Документы / Примечания к выпуску: LongCatAvatar_testing_wip.json (ветка longcat_avatar)

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

Wan 2.1 | Революционное создание видео

Создавайте невероятные видео из текста или изображений с прорывным ИИ, работающим на повседневных ЦП.

Wan 2.1 LoRA

Улучшите генерацию видео Wan 2.1 с помощью моделей LoRA для улучшенного стиля и кастомизации.

Wan 2.1 Control LoRA | Глубина и Плитка

Усовершенствуйте генерацию видео Wan 2.1 с помощью легких глубинных и плиточных LoRA для улучшения структуры и деталей.

Janus-Pro | T2I + I2T Model

Janus-Pro: Продвинутая генерация Text-to-Image и Image-to-Text.

Wan FusionX | T2V+I2V+VACE Полное

Самое мощное решение для генерации видео! Детализация уровня кинотеатра, ваша личная киностудия.

Instagirl v.20 | Wan 2.2 LoRA Demo

Рабочий процесс Wan 2.2 для демонстрации Instagirl LoRA от Instara.

Расширенный живой портрет | Управление параметрами

Используйте настраиваемые параметры для управления каждой функцией, от моргания глаз до движений головы, для достижения естественных результатов.

IC-Light | Перезаписка видео | AnimateDiff

Перезаписывайте ваши видео с картами освещения и подсказками

Подписывайтесь на нас

Поддержка

Ресурсы

Юридическая информация

RunComfy

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.

LongCat Аватар в ComfyUI | Анимация аватара с сохранением идентичности