logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>LongCat Аватар в ComfyUI | Анимация аватара с сохранением идентичности

LongCat Аватар в ComfyUI | Анимация аватара с сохранением идентичности

Workflow Name: RunComfy/LongCat-Avatar-in-ComfyUI
Workflow ID: 0000...1327
Используя фреймворк WanVideo, этот мощный рабочий процесс превращает одно статическое изображение в плавные и выразительные анимированные аватары. Вы можете сохранять идентичность персонажа и целостность лица на каждом кадре. Это позволяет быстро и стабильно прототипировать анимации с минимальной настройкой. Идеально подходит для тестирования стилей аватара или идей движения, эта система сохраняет каждую анимацию последовательной и эмоционально вовлекающей. Прекрасно подходит для создателей, изучающих движение персонажей без тяжелого обучения или сложной настройки.

LongCat Аватар в ComfyUI: от одного изображения к видео говорящего аватара

LongCat Аватар в ComfyUI преобразует одно эталонное изображение в видео аватара, управляемое аудио, с устойчивой идентичностью. Основан на обертке WanVideo от kijai, он фокусируется на согласованности лица, плавности движений и естественной синхронизации губ без тонкой настройки для каждого персонажа. Вы предоставляете одно изображение персонажа и аудио трек; рабочий процесс создает временно согласованное представление, подходящее для клипов с говорящей головой, стилизованных представлений персонажей и быстрых тестов движения аватара.

Создатели, которые хотят быстро повторять, найдут LongCat Аватар в ComfyUI прагматичным и надежным. Рабочий процесс использует модель LongCat с сохранением идентичности и схему генерации с окнами для расширения последовательностей, сохраняя стабильность выражений. Выходные данные собираются в видео с исходным аудио для легкого просмотра или публикации.

Примечание: На машинах 2XL или выше, пожалуйста, установите backend внимания на "sdpa" в узле WanVideo Model Loader. Стандартный backend segeattn может вызвать проблемы совместимости на высокопроизводительных GPU.

Основные модели в рабочем процессе Comfyui LongCat Аватар в ComfyUI

  • Модель LongCat‑Avatar для WanVideo. Генерация изображений в видео с фокусом на идентичности, адаптированная для ComfyUI, обеспечивающая сильное сохранение персонажа на всех кадрах. См. релизы WanVideo Comfy от kijai на Hugging Face для контрольных точек и заметок. Hugging Face: Kijai/WanVideo_comfy
  • LongCat distill LoRA. Дистиллированная LoRA, усиливающая структуру лица и особенности идентичности во время выборки, улучшая стабильность при движении. Доступно с активами WanVideo Comfy. Hugging Face: Kijai/WanVideo_comfy
  • Wan 2.1 VAE. Видео VAE используется для кодирования эталонного кадра(ов) в латенты и декодирования сгенерированных образцов обратно в изображения. Hugging Face: Kijai/WanVideo_comfy
  • UM‑T5 текстовый энкодер. Используется WanVideo для интерпретации текстовых подсказок, которые направляют описание сцены и стиль, сохраняя идентичность. Hugging Face: google/umt5‑xxl
  • Представления речи Wav2Vec 2.0. Обеспечивает надежные речевые характеристики, которые управляют движением губ и челюсти через встраивания MultiTalk. Фоновая статья: wav2vec 2.0. arXiv и совместимая модель: Hugging Face: TencentGameMate/chinese‑wav2vec2‑base
  • MelBandRoFormer вокальный сепаратор. Опциональное разделение вокала и музыки, чтобы модуль синхронизации губ получал более чистый речевой сигнал. Hugging Face: Kijai/MelBandRoFormer_comfy

Как использовать рабочий процесс Comfyui LongCat Аватар в ComfyUI

Рабочий процесс состоит из трех основных фаз: модели и настройки, аудио к сигналам движения и эталонное изображение к видео с расширением окон. Он рендерится с фиксированной скоростью, предназначенной для движения, управляемого аудио, затем сшивает окна в бесшовный клип.

  • Модели
    • WanVideoModelLoader (#122) загружает контрольную точку LongCat‑Avatar и LongCat distill LoRA, а WanVideoVAELoader (#129) предоставляет видео VAE. WanVideoSchedulerv2 (#325) подготавливает расписание выборки, используемое во время диффузии. Эти компоненты определяют точность, сохранение идентичности и общий вид. После настройки они выступают в качестве основы для всех последующих шагов выборки.
  • Аудио
    • Загрузите голосовой трек с помощью LoadAudio (#125), при необходимости обрежьте с помощью TrimAudioDuration (#317) и отделите вокал с помощью MelBandRoFormerSampler (#302), чтобы уменьшить фоновый шум. MultiTalkWav2VecEmbeds (#194) преобразует очищенную речь во встраивания, которые управляют движением рта и тонкими динамиками головы. Эффективное количество кадров определяется длительностью аудио, поэтому более длинное аудио приводит к более длинным последовательностям. Аудиопоток позже мультиплексируется с изображениями на этапе объединения видео.
  • Входное изображение
    • Добавьте изображение вашего персонажа с помощью LoadImage (#284). ImageResizeKJv2 (#281) изменяет его размер для модели, а WanVideoEncode (#312) превращает его в ref_latent, который закрепляет идентичность на всех кадрах. Этот латент является фиксированной ссылкой, которую конвейер LongCat Аватар в ComfyUI повторно использует, вводя изменяющееся во времени движение из аудио и подсказок.
  • Расширение окна 1
    • WanVideoLongCatAvatarExtendEmbeds (#345) объединяет ref_latent с аудио встраиваниями для создания встраиваний изображений для первого окна. WanVideoSamplerv2 (#324) затем устраняет шум в латентах, создавая короткий клип. WanVideoDecode (#313) превращает их в изображения для предварительного просмотра и первого экспорта видео с помощью VHS_VideoCombine (#320). Размер окна и перекрытие отслеживаются внутренне, чтобы следующее окно могло выровняться без видимых швов.
  • Расширение окна 2
    • Вторая группа расширения повторяет ту же идею, чтобы продолжить последовательность. WanVideoLongCatAvatarExtendEmbeds (#346, #461) вычисляет встраивания, обусловленные предыдущими латентами, с учетом текущего перекрытия. WanVideoSamplerv2 (#327, #456) генерирует следующий фрагмент, который декодируется и объединяется с ImageBatchExtendWithOverlap (#341, #460) для поддержания непрерывности. Дополнительные шаги расширения окна могут быть повторены для более длинных результатов, и каждый этап может быть экспортирован с помощью VHS_VideoCombine (#386, #453).

Основные узлы в рабочем процессе Comfyui LongCat Аватар в ComfyUI

  • WanVideoModelLoader (#122)
    • Загружает контрольную точку LongCat‑Avatar и присоединяет LongCat distill LoRA, определяя точность идентичности и поведение движения. Если вы используете более крупные экземпляры, переключите реализацию внимания для лучшей пропускной способности, как рекомендовано в обертке WanVideo. Репозиторий для справки: github.com/kijai/ComfyUI‑WanVideoWrapper.
  • MultiTalkWav2VecEmbeds (#194)
    • Создает аудио‑управляемые встраивания из речи, которые направляют движение губ, челюсти и тонкие движения головы. Для более сильной артикуляции увеличьте влияние речи и рассмотрите возможность дополнительного прохода для более плотной синхронизации, когда ваше аудио очень четкое. Информация о фоновом модели: arXiv: wav2vec 2.0.
  • WanVideoLongCatAvatarExtendEmbeds (#346)
    • Основной узел LongCat Аватар в ComfyUI, этот узел расширяет встраивания изображений во времени, оставаясь привязанным к эталонному латенту. Настройте длину окна и перекрытие, чтобы сбалансировать плавность, время выполнения и стабильность на более длинных клипах.
  • WanVideoSamplerv2 (#327)
    • Выполняет процесс диффузии, используя модель, планировщик, текстовое руководство и встраивания изображений. Отрегулируйте силу руководства, чтобы сбалансировать следование подсказкам с вариацией; небольшие изменения могут иметь заметные эффекты на жесткость идентичности и движение.
  • VHS_VideoCombine (#320)
    • Мультиплексирует отрендеренные кадры с оригинальным аудио в mp4 для легкого просмотра. Используйте встроенную опцию обрезки, когда вы хотите, чтобы визуальные эффекты заканчивались точно с аудио или экспортировались только последние окна.

Дополнительные возможности

  • Убедитесь, что продолжительность аудио охватывает все запланированные окна расширения, чтобы избежать окончания речи в середине последовательности.
  • Для длинных клипов умеренно увеличьте размер окна и оставьте некоторое перекрытие, чтобы переходы оставались плавными; слишком маленькое перекрытие может вызвать щелчки, слишком большое может замедлить рендеринг.
  • Конвейер работает с фиксированной частотой кадров, привязанной к шагу, управляемому речью, что поддерживает синхронизацию губ во время экспорта.
  • Если вы используете тип большой машины, установите реализацию внимания в загрузчике модели на вариант, экономящий память, для улучшения скорости.
  • Не смешивайте несовместимые форматы моделей; держите основную модель и любые компоненты речи в одном семействе, как предоставлено в релизах WanVideo Comfy. Полезные центры моделей: Kijai/WanVideo_comfy и GGUF варианты, такие как city96/Wan2.1‑I2V‑14B‑480P‑gguf.

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы искренне благодарим Kijai за ComfyUI-WanVideoWrapper (LongCatAvatar workflow) и @Benji’s AI Playground создателя упомянутого видео на YouTube за их вклад и поддержку. Для получения авторитетной информации, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

  • YouTube/Видео инструкция
    • Документы / Примечания к выпуску: Видео на YouTube от Benji’s AI Playground
  • Kijai/ComfyUI-WanVideoWrapper (LongCatAvatar_testing_wip.json)
    • GitHub: kijai/ComfyUI-WanVideoWrapper
    • Документы / Примечания к выпуску: LongCatAvatar_testing_wip.json (ветка longcat_avatar)

Примечание: Использование упомянутых моделей, наборов данных и кода подчиняется соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими лицами.

Want More ComfyUI Workflows?

Wan 2.1 | Революционное создание видео

Создавайте невероятные видео из текста или изображений с прорывным ИИ, работающим на повседневных ЦП.

Wan 2.1 LoRA

Улучшите генерацию видео Wan 2.1 с помощью моделей LoRA для улучшенного стиля и кастомизации.

Wan 2.1 Control LoRA | Глубина и Плитка

Усовершенствуйте генерацию видео Wan 2.1 с помощью легких глубинных и плиточных LoRA для улучшения структуры и деталей.

Janus-Pro | T2I + I2T Model

Janus-Pro: Продвинутая генерация Text-to-Image и Image-to-Text.

Wan FusionX | T2V+I2V+VACE Полное

Самое мощное решение для генерации видео! Детализация уровня кинотеатра, ваша личная киностудия.

Hunyuan Image to Video | Впечатляющий Создатель Движения

Создавайте великолепные фильмы из неподвижных изображений с кинематографическим движением и настраиваемыми эффектами.

AnimateDiff + ControlNet + IPAdapter V1 | Плоский аниме-стиль

Придайте вашим видео уникальный аниме-макияж без усилий, захватывая яркий плоский стиль

AnimateDiff + Batch Prompt Schedule | Текст в Видео

Batch Prompt schedule с AnimateDiff предлагает точный контроль над повествованием и визуальными элементами в создании анимации.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2025 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.