logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Рабочие процессы>EchoMimic | Анимации портретов, управляемые аудио

EchoMimic | Анимации портретов, управляемые аудио

Workflow Name: RunComfy/EchoMimic
Workflow ID: 0000...1172
EchoMimic — это инструмент, который позволяет создавать реалистичные говорящие головы и жесты тела, которые идеально синхронизируются с предоставленным аудио. Используя передовые техники ИИ, EchoMimic анализирует аудио-вход и генерирует реалистичные выражения лица, движения губ и язык тела, которые идеально соответствуют произнесённым словам и эмоциям. С EchoMimic вы можете оживить ваших персонажей и создавать анимационный контент, который захватывает вашу аудиторию.

EchoMimic — это инструмент для генерации реалистичных анимаций портретов, управляемых аудио. Он использует методы глубокого обучения для анализа входного аудио и генерирования соответствующих выражений лица, движений губ и жестов головы, которые точно соответствуют эмоциональному и фонетическому содержанию речи.

EchoMimic V2 был разработан исследовательской группой из отдела Terminal Technology компании Alipay, Ant Group, в которую входят Ранг Мэн, Синью Чжан, Юмин Ли и Ченгуан Ма. Для получения подробной информации, пожалуйста, посетите antgroup/echomimic_v2. Узел ComfyUI_EchoMimic был разработан smthemex/ComfyUI_EchoMimic. Вся заслуга принадлежит их значительному вкладу.

EchoMimic V1 и V2

  • EchoMimic V1: Реалистичные анимации портретов, управляемые аудио, с возможностью настройки контрольных точек
  • EchoMimic V2: Упрощенные, выразительные и полу-телесные анимации человека

Ключевое различие заключается в том, что EchoMimic V2 стремится достичь впечатляющей анимации половины тела человека, упрощая ненужные условия контроля по сравнению с EchoMimic V1. EchoMimic V2 использует новую стратегию Audio-Pose Dynamic Harmonization для улучшения выражений лица и жестов тела.

Преимущества и недостатки EchoMimic V2

Преимущества:

  • EchoMimic V2 генерирует крайне реалистичные и выразительные анимации портретов, управляемые аудио
  • EchoMimic V2 расширяет анимацию на верхнюю часть тела, а не только на область головы
  • EchoMimic V2 снижает сложность условий, сохраняя качество анимации по сравнению с EchoMimic V1
  • EchoMimic V2 бесшовно включает данные headshot для улучшения выражений лица

Недостатки:

  • EchoMimic V2 требует аудио источника, соответствующего портрету, для достижения наилучших результатов
  • EchoMimic V2 в настоящее время не имеет кода синхронизации поз, используя файл позы по умолчанию
  • Генерация более длительных высококачественных анимаций с EchoMimic V2 может быть вычислительно затратной
  • EchoMimic V2 лучше всего работает с обрезанными изображениями портретов, а не с полными телесными снимками

Как использовать рабочий процесс ComfyUI EchoMimic

В узле "Echo_LoadModel" у вас есть возможность выбрать между EchoMimic v1 и EchoMimic v2:

  1. EchoMimic v1: Эта версия сосредоточена на генерации реалистичных анимаций портретов, управляемых аудио, с возможностью настройки контрольных точек. Она хорошо подходит для создания реалистичных анимаций лица, которые точно соответствуют входному аудио.
  2. EchoMimic v2: Эта версия стремится упростить процесс анимации, обеспечивая при этом выразительные и полу-телесные анимации человека. Она расширяет анимацию за пределы только лицевой области, включая движения верхней части тела. Однако, пожалуйста, обратите внимание, что функция синхронизации поз для v2 еще не реализована в текущей версии рабочего процесса ComfyUI. Если вы выберете 'None' для пути позы, вместо этого будет использоваться файл позы по умолчанию.

Вот пошаговое руководство по использованию предоставленного рабочего процесса ComfyUI:

Шаг 1. Загрузите изображение портрета с помощью узла LoadImage. Это должен быть крупный план головы и плеч субъекта.

EchoMimic

Шаг 2. Загрузите аудио файл с помощью узла LoadAudio. Речь в аудио должна соответствовать идентичности субъекта портрета.

EchoMimic

Шаг 3. Используйте узел Echo_LoadModel для загрузки модели EchoMimic. Ключевые настройки:

  • Выберите версию (V1 или V2).
  • Выберите режим вывода, например, режим, управляемый аудио.
EchoMimic

Шаг 4. Подключите изображение, аудио и загруженную модель к узлу Echo_Sampler. Ключевые настройки:

  • pose_dir: Директория для файлов последовательности поз, используемых в режимах анимации, управляемых позами. Если установлено "none", последовательность поз не будет использоваться.
  • seed: Случайное число для генерации постоянных результатов при повторных запусках. Это должно быть целое число от 0 до MAX_SEED.
  • cfg: Масштаб классификатора без руководства, управляющий силой аудио-контроля. Более высокие значения приводят к более выраженным движениям, управляемым аудио. Значение по умолчанию — 2.5, и оно может варьироваться от 0.0 до 10.0.
  • steps: Количество шагов диффузии для генерации каждого кадра. Более высокие значения производят более плавные анимации, но требуют больше времени на генерацию. Значение по умолчанию — 30, и оно может варьироваться от 1 до 100.
  • fps: Частота кадров выходного видео в кадрах в секунду. Значение по умолчанию — 25, и оно может варьироваться от 5 до 100.
  • sample_rate: Частота дискретизации входного аудио в Гц. Значение по умолчанию — 16000, и оно может варьироваться от 8000 до 48000 с шагом 1000.
  • facemask_ratio: Отношение площади маски лица к полной площади изображения. Оно управляет размером области вокруг лица, которая анимируется. Значение по умолчанию — 0.1, и оно может варьироваться от 0.0 до 1.0.
  • facecrop_ratio: Отношение площади обрезки лица к полной площади изображения. Оно определяет, сколько изображения посвящено области лица. Значение по умолчанию — 0.8, и оно может варьироваться от 0.0 до 1.0.
  • context_frames: Количество прошлых и будущих кадров, используемых в качестве контекста для генерации каждого кадра. Значение по умолчанию — 12, и оно может варьироваться от 0 до 50.
  • context_overlap: Количество перекрывающихся кадров между смежными окнами контекста. Значение по умолчанию — 3, и оно может варьироваться от 0 до 10.
  • length: Длина выходного видео в кадрах. Она должна основываться на продолжительности вашего входного аудио и настройке fps. Например, если ваше аудио длится 6 секунд и fps установлен на 25, длина должна быть 150 кадров. Длина может варьироваться от 50 до 5000 кадров.
  • width: Ширина кадров выходного видео в пикселях. Значение по умолчанию — 512, и оно может варьироваться от 128 до 1024 с шагом 64.
  • height: Высота кадров выходного видео в пикселях. Значение по умолчанию — 512, и оно может варьироваться от 128 до 1024 с шагом 64.
EchoMimic

Пожалуйста, обратите внимание, что генерация видео может занять некоторое время. Например, создание видео из 6-секундного аудио-клипа с использованием машины 2XL на RunComfy занимает около 20 минут.

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

LivePortrait | Анимируйте портреты | Img2Vid

Анимируйте портреты с выражениями лица и движениями, используя одно изображение и референсное видео.

LivePortrait | Анимация Портретов | Vid2Vid

Обновлено 16.06.2025: версия ComfyUI обновлена до v0.3.39 для улучшенной стабильности и совместимости. Перенос мимических выражений и движений с управляющего видео на исходное видео

Wan 2.1 FLF2V | Видео от первого до последнего кадра

Создавайте плавные видео из начального и конечного кадра с помощью Wan 2.1 FLF2V.

AnimateDiff + ControlNet + IPAdapter V1 | Adventure Game Style

Революционизируйте видео в стиле приключенческих игр, оживляя азарт гейминга!

Эволюция Аудиореактивных Танцоров

Преобразуйте ваш объект с аудиореактивным фоном, состоящим из сложных геометрических фигур.

Рабочий процесс AP 12.0 | Готовый к использованию полный AI медиа-комплект

Предустановленная система "всё в одном" для генерации, улучшения и манипуляции изображениями и видео. Настройка не требуется.

AnimateDiff + Batch Prompt Schedule | Текст в Видео

Используйте Prompts Travel с Animatediff для точного контроля над определенными кадрами в анимации.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2025 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.