logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Рабочие процессы>daVinci-MagiHuman | Генератор Реалистичных Говорящих Людей

daVinci-MagiHuman | Генератор Реалистичных Говорящих Людей

Workflow Name: RunComfy/daVinci-MagiHuman
Workflow ID: 0000...1388
Оживите своих персонажей с помощью рабочего процесса MagiHuman. Он позволяет создавать естественных говорящих людей с идеальной синхронизацией губ, выразительными лицами и реалистичными движениями. Используйте текст, аудио или подсказки для создания аватаров студийного качества для видео, презентаций и рассказывания историй. Разработан для скорости и точности, обеспечивает стабильную производительность даже в режиме реального времени. Идеально подходит для создателей контента, дизайнеров и разработчиков, стремящихся к гуманизированным цифровым выходам с согласованными движениями тела и многоязычной поддержкой.

daVinci-MagiHuman рабочий процесс цифрового человека для ComfyUI

Этот рабочий процесс ComfyUI строит полную текст-видео цепочку вокруг daVinci-MagiHuman для генерации реалистичных говорящих цифровых людей с синхронизированной речью, движением губ, выражением и микродвижениями тела. Он предназначен для создателей, которые хотят быстро и просто перейти от описательной подсказки к MP4 с чистым звуком. Граф может анимировать только что сгенерированный портрет или любое предоставленное изображение, затем рендерить видео и речь вместе, завершая с опциональным увеличением разрешения и автоматической нормализацией громкости аудио.

Ядро daVinci-MagiHuman использует одно-поточный Transformer для совместного создания видео и аудио из одной подсказки, что помогает сохранить временную синхронизацию и точность синхронизации губ даже на коротких клипах. Эта реализация ComfyUI упрощает управление: напишите Image Prompt для определения внешнего вида, Video Prompt для определения производительности и диалога, установите продолжительность клипа и запустите.

Ключевые модели в рабочем процессе ComfyUI daVinci-MagiHuman

  • daVinci-MagiHuman (15B одно-поточный генератор аудио-видео). Роль: совместно производит видеокадры и речь из текста, поддерживая временную согласованность и синхронизацию губ. Ссылки: GitHub, arXiv, Hugging Face.
  • T5Gemma 9B энкодер (UL2-адаптированный). Роль: кодирует Video Prompt в богатую кондиционирование, которое управляет движением, подачей и стилем для daVinci-MagiHuman. Ссылка: Hugging Face.
  • Z-Image Turbo диффузионная модель. Роль: быстро создает высококачественный неподвижный портрет из Image Prompt для использования в качестве идентичности/ссылки для анимации. Ссылки: Hugging Face (z_image_turbo), Hugging Face (z_image).
  • Qwen 3 4B текстовый энкодер для Z-Image Turbo. Роль: разбирает Image Prompt для управления генерацией портрета. Ссылка: Hugging Face file.
  • Wan 2.2 VAE. Роль: декодирует видео латенты MagiHuman в RGB кадры с сильной временной согласованностью. Ссылки: GitHub, Hugging Face пример модели.
  • Audio VAE (sd_audio). Роль: декодирует аудио латенты MagiHuman в звуковую волну для совмещения с финальным видео. Ссылка: custom node bundle for MagiHuman GitHub.
  • RTX Video Super Resolution (опционально). Роль: пост-увеличивает декодированные кадры для увеличения воспринимаемой резкости и уменьшения артефактов сжатия перед финальным кодированием. Ссылка: ComfyUI wrapper GitHub.

Как использовать рабочий процесс ComfyUI daVinci-MagiHuman

Общий поток: группа Z-Image Turbo создает портрет идентичности из вашего Image Prompt. Группа моделей MagiHuman загружает контрольную точку daVinci-MagiHuman, видео VAE и аудио VAE и подготавливает текстовый энкодер. Группа Text Prompt превращает ваш Video Prompt в кондиционирование. Группа Sampling объединяет ссылочное изображение и подсказку в совместные видео и аудио латенты, затем декодирует оба. Наконец, стадия Outputs объединяет кадры с аудио в MP4, с опциональной увеличенной версией.

Входные данные

Используйте текстовые поля Image Prompt и Video Prompt для описания внешнего вида и производительности. Контроль продолжительности устанавливает длину клипа в секундах. Для удобства предоставлен загрузчик аудио, если вы планируете экспериментировать с аудио-управляемыми вариантами, но этот шаблон по умолчанию работает в текст-управляемом режиме.

ZImage Turbo

На этом этапе создается единичный ссылочный портрет из Image Prompt с использованием Z-Image Turbo UNet с текстовым энкодером Qwen 3 4B и его встроенным VAE. Он оптимизирован для быстрой, чистой генерации идентичности с кинематографическим внешним видом. Результат предварительно просматривается, затем передается как ссылочное изображение для анимации. Если у вас уже есть портрет, вы можете обойти этот этап, подключив ваше изображение напрямую к стадии анимации.

Модели MagiHuman

Здесь граф загружает базовую или дистиллированную контрольную точку daVinci-MagiHuman вместе с Wan 2.2 видео VAE, аудио VAE и энкодером T5Gemma. Это сохраняет согласованность текстового кодирования, видео латентов и аудио латентов для одно-поточного семплирования. Вы можете заменить веса, если у вас есть альтернативы в вашей среде.

Текстовая подсказка

Ваш Video Prompt кодируется в положительное и отрицательное кондиционирование. Положительный текст должен описывать расстояние до камеры, позу, язык, стиль подачи и точный диалог. Отрицательный текст может перечислять визуальные или аудио дефекты, которых следует избегать. Энкодер передает оба набора кондиционирования в семплер для формирования движения, динамики губ и тембра.

Семплирование

Семплер строит начальную последовательность латентов из ссылочного изображения и запрашиваемой продолжительности, затем выполняет денойзинг с помощью daVinci-MagiHuman для создания синхронизированных видео и аудио латентов. Утилита конвертирует продолжительность в полные секунды для стабильного планирования. Когда семплирование завершено, видео латенты отправляются в видео декодер, а аудио латенты в аудио декодер.

Декодирование, громкость и экспорт

Видео латенты декодируются с помощью Wan 2.2 VAE в кадры изображения. Аудио латенты декодируются в речь, затем нормализуются до уровня громкости, удобного для вещания, чтобы финальный MP4 воспроизводился стабильно на различных устройствах. Создаются два экспорта: базовый рендер и опциональный увеличенный рендер с использованием RTX Video Super Resolution. Оба объединяются в MP4 с аудио и сохраняются с понятными префиксами файлов.

Ключевые узлы в рабочем процессе ComfyUI daVinci-MagiHuman

  • MagiHuman_LATENTS (#13)

Создает совместный латентный холст для видео и опционального аудио, принимая ссылочное изображение и длину клипа. Настройте seconds для установки продолжительности и убедитесь, что ваше ссылочное изображение хорошо кадрировано для описанного вами движения. Более высокое базовое разрешение помогает улучшить точность лица, но также увеличивает VRAM и время декодирования.

  • MagiHuman_SM_ENCODER (#95)

Кодирует Video Prompt в положительное и отрицательное кондиционирование для семплера. Поместите точную произнесенную фразу в кавычки и укажите язык для улучшения закрытия губ и синхронизации. Используйте отрицательное поле для подавления артефактов, таких как "субтитры," "статичность," или "эхо комнаты."

  • MagiHuman_SM_KSampler (#9)

Запускает денойзинг daVinci-MagiHuman для совместного создания видео и аудио латентов. seed управляет воспроизводимостью, а steps и внутренний график обменивают скорость на детализацию и стабильность движения. Для вариации без потери идентичности измените seed или слегка перефразируйте часть вашей подсказки, касающуюся производительности.

  • MagiHuman_EN_DECO_VIDEO (#5)

Декодирует видео латенты с помощью Wan 2.2 VAE в RGB кадры для экспорта или увеличения разрешения. Используйте этот путь для самого быстрого рендера; длинные клипы или более высокие разрешения линейно увеличат время декодирования.

  • MagiHuman_DECO_AUDIO (#6)

Декодирует аудио латенты в звуковую волну и отправляет их через нормализацию громкости для равномерного воспроизведения. Если вы позже переключитесь на аудио-управляемую генерацию, направьте ваше внешнее аудио в построитель латентов и сохраните этот путь декодирования для финального совмещения.

  • RTXVideoSuperResolution (#93)

Опциональный пост-увеличитель, который улучшает края и уменьшает звенение. Используйте умеренную силу для улучшения четкости без введения временного мерцания.

Дополнительные опции

  • Шаблон подсказки для надежной синхронизации губ: включите метку говорящего и язык, а также цитируемую фразу, например Dialogue: <Presenter, English>: "Welcome to the show." Добавьте краткую заметку о подаче, размере кадра и стабильности камеры.
  • Сохраните ссылочный портрет как средний крупный план с полностью в кадре головой. Плотные кадрирования оставляют мало места для динамики челюсти и щек.
  • Если вам нужна более строгая синхронизация, обрежьте или расширьте ваш сценарий, чтобы он соответствовал выбранной продолжительности. Очень длинные предложения в очень коротких клипах могут вынудить неестественную артикуляцию.
  • Этот шаблон работает в режиме только подсказки. Для аудио-управляемых тестов подключите внешний аудиофайл к аудио входу на MagiHuman_LATENTS (#13) и настройте ваш Video Prompt для описания выражения, а не содержания речи.

Благодарности

Этот рабочий процесс реализует и основывается на следующих работах и ресурсах. Мы выражаем благодарность daVinci-MagiHuman за daVinci-MagiHuman Workflow Source за их вклад и поддержку. Для авторитетных деталей, пожалуйста, обратитесь к оригинальной документации и репозиториям, указанным ниже.

Ресурсы

  • daVinci-MagiHuman/Workflow Source
    • Документы / Примечания к выпуску: daVinci-MagiHuman Workflow Source

Примечание: Использование ссылочных моделей, наборов данных и кода подлежит соответствующим лицензиям и условиям, предоставленным их авторами и поддерживающими.

Want More ComfyUI Workflows?

LTX 2.3 ID-LoRA | Генератор говорящих аватаров

Создает реалистичных говорящих аватаров с синхронизированным голосом и визуальными эффектами.

DreamID-Omni | Создатель говорящих видео из фото

Превращает фотографии в ультрареалистичные говорящие видео за секунды.

InfiniteTalk | Генератор Синхронизированных Аватаров

Фото + Голос = Идеально Синхронизированный Говорящий Аватар за Минуты

Sonic | Анимация портретов с синхронизацией речи

Sonic предоставляет продвинутую анимацию портретов с синхронизацией речи на основе аудио высокого качества.

FLUX NF4 | Ускорение генерации изображений FLUX

FLUX NF4 | Ускорение генерации изображений FLUX

Быстрая генерация изображений и лучшее управление ресурсами.

Редактирование выражений PixelSmile | Точное управление лицом

Точное редактирование лиц. Тонкие изменения эмоций. Идеальные портреты каждый раз.

Wan 2.2 Low Vram | Обёртка Kijai

Низкая видеопамять. Больше никакого ожидания. Обёртка Kijai включена.

PuLID Flux II | Постоянная генерация персонажей

Создавайте изображения с точным контролем персонажей, сохраняя художественный стиль.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2026 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Models, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.