logo
RunComfy
ComfyUIPlaygroundPricing
discord logo
ComfyUI>Рабочие процессы>Multitalk | Создатель реалистичных говорящих видео

Multitalk | Создатель реалистичных говорящих видео

Workflow Name: RunComfy/Multitalk
Workflow ID: 0000...1266
Этот рабочий процесс генерирует видео с синхронизацией губ из портретов и аудио, поддерживая как одноканальные, так и многоканальные выходы с детализированным движением лица и выравниванием речи.

ComfyUI MultiTalk: Видео с разговором для нескольких и одного человека

Примечание:
Это обновленная версия для нескольких человек нашего рабочего процесса ComfyUI MultiTalk Single Person.
Теперь поддерживает генерацию видео с разговором для нескольких человек, сохраняя режим одного человека из предыдущей версии.

Этот рабочий процесс идеально подходит для социального контента, объяснительных видео о продуктах, диалогов персонажей и быстрой предварительной визуализации. Он сочетает аудио встраивания MultiTalk с видео диффузией, чтобы губы, челюсть и тонкие мимические сигналы следовали за речью. Используйте его как путь для сцен Meigen MultiTalk с несколькими спикерами или компактных клипов с одним спикером.


Ключевые модели в рабочем процессе ComfyUI MultiTalk

Wan 2.1 модель видео диффузии

Управляет генерацией видео, обусловленной текстом и изображениями. Обрабатывает внешний вид сцены, камеру и движение, принимая дополнительные указания для динамики разговора.

Wav2Vec 2.0

Извлекает надежные представления речи, которые MultiTalk преобразует в встраивания, специфичные для разговора. Ссылка: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Исследовательский метод для видео разговоров с несколькими людьми, основанных на аудио. Реализация: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Интеграция ComfyUI, обеспечивающая загрузку Wan 2.1, кодировщики и видеосэмплер, а также узел встраивания MultiTalk. Ссылка: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (необязательно)

Текст-в-речь с голосовой ссылкой для создания чистых диалоговых дорожек внутри рабочего процесса. Ссылка: chenpipi0807/ComfyUI-Index-TTS.


Как использовать рабочий процесс ComfyUI MultiTalk

Этот рабочий процесс работает от начала до конца: вы готовите спикеров и аудио, устанавливаете краткий сценарий сцены, затем рендерите. Поддерживает как многоканальные, так и одноканальные настройки. Группы на графике помогают поддерживать порядок; наиболее важные из них описаны ниже.

Ввод и вывод

Загрузите изображения идентичности для лиц ваших спикеров и предварительные маски, затем объедините окончательные кадры с аудио. Узлы LoadImage принимают ваши портреты, а VHS_VideoCombine собирает отрендеренные кадры с выбранной аудиодорожкой в MP4. Вы можете прослушивать аудио с помощью PreviewAudio во время настройки, чтобы подтвердить уровни и продолжительность.

Модель

Get_WanModel, Get_WanTextEncoder и WanVideoModelLoader инициализируют Wan 2.1 вместе с текстовыми и VAE компонентами. Думайте об этом как о машинном отделении: как только загружено, видеосэмплер может принимать изображения, текст и встраивания для разговоров. Обычно вам не нужно ничего менять здесь, кроме проверки правильности выбора весов Wan.

Аудио спикеров (два способа)

Вы можете привнести свои собственные диалоговые дорожки или синтезировать их:

  • Привнести аудио: Используйте LoadAudio для импорта каждой реплики спикера. Если клип смешан с музыкой или шумом, пропустите его через AudioSeparation и направьте чистый выход Vocals вперед.
  • Сгенерировать аудио: Используйте Speaker 1 - Text и Speaker 2 - Text с IndexTTSNode для синтеза голосов из напечатанных строк, при необходимости предоставляя reference_audio для желаемого тембра.

Аудио встраивания MultiTalk

MultiTalkWav2VecEmbeds преобразует речь во встраивания MultiTalk, которые фиксируют временные и артикуляционные сигналы для каждого спикера. Подайте один аудиопоток для одного человека или два потока для диалога с несколькими людьми. Если вашей сцене нужно целенаправленное управление лицами, предоставьте чистые маски лиц как ref_target_masks, чтобы каждый голос управлял правильным человеком.

Подсказки и текстовый контекст

Краткая подсказка сцены через Prompt и WanVideoTextEncodeSingle задает визуальное настроение и окружающую среду. Держите подсказки краткими и описательными (местоположение, тон, освещение). Текстовый кодировщик генерирует семантическое руководство, которое Wan использует наряду с сигналами идентичности и разговора.

Uni3C и Resize

Группа Uni3C подготавливает глобальные контекстные встраивания, которые помогают стабилизировать идентичность, кадрирование и композицию с течением времени. Группа Resize гарантирует, что исходные изображения и маски масштабируются до удобных для модели размеров, чтобы сэмплер получал согласованные входные данные.

KSampler и обработка сэмплирования

WanVideoSampler это место, где все встречается: встраивания изображений идентичности, текстовые встраивания и аудио встраивания MultiTalk объединяются для создания окончательных кадров. Группа Sampling processing применяет любые постобработки, необходимые для плавности и согласованности перед передачей видео комбинирующему устройству.

Маски для многолюдных сцен

Для клипов с несколькими людьми нарисуйте одну маску на каждое лицо в редакторе масок ComfyUI. Держите маски раздельными, чтобы они никогда не соприкасались. Если вы предоставляете только одну маску и одну аудиодорожку, рабочий процесс автоматически работает как одноканальная установка MultiTalk.


Ключевые узлы в рабочем процессе ComfyUI MultiTalk

MultiTalkWav2VecEmbeds (#79/#162)

Преобразует одну или несколько диалоговых дорожек во встраивания MultiTalk. Начните с одного аудиовхода для одного человека или двух для нескольких; добавляйте маски, когда нужно маршрутизировать по лицам. Регулируйте только то, что важно: количество кадров, чтобы соответствовать запланированной длине клипа, и нужно ли предоставлять ref_target_masks для точного соответствия спикера и лица.

AudioSeparation (#88/#160/#161)

Необязательная очистка для шумных входов. Направьте ваш шумный клип в этот узел и передайте выход Vocals вперед. Используйте его, когда полевые записи включают фоновую музыку или разговоры; пропустите, если у вас уже есть чистые голосовые дорожки.

IndexTTSNode (#163/#164)

Преобразует Speaker 1 - Text и Speaker 2 - Text в аудио диалогов. Предоставьте короткое reference_audio, чтобы клонировать тон и темп, затем предоставьте текстовые строки. Держите предложения краткими и естественными для лучшего времени синхронизации губ в MultiTalk.

WanVideoTextEncodeSingle (#18)

Кодирует вашу подсказку сцены для Wan 2.1. Предпочитайте простые, конкретные описания места, освещения и стиля. Избегайте длинных списков; одного или двух предложений достаточно для сэмплера.


Признания

Оригинальное исследование: MultiTalk разработан MeiGen-AI в сотрудничестве с ведущими исследователями в этой области. Оригинальная статья "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" представляет передовые исследования, лежащие в основе этой технологии. Интеграция ComfyUI: Реализация ComfyUI предоставлена Kijai через репозиторий ComfyUI-WanVideoWrapper, делая эту продвинутую технологию доступной для широкой творческой аудитории.

Базовая технология: Построена на модели видео диффузии Wan2.1 и включает аудиообработку из Wav2Vec, представляя собой синтез передовых исследований в области ИИ.

Ссылки и ресурсы

  • Оригинальное исследование: MeiGen-AI MultiTalk Repository
  • Страница проекта: https://meigen-ai.github.io/multi-talk/
  • Интеграция ComfyUI: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Портретная анимация синхронизации губ

Аудио-управляемая синхронизация губ для портретной анимации в 4K.

Sonic | Анимация портретов с синхронизацией речи

Sonic предоставляет продвинутую анимацию портретов с синхронизацией речи на основе аудио высокого качества.

IPAdapter Plus (V2) | Смена одежды

IPAdapter Plus (V2) | Смена одежды

Используйте IPAdapter Plus для создания моделей моды, легко меняя наряды и стили

EchoMimic | Анимации портретов, управляемые аудио

Создайте реалистичные говорящие головы и жесты тела, синхронизированные с предоставленным аудио.

AnimateDiff + ControlNet | Стиль мраморной скульптуры

Преобразуйте ваши видео в вечные мраморные скульптуры, передающие сущность классического искусства.

Flux Krea Dev | Естественное преобразование текста в изображение

Лучшая модель FLUX с открытым исходным кодом! Абсолютно невероятные естественные результаты.

Flux Consistent Characters | Input Image

Flux Consistent Characters | Input Image

Создавайте последовательных персонажей и обеспечивайте их единообразный вид, используя ваши изображения.

LTX Video | Изображение+Текст в Видео

Создает видео из подсказок изображение+текст.

Подписывайтесь на нас
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Поддержка
  • Discord
  • Email
  • Статус системы
  • партнёр
Ресурсы
  • Бесплатный ComfyUI онлайн
  • Руководства по ComfyUI
  • RunComfy API
  • ComfyUI Уроки
  • ComfyUI Узлы
  • Узнать больше
Юридическая информация
  • Условия обслуживания
  • Политика конфиденциальности
  • Политика в отношении файлов cookie
RunComfy
Авторское право 2025 RunComfy. Все права защищены.

RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.