Примечание:
Это обновленная версия для нескольких человек нашего рабочего процесса ComfyUI MultiTalk .
Теперь поддерживает генерацию видео с разговором для нескольких человек, сохраняя режим одного человека из предыдущей версии.
Этот рабочий процесс идеально подходит для социального контента, объяснительных видео о продуктах, диалогов персонажей и быстрой предварительной визуализации. Он сочетает аудио встраивания MultiTalk с видео диффузией, чтобы губы, челюсть и тонкие мимические сигналы следовали за речью. Используйте его как путь для сцен Meigen MultiTalk с несколькими спикерами или компактных клипов с одним спикером.
Wan 2.1 модель видео диффузии
Управляет генерацией видео, обусловленной текстом и изображениями. Обрабатывает внешний вид сцены, камеру и движение, принимая дополнительные указания для динамики разговора.
Wav2Vec 2.0
Извлекает надежные представления речи, которые MultiTalk преобразует в встраивания, специфичные для разговора. Ссылка: .
MultiTalk (MeiGen-AI)
Исследовательский метод для видео разговоров с несколькими людьми, основанных на аудио. Реализация: .
ComfyUI Wan Video Wrapper
Интеграция ComfyUI, обеспечивающая загрузку Wan 2.1, кодировщики и видеосэмплер, а также узел встраивания MultiTalk. Ссылка: .
Index-TTS (необязательно)
Текст-в-речь с голосовой ссылкой для создания чистых диалоговых дорожек внутри рабочего процесса. Ссылка: .
Этот рабочий процесс работает от начала до конца: вы готовите спикеров и аудио, устанавливаете краткий сценарий сцены, затем рендерите. Поддерживает как многоканальные, так и одноканальные настройки. Группы на графике помогают поддерживать порядок; наиболее важные из них описаны ниже.
Загрузите изображения идентичности для лиц ваших спикеров и предварительные маски, затем объедините окончательные кадры с аудио. Узлы LoadImage
принимают ваши портреты, а VHS_VideoCombine
собирает отрендеренные кадры с выбранной аудиодорожкой в MP4. Вы можете прослушивать аудио с помощью PreviewAudio
во время настройки, чтобы подтвердить уровни и продолжительность.
Get_WanModel
, Get_WanTextEncoder
и WanVideoModelLoader
инициализируют Wan 2.1 вместе с текстовыми и VAE компонентами. Думайте об этом как о машинном отделении: как только загружено, видеосэмплер может принимать изображения, текст и встраивания для разговоров. Обычно вам не нужно ничего менять здесь, кроме проверки правильности выбора весов Wan.
Вы можете привнести свои собственные диалоговые дорожки или синтезировать их:
LoadAudio
для импорта каждой реплики спикера. Если клип смешан с музыкой или шумом, пропустите его через AudioSeparation
и направьте чистый выход Vocals
вперед.Speaker 1 - Text
и Speaker 2 - Text
с IndexTTSNode
для синтеза голосов из напечатанных строк, при необходимости предоставляя reference_audio
для желаемого тембра.MultiTalkWav2VecEmbeds
преобразует речь во встраивания MultiTalk, которые фиксируют временные и артикуляционные сигналы для каждого спикера. Подайте один аудиопоток для одного человека или два потока для диалога с несколькими людьми. Если вашей сцене нужно целенаправленное управление лицами, предоставьте чистые маски лиц как ref_target_masks
, чтобы каждый голос управлял правильным человеком.
Краткая подсказка сцены через Prompt
и WanVideoTextEncodeSingle
задает визуальное настроение и окружающую среду. Держите подсказки краткими и описательными (местоположение, тон, освещение). Текстовый кодировщик генерирует семантическое руководство, которое Wan использует наряду с сигналами идентичности и разговора.
Группа Uni3C подготавливает глобальные контекстные встраивания, которые помогают стабилизировать идентичность, кадрирование и композицию с течением времени. Группа Resize гарантирует, что исходные изображения и маски масштабируются до удобных для модели размеров, чтобы сэмплер получал согласованные входные данные.
WanVideoSampler
это место, где все встречается: встраивания изображений идентичности, текстовые встраивания и аудио встраивания MultiTalk объединяются для создания окончательных кадров. Группа Sampling processing применяет любые постобработки, необходимые для плавности и согласованности перед передачей видео комбинирующему устройству.
Для клипов с несколькими людьми нарисуйте одну маску на каждое лицо в редакторе масок ComfyUI. Держите маски раздельными, чтобы они никогда не соприкасались. Если вы предоставляете только одну маску и одну аудиодорожку, рабочий процесс автоматически работает как одноканальная установка MultiTalk.
MultiTalkWav2VecEmbeds
(#79/#162)Преобразует одну или несколько диалоговых дорожек во встраивания MultiTalk. Начните с одного аудиовхода для одного человека или двух для нескольких; добавляйте маски, когда нужно маршрутизировать по лицам. Регулируйте только то, что важно: количество кадров, чтобы соответствовать запланированной длине клипа, и нужно ли предоставлять ref_target_masks
для точного соответствия спикера и лица.
AudioSeparation
(#88/#160/#161)Необязательная очистка для шумных входов. Направьте ваш шумный клип в этот узел и передайте выход Vocals
вперед. Используйте его, когда полевые записи включают фоновую музыку или разговоры; пропустите, если у вас уже есть чистые голосовые дорожки.
IndexTTSNode
(#163/#164)Преобразует Speaker 1 - Text
и Speaker 2 - Text
в аудио диалогов. Предоставьте короткое reference_audio
, чтобы клонировать тон и темп, затем предоставьте текстовые строки. Держите предложения краткими и естественными для лучшего времени синхронизации губ в MultiTalk.
WanVideoTextEncodeSingle
(#18)Кодирует вашу подсказку сцены для Wan 2.1. Предпочитайте простые, конкретные описания места, освещения и стиля. Избегайте длинных списков; одного или двух предложений достаточно для сэмплера.
Оригинальное исследование: MultiTalk разработан MeiGen-AI в сотрудничестве с ведущими исследователями в этой области. Оригинальная статья "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" представляет передовые исследования, лежащие в основе этой технологии. Интеграция ComfyUI: Реализация ComfyUI предоставлена Kijai через репозиторий ComfyUI-WanVideoWrapper, делая эту продвинутую технологию доступной для широкой творческой аудитории.
Базовая технология: Построена на модели видео диффузии Wan2.1 и включает аудиообработку из Wav2Vec, представляя собой синтез передовых исследований в области ИИ.
RunComfy - ведущая ComfyUI платформа, предлагающая ComfyUI онлайн среду и услуги, а также рабочие процессы ComfyUI с потрясающей визуализацией. RunComfy также предоставляет AI Playground, позволяя художникам использовать новейшие инструменты AI для создания невероятного искусства.