ComfyUI>Flujos de trabajo>Multitalk | Creador de Videos Hablados Realistas

Multitalk | Creador de Videos Hablados Realistas

Workflow Name: RunComfy/Multitalk

Workflow ID: 0000...1266

Este flujo de trabajo genera videos sincronizados con los labios a partir de retratos y audio, admitiendo tanto salidas de un solo hablante como de múltiples hablantes con movimiento facial detallado y alineación del habla.

ComfyUI MultiTalk: Video de Habla de Múltiples Personas y de Una Sola Persona

Nota:
Esta es la versión mejorada para múltiples personas de nuestro flujo de trabajo ComfyUI MultiTalk Single Person.
Ahora admite generación de videos conversacionales de múltiples personas mientras sigue incluyendo el modo de una sola persona de nuestra versión anterior.

El flujo de trabajo es ideal para contenido social, videos explicativos de productos, diálogos de personajes y previsualización rápida. Combina las incrustaciones de audio de MultiTalk con la difusión de video para que los labios, la mandíbula y las sutiles señales faciales sigan el habla. Úsalo como una vía de inserción tanto para escenas de múltiples hablantes de Meigen MultiTalk como para clips de un solo hablante.

Modelos clave en el flujo de trabajo ComfyUI MultiTalk

Modelo de difusión de video Wan 2.1

Impulsa la generación de video condicionada por texto e imagen. Maneja la apariencia de la escena, la cámara y el movimiento mientras acepta orientación adicional para la dinámica de la conversación.

Wav2Vec 2.0

Extrae representaciones robustas del habla que MultiTalk convierte en incrustaciones específicas de habla. Referencia: facebook/wav2vec2-base-960h.

MultiTalk (MeiGen-AI)

Método de investigación para video conversacional de múltiples personas impulsado por audio. Implementación de referencia: MeiGen-AI/MultiTalk.

ComfyUI Wan Video Wrapper

Integración de ComfyUI que expone la carga de Wan 2.1, codificadores y el muestreador de video, además del nodo de incrustación de MultiTalk. Referencia: kijai/ComfyUI-WanVideoWrapper.

Index-TTS (opcional)

Texto a voz con referencia de voz para generar pistas de diálogo limpias dentro del flujo de trabajo. Referencia: chenpipi0807/ComfyUI-Index-TTS.

Cómo usar el flujo de trabajo ComfyUI MultiTalk

Este flujo de trabajo se ejecuta de extremo a extremo: preparas hablantes y audio, configuras un breve aviso de escena, y luego renderizas. Admite configuraciones tanto de múltiples personas como de una sola persona. Los grupos en el gráfico mantienen las cosas organizadas; los más importantes se describen a continuación.

Entrada y Salida

Carga imágenes de identidad para las caras de tus hablantes y máscaras de vista previa, luego mezcla los fotogramas finales con audio. Los nodos LoadImage aceptan tus retratos, mientras que VHS_VideoCombine ensambla los fotogramas renderizados con la pista de audio seleccionada en un MP4. Puedes revisar el audio con PreviewAudio durante la configuración para confirmar niveles y duración.

Modelo

Get_WanModel, Get_WanTextEncoder y WanVideoModelLoader inicializan Wan 2.1 junto con los componentes de texto y VAE. Piensa en esto como la sala de máquinas: una vez cargado, el muestreador de video puede aceptar incrustaciones de imagen, texto y conversación. Rara vez necesitas cambiar algo aquí más allá de asegurar que se seleccionen los pesos correctos de Wan.

Audio de Hablante (dos maneras)

Puedes traer tus propias pistas de diálogo o sintetizarlas:

Traer audio: Usa LoadAudio para importar la línea de cada hablante. Si un clip está mezclado con música o ruido, pásalo por AudioSeparation y dirige el resultado limpio Vocals hacia adelante.
Generar audio: Usa Speaker 1 - Text y Speaker 2 - Text con IndexTTSNode para sintetizar voces a partir de líneas escritas, opcionalmente dando reference_audio para el timbre deseado.

Incrustaciones de audio MultiTalk

MultiTalkWav2VecEmbeds convierte el habla en incrustaciones de MultiTalk que capturan señales de tiempo y articulación para cada hablante. Aliméntalo con una corriente de audio para una sola persona, o dos corrientes para diálogo de múltiples personas. Si tu escena necesita orientación específica para cada cara, proporciona máscaras de cara limpias como ref_target_masks para que cada voz dirija a la persona correcta.

Aviso y contexto de texto

Un breve aviso de escena a través de Prompt y WanVideoTextEncodeSingle establece el ambiente visual y el entorno. Mantén los avisos concisos y descriptivos (ubicación, tono, iluminación). El codificador de texto genera orientación semántica que Wan usa junto con señales de identidad y conversación.

Uni3C y Redimensionar

El grupo Uni3C prepara incrustaciones de contexto global que ayudan a estabilizar la identidad, el encuadre y la composición a lo largo del tiempo. El grupo Resize asegura que las imágenes fuente y las máscaras se escalen a dimensiones amigables para el modelo para que el muestreador reciba entradas consistentes.

KSampler y procesamiento de muestreo

WanVideoSampler es donde todo se encuentra: incrustaciones de imagen de identidad, incrustaciones de texto e incrustaciones de audio MultiTalk se combinan para producir los fotogramas finales. El grupo de procesamiento de muestreo aplica cualquier paso posterior necesario para suavidad y consistencia antes de la entrega al combinador de video.

Máscaras para múltiples personas

Para clips de múltiples personas, dibuja una máscara por cara en el editor de máscaras de ComfyUI. Mantén las máscaras separadas para que nunca se toquen. Si solo proporcionas una máscara y una pista de audio, el flujo de trabajo se comporta automáticamente como una configuración de MultiTalk de una sola persona.

Nodos clave en el flujo de trabajo ComfyUI MultiTalk

`MultiTalkWav2VecEmbeds` (#79/#162)

Convierte una o más pistas de diálogo en incrustaciones de conversación MultiTalk. Comienza con una entrada de audio para una sola persona o dos para múltiples personas; agrega máscaras cuando necesites enrutamiento por cara. Ajusta solo lo que importa: número de fotogramas para coincidir con la longitud planificada del clip, y si proporcionar ref_target_masks para una alineación precisa hablante-cara.

`AudioSeparation` (#88/#160/#161)

Limpieza opcional para entradas ruidosas. Dirige tu clip ruidoso a este nodo y adelanta la salida Vocals. Úsalo cuando las grabaciones de campo incluyan música de fondo o charla; omítelo si ya tienes pistas de voz limpias.

`IndexTTSNode` (#163/#164)

Convierte Speaker 1 - Text y Speaker 2 - Text en audio de diálogo. Proporciona un breve reference_audio para clonar tono y ritmo, luego suministra líneas de texto. Mantén las oraciones breves y naturales para obtener la mejor sincronización de labios en MultiTalk.

`WanVideoTextEncodeSingle` (#18)

Codifica tu aviso de escena para Wan 2.1. Prefiere descripciones simples y concretas del lugar, iluminación y estilo. Evita listas largas; una o dos oraciones son suficientes para que el muestreador l

Agradecimientos

Investigación Original: MultiTalk es desarrollado por MeiGen-AI con la colaboración de investigadores líderes en el campo. El documento original "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la investigación innovadora detrás de esta tecnología. Integración de ComfyUI: La implementación de ComfyUI es proporcionada por Kijai a través del repositorio ComfyUI-WanVideoWrapper, haciendo que esta avanzada tecnología sea accesible para la comunidad creativa en general.

Tecnología Base: Construido sobre el modelo de difusión de video Wan2.1 e incorpora técnicas de procesamiento de audio de Wav2Vec, representando una síntesis de investigación de IA de vanguardia.

Enlaces y Recursos

Investigación Original: Repositorio MeiGen-AI MultiTalk
Página del Proyecto: https://meigen-ai.github.io/multi-talk/
Integración de ComfyUI: ComfyUI-WanVideoWrapper

Want More ComfyUI Workflows?

Hallo2 | Animación de Retrato de Sincronización Labial

Sincronización labial impulsada por audio para animación de retratos en 4K.

Sonic | Animación de Retratos con Sincronización Labial

Sonic ofrece sincronización labial avanzada impulsada por audio para retratos con animación de alta calidad.

IPAdapter Plus (V2) | Cambiar ropa

Use IPAdapter Plus para la creación de sus modelos de moda, cambiando fácilmente de atuendos y estilos

EchoMimic | Animaciones de Retratos Impulsadas por Audio

Genera cabezas parlantes y gestos corporales realistas sincronizados con el audio proporcionado.

Face Restore + ControlNet + Reactor | Restaurar fotos antiguas

Revive fotos desvanecidas en recuerdos vibrantes, preservando cada detalle para una reminiscencia preciada.

IPAdapter Plus (V2) | Transferencia de estilo con una imagen

Use IPAdapter Plus y ControlNet para una transferencia de estilo precisa con una sola imagen de referencia.

ComfyUI FLUX | Una Nueva Generación de Imágenes Artísticas

Un nuevo modelo de generación de imágenes desarrollado por Black Forest Labs

ACE++ Intercambio de Rostros ｜ Edición de Imágenes

Intercambia rostros en imágenes con instrucciones en lenguaje natural mientras preservas el estilo y el contexto.

Soporte

Recursos

Legal

RunComfy

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.