Nota:
Esta es la versión mejorada para múltiples personas de nuestro flujo de trabajo ComfyUI MultiTalk .
Ahora admite generación de videos conversacionales de múltiples personas mientras sigue incluyendo el modo de una sola persona de nuestra versión anterior.
El flujo de trabajo es ideal para contenido social, videos explicativos de productos, diálogos de personajes y previsualización rápida. Combina las incrustaciones de audio de MultiTalk con la difusión de video para que los labios, la mandíbula y las sutiles señales faciales sigan el habla. Úsalo como una vía de inserción tanto para escenas de múltiples hablantes de Meigen MultiTalk como para clips de un solo hablante.
Modelo de difusión de video Wan 2.1
Impulsa la generación de video condicionada por texto e imagen. Maneja la apariencia de la escena, la cámara y el movimiento mientras acepta orientación adicional para la dinámica de la conversación.
Wav2Vec 2.0
Extrae representaciones robustas del habla que MultiTalk convierte en incrustaciones específicas de habla. Referencia: .
MultiTalk (MeiGen-AI)
Método de investigación para video conversacional de múltiples personas impulsado por audio. Implementación de referencia: .
ComfyUI Wan Video Wrapper
Integración de ComfyUI que expone la carga de Wan 2.1, codificadores y el muestreador de video, además del nodo de incrustación de MultiTalk. Referencia: .
Index-TTS (opcional)
Texto a voz con referencia de voz para generar pistas de diálogo limpias dentro del flujo de trabajo. Referencia: .
Este flujo de trabajo se ejecuta de extremo a extremo: preparas hablantes y audio, configuras un breve aviso de escena, y luego renderizas. Admite configuraciones tanto de múltiples personas como de una sola persona. Los grupos en el gráfico mantienen las cosas organizadas; los más importantes se describen a continuación.
Carga imágenes de identidad para las caras de tus hablantes y máscaras de vista previa, luego mezcla los fotogramas finales con audio. Los nodos LoadImage
aceptan tus retratos, mientras que VHS_VideoCombine
ensambla los fotogramas renderizados con la pista de audio seleccionada en un MP4. Puedes revisar el audio con PreviewAudio
durante la configuración para confirmar niveles y duración.
Get_WanModel
, Get_WanTextEncoder
y WanVideoModelLoader
inicializan Wan 2.1 junto con los componentes de texto y VAE. Piensa en esto como la sala de máquinas: una vez cargado, el muestreador de video puede aceptar incrustaciones de imagen, texto y conversación. Rara vez necesitas cambiar algo aquí más allá de asegurar que se seleccionen los pesos correctos de Wan.
Puedes traer tus propias pistas de diálogo o sintetizarlas:
LoadAudio
para importar la línea de cada hablante. Si un clip está mezclado con música o ruido, pásalo por AudioSeparation
y dirige el resultado limpio Vocals
hacia adelante.Speaker 1 - Text
y Speaker 2 - Text
con IndexTTSNode
para sintetizar voces a partir de líneas escritas, opcionalmente dando reference_audio
para el timbre deseado.MultiTalkWav2VecEmbeds
convierte el habla en incrustaciones de MultiTalk que capturan señales de tiempo y articulación para cada hablante. Aliméntalo con una corriente de audio para una sola persona, o dos corrientes para diálogo de múltiples personas. Si tu escena necesita orientación específica para cada cara, proporciona máscaras de cara limpias como ref_target_masks
para que cada voz dirija a la persona correcta.
Un breve aviso de escena a través de Prompt
y WanVideoTextEncodeSingle
establece el ambiente visual y el entorno. Mantén los avisos concisos y descriptivos (ubicación, tono, iluminación). El codificador de texto genera orientación semántica que Wan usa junto con señales de identidad y conversación.
El grupo Uni3C prepara incrustaciones de contexto global que ayudan a estabilizar la identidad, el encuadre y la composición a lo largo del tiempo. El grupo Resize asegura que las imágenes fuente y las máscaras se escalen a dimensiones amigables para el modelo para que el muestreador reciba entradas consistentes.
WanVideoSampler
es donde todo se encuentra: incrustaciones de imagen de identidad, incrustaciones de texto e incrustaciones de audio MultiTalk se combinan para producir los fotogramas finales. El grupo de procesamiento de muestreo aplica cualquier paso posterior necesario para suavidad y consistencia antes de la entrega al combinador de video.
Para clips de múltiples personas, dibuja una máscara por cara en el editor de máscaras de ComfyUI. Mantén las máscaras separadas para que nunca se toquen. Si solo proporcionas una máscara y una pista de audio, el flujo de trabajo se comporta automáticamente como una configuración de MultiTalk de una sola persona.
MultiTalkWav2VecEmbeds
(#79/#162)Convierte una o más pistas de diálogo en incrustaciones de conversación MultiTalk. Comienza con una entrada de audio para una sola persona o dos para múltiples personas; agrega máscaras cuando necesites enrutamiento por cara. Ajusta solo lo que importa: número de fotogramas para coincidir con la longitud planificada del clip, y si proporcionar ref_target_masks
para una alineación precisa hablante-cara.
AudioSeparation
(#88/#160/#161)Limpieza opcional para entradas ruidosas. Dirige tu clip ruidoso a este nodo y adelanta la salida Vocals
. Úsalo cuando las grabaciones de campo incluyan música de fondo o charla; omítelo si ya tienes pistas de voz limpias.
IndexTTSNode
(#163/#164)Convierte Speaker 1 - Text
y Speaker 2 - Text
en audio de diálogo. Proporciona un breve reference_audio
para clonar tono y ritmo, luego suministra líneas de texto. Mantén las oraciones breves y naturales para obtener la mejor sincronización de labios en MultiTalk.
WanVideoTextEncodeSingle
(#18)Codifica tu aviso de escena para Wan 2.1. Prefiere descripciones simples y concretas del lugar, iluminación y estilo. Evita listas largas; una o dos oraciones son suficientes para que el muestreador l
Investigación Original: MultiTalk es desarrollado por MeiGen-AI con la colaboración de investigadores líderes en el campo. El documento original "Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation" presenta la investigación innovadora detrás de esta tecnología. Integración de ComfyUI: La implementación de ComfyUI es proporcionada por Kijai a través del repositorio ComfyUI-WanVideoWrapper, haciendo que esta avanzada tecnología sea accesible para la comunidad creativa en general.
Tecnología Base: Construido sobre el modelo de difusión de video Wan2.1 e incorpora técnicas de procesamiento de audio de Wav2Vec, representando una síntesis de investigación de IA de vanguardia.
RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Playground, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.