logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Flujos de trabajo>DreamID-Omni | Creador de Video Hablante a partir de Foto

DreamID-Omni | Creador de Video Hablante a partir de Foto

Workflow Name: RunComfy/DreamID-Omni
Workflow ID: 0000...1381
Este flujo de trabajo te ayuda a convertir una sola imagen y audio en videos hablantes naturales que preservan la identidad. Puedes producir fácilmente monólogos de una persona o diálogos de dos personas para narraciones, mensajes de avatar o personajes virtuales. Mantiene los detalles faciales consistentes y los movimientos labiales precisos. Diseñado para creadores, ofrece animación precisa impulsada por audio. Obtienes generación eficiente y resultados de video realistas para cualquier proyecto basado en personajes.

Flujo de trabajo de video hablante de personaje único y dual de DreamID-Omni para ComfyUI

Este flujo de trabajo convierte una foto de referencia única y un clip de audio en un video de cabeza parlante que preserva la identidad. Impulsado por el modelo DreamID-Omni, combina una estructura de video moderna con movimiento labial impulsado por MMAudio para que el sujeto hable naturalmente mientras mantiene el rostro de tu imagen. También admite dos personajes, permitiendo clips conversacionales lado a lado impulsados por dos voces.

Diseñado para creadores, equipos de producto e investigadores, el flujo de trabajo DreamID-Omni en ComfyUI es ideal para avatares digitales, anuncios personalizados, intros de tutoriales y escenas de diálogo de IA. Proporcionas fotos y audio, opcionalmente describes la toma en un breve aviso, y el gráfico renderiza un video pulido listo para compartir.

Modelos clave en el flujo de trabajo DreamID-Omni de ComfyUI

  • DreamID-Omni. El módulo central de identidad que preserva la persona en tu imagen de referencia a lo largo de los fotogramas mientras responde al audio para movimientos labiales realistas. Consulta el repositorio oficial y los pesos para más detalles: DreamID-Omni y DreamID-Omni en Hugging Face.
  • Wan 2.2 generación de video. Una estructura de difusión de video de alta capacidad que sintetiza movimiento coherente, iluminación y composición de la toma mientras DreamID-Omni dirige la identidad facial.
  • MMAudio. Un modelo de representación de audio que condiciona las formas de la boca y las sutiles señales faciales para alinearse con el discurso proporcionado, mejorando el realismo de la sincronización labial.

Cómo usar el flujo de trabajo DreamID-Omni de ComfyUI

Este gráfico tiene dos rutas paralelas. La ruta de una persona usa una imagen y un audio. La ruta de dos personas usa dos imágenes y dos audios para producir un clip conversacional. Un cargador DreamID-Omni compartido inicializa la tubería para ambos.

Persona No. 1

Usa Cargar Imagen de Referencia (Persona 1) (#6) para seleccionar un retrato claro, de frente, con iluminación uniforme y mínima oclusión. Usa Cargar Audio de Referencia (Persona 1) (#7) para proporcionar el discurso que deseas que el personaje diga. El audio más limpio produce mejor sincronización labial, por lo que se prefiere el discurso sin música o ruido de fondo fuerte. Este par alimenta tanto el modo de una sola persona como, cuando está habilitado, el sujeto izquierdo o primero en el modo de dos personas.

Persona No. 2

Usa Cargar Imagen de Referencia (Persona 2) (#9) y Cargar Audio de Referencia (Persona 2) (#11) al crear un diálogo. Elige una foto que coincida con el encuadre de la Persona 1 para mantener el equilibrio de la composición. Asegúrate de que el segundo audio sea similar en volumen al primero para evitar cambios perceptuales abruptos. Si solo estás haciendo un clip de una persona, puedes ignorar este grupo.

Video de 1 Persona

La ruta de un solo hablante es impulsada por ComfyUI DreamID-Omni Sampler (#21). Fusiona la tubería DreamID-Omni con la foto y el audio de la Persona 1, luego renderiza una toma consistente con la descripción breve de la escena en el área de aviso del nodo. Mantén tu aviso conciso y práctico, por ejemplo, describiendo el fondo, la distancia de la cámara y el comportamiento. El resultado es escrito por 💾 Guardar Video (Una Persona) (#4), que nombra y exporta el archivo para ti.

Video de 2 Personas

La ruta de diálogo usa ComfyUI DreamID-Omni Sampler (#22) para componer dos identidades en un solo cuadro y conducir cada boca con su audio emparejado. Proporciona un breve aviso para establecer el entorno y el estilo de interacción, como un espacio de co-trabajo, tono casual o quién habla primero. Esto ayuda a estabilizar la colocación de la cámara y los gestos mientras DreamID-Omni y MMAudio mantienen la identidad y la alineación labial. El clip es exportado por 💾 Guardar Video (Dos Personas) (#5).

Tubería DreamID-Omni compartida

ComfyUI DreamID-Omni Loader (#23) inicializa los componentes DreamID-Omni utilizados por ambas rutas. Normalmente no necesitas ajustar nada aquí. Siempre que los pesos y el nodo ComfyUI estén disponibles, el cargador prepara la tubería para que los muestreadores puedan renderizar.

Nodos clave en el flujo de trabajo DreamID-Omni de ComfyUI

ComfyUI DreamID-Omni Loader (#23)

Inicializa la tubería DreamID-Omni y hace que sus pesos estén disponibles para los muestreadores posteriores. No hay entradas típicas de usuario aquí. Si mantienes múltiples variantes de modelo, confirma que los pesos correctos están instalados antes de poner en cola los renderizados.

ComfyUI DreamID-Omni Sampler (#21)

Renderizado de una sola persona. Este nodo combina la tubería del cargador con la primera imagen de referencia y audio para sintetizar una cabeza parlante que preserva la identidad. El campo de aviso es donde defines la escena y el comportamiento; la semilla controla la repetibilidad; la resolución determina el encuadre y el detalle facial; y los pasos intercambian velocidad por fidelidad. Para resultados consistentes en todas las tomas, reutiliza la misma semilla y mantén los cambios de aviso al mínimo.

ComfyUI DreamID-Omni Sampler (#22)

Renderizado de dos personas. Esta instancia acepta dos fotos y dos audios, emparejando cada voz con su sujeto para un movimiento labial sincronizado. El aviso puede escenificar la conversación y el diseño de la cámara. Ajusta la semilla y la resolución como lo harías en el modo de una sola persona, y asegura que ambos audios estén recortados al tiempo deseado antes de renderizar.

💾 Guardar Video (Una Persona) (#4)

Escribe la salida de un solo hablante en el disco. Establece la carpeta o nombre base para mantener las versiones organizadas. Si está disponible, deja las opciones de códec y velocidad de fotogramas en automático cuando no estés seguro.

💾 Guardar Video (Dos Personas) (#5)

Escribe la salida de diálogo en el disco. Usa un nombre base distinto para que los clips de una y dos personas sean fáciles de distinguir. Mantén las configuraciones de exportación automáticas para fiabilidad a menos que tengas un requisito de entrega específico.

Extras opcionales

  • Mantén los rostros lo suficientemente grandes en las imágenes de referencia para ocupar una porción significativa del cuadro para un bloqueo de identidad más fuerte.
  • Usa audio de discurso limpio y bien nivelado. Recorta los silencios al inicio para evitar labios congelados iniciales.
  • Para un aspecto más estable, reutiliza la misma semilla al iterar en avisos o atuendos.
  • Si el espacio para dos personas se siente apretado, reformula el aviso para ampliar la cámara o aumentar el espacio para los hombros en lugar de recortar rostros.
  • Para activos y actualizaciones, consulta el modelo y nodo oficiales: DreamID-Omni, ComfyUI_RH_Dreamid-Omni, y pesos de DreamID-Omni.

Agradecimientos

Este flujo de trabajo implementa y se basa en los siguientes trabajos y recursos. Agradecemos a Guoxu1233 por el modelo/flujo de trabajo DreamID-Omni, a HM-RunningHub por el nodo ComfyUI de DreamID-Omni, y a XuGuo699 por los pesos del modelo DreamID-Omni por sus contribuciones y mantenimiento. Para detalles autorizados, por favor consulta la documentación y repositorios originales enlazados a continuación.

Recursos

  • Repositorio Oficial de DreamID-Omni - https://github.com/Guoxu1233/DreamID-Omni
    • GitHub: Guoxu1233/DreamID-Omni
  • Nodo ComfyUI de DreamID-Omni (RunningHub) - https://github.com/HM-RunningHub/ComfyUI_RH_Dreamid-Omni
    • GitHub: HM-RunningHub/ComfyUI_RH_Dreamid-Omni
  • Pesos del Modelo DreamID-Omni (Hugging Face) - https://huggingface.co/XuGuo699/DreamID-Omni
    • Hugging Face: XuGuo699/DreamID-Omni

Nota: El uso de los modelos referenciados, conjuntos de datos y código está sujeto a las respectivas licencias y términos proporcionados por sus autores y mantenedores.

Want More ComfyUI Workflows?

Wan2.2 S2V | Generador de Sonido a Video

Convierte tu clip de audio en un video realista y sincronizado desde una imagen

Control de Pose LipSync S2V | Generador de Video Expresivo

Convierte imágenes en personajes que hablan y se mueven con control de pose y audio.

Multitalk | Creador de Videos Hablados Realistas

¡Crea videos sincronizados con labios de múltiples hablantes con un solo clic a partir de retratos y voces!

InfiniteTalk | Generador de Avatares Sincronizados con Labios

Foto + Voz = Avatar Hablante Perfectamente Sincronizado en Minutos

Qwen Image LoRA Inferencia | AI Toolkit ComfyUI

Mantén la inferencia de Qwen Image LoRA entrenada con AI Toolkit en ComfyUI alineada con las previsualizaciones utilizando un único nodo personalizado RCQwenImage.

Janus-Pro | T2I + I2T Model

Janus-Pro: Generación avanzada de Texto a Imagen y de Imagen a Texto.

FLUX NF4 | Acelera FLUX ImgGen

FLUX NF4 | Acelera FLUX ImgGen

Generación de imágenes más rápida y mejor gestión de recursos.

Transferencia de Estilo Consistente con Unsampling

Controlar el ruido latente con Unsampling ayuda a aumentar dramáticamente la consistencia en la transferencia de estilo de video.

Síguenos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Soporte
  • Discord
  • Correo electrónico
  • Estado del sistema
  • afiliado
Recursos
  • ComfyUI en línea gratis
  • Guías de ComfyUI
  • RunComfy API
  • Tutoriales de ComfyUI
  • Nodos de ComfyUI
  • Aprende más
Legal
  • Términos de servicio
  • Política de privacidad
  • Política de cookies
RunComfy
Derechos de autor 2026 RunComfy. Todos los derechos reservados.

RunComfy es la principal ComfyUI plataforma, ofreciendo ComfyUI en línea entorno y servicios, junto con flujos de trabajo de ComfyUI con impresionantes imágenes. RunComfy también ofrece AI Models, permitiendo a los artistas aprovechar las últimas herramientas de AI para crear arte increíble.