logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Workflow Name: RunComfy/DreamID-Omni
Workflow ID: 0000...1381
Este workflow ajuda você a transformar uma única imagem e áudio em vídeos falantes naturais que preservam a identidade. Você pode facilmente produzir monólogos de uma pessoa ou diálogos de duas pessoas para narrativas, mensagens de avatar ou personagens virtuais. Ele mantém os detalhes faciais consistentes e os movimentos labiais precisos. Projetado para criadores, oferece animação precisa orientada por áudio. Você obtém geração eficiente e resultados de vídeo realistas para qualquer projeto baseado em personagens.

Workflow de vídeo falante de personagem único e duplo DreamID-Omni para ComfyUI

Este workflow transforma uma única foto de referência e um clipe de áudio em um vídeo falante que preserva a identidade. Alimentado pelo modelo DreamID-Omni, ele combina uma moderna estrutura de vídeo com movimento labial orientado por MMAudio para que o sujeito fale naturalmente enquanto mantém o rosto da sua imagem. Ele também suporta dois personagens, permitindo clipes de conversa lado a lado conduzidos por duas vozes.

Projetado para criadores, equipes de produto e pesquisadores, o workflow DreamID-Omni no ComfyUI é ideal para avatares digitais, anúncios personalizados, introduções de tutoriais e cenas de diálogo em IA. Você fornece fotos e áudio, descreve opcionalmente a cena em um prompt curto, e o gráfico renderiza um vídeo polido pronto para compartilhar.

Modelos principais no workflow DreamID-Omni do ComfyUI

  • DreamID-Omni. O módulo central de identidade que preserva a pessoa na sua imagem de referência através dos quadros enquanto responde ao áudio para movimentos labiais realistas. Veja o repositório oficial e os pesos para detalhes: DreamID-Omni e DreamID-Omni no Hugging Face.
  • Wan 2.2 geração de vídeo. Uma estrutura de difusão de vídeo de alta capacidade que sintetiza movimento coerente, iluminação e composição de cena enquanto o DreamID-Omni orienta a identidade facial.
  • MMAudio. Um modelo de representação de áudio que condiciona as formas da boca e sutis sinais faciais para alinhar com o discurso fornecido, melhorando o realismo da sincronização labial.

Como usar o workflow DreamID-Omni do ComfyUI

Este gráfico tem dois caminhos paralelos. O caminho de uma pessoa usa uma imagem e um áudio. O caminho de duas pessoas usa duas imagens e dois áudios para produzir um clipe de conversa. Um carregador compartilhado DreamID-Omni inicializa o pipeline para ambos.

Pessoa Nº 1

Use Load Reference Image (Person 1) (#6) para selecionar um retrato claro e de frente com iluminação uniforme e mínima oclusão. Use Load Reference Audio (Person 1) (#7) para fornecer o discurso que você deseja que o personagem diga. Áudio mais limpo produz melhor sincronização labial, então prefira discursos sem música ou ruídos de fundo fortes. Este par alimenta tanto o modo de uma pessoa quanto, quando habilitado, o sujeito esquerdo ou primeiro no modo de duas pessoas.

Pessoa Nº 2

Use Load Reference Image (Person 2) (#9) e Load Reference Audio (Person 2) (#11) ao criar um diálogo. Escolha uma foto que corresponda ao enquadramento da Pessoa 1 para manter a composição equilibrada. Certifique-se de que o segundo áudio seja semelhante em volume ao primeiro para evitar mudanças perceptuais abruptas. Se você estiver fazendo apenas um clipe de uma pessoa, pode ignorar este grupo.

Vídeo de 1 Pessoa

O caminho do orador único é conduzido por ComfyUI DreamID-Omni Sampler (#21). Ele funde o pipeline DreamID-Omni com a foto e o áudio da Pessoa 1, então renderiza uma cena consistente com a descrição breve da cena no campo de prompt do nó. Mantenha seu prompt conciso e prático, por exemplo, descrevendo o fundo, distância da câmera e comportamento. O resultado é escrito por 💾 Save Video (Single Person) (#4), que nomeia e exporta o arquivo para você.

Vídeo de 2 Pessoas

O caminho do diálogo usa ComfyUI DreamID-Omni Sampler (#22) para compor duas identidades em um quadro e conduzir cada boca com seu áudio emparelhado. Forneça um breve prompt para definir o ambiente e o estilo de interação, como um espaço de co-working, tom casual ou quem fala primeiro. Isso ajuda a estabilizar o posicionamento da câmera e os gestos enquanto DreamID-Omni e MMAudio mantêm identidade e alinhamento labial. O clipe é exportado por 💾 Save Video (Two Persons) (#5).

Pipeline compartilhado DreamID-Omni

ComfyUI DreamID-Omni Loader (#23) inicializa os componentes DreamID-Omni usados por ambos os caminhos. Normalmente, você não precisa ajustar nada aqui. Desde que os pesos e o nó ComfyUI estejam disponíveis, o carregador prepara o pipeline para que os amostradores possam renderizar.

Nós principais no workflow DreamID-Omni do ComfyUI

ComfyUI DreamID-Omni Loader (#23)

Inicializa o pipeline DreamID-Omni e disponibiliza seus pesos para amostradores a jusante. Não há entradas típicas do usuário aqui. Se você mantiver várias variantes do modelo, confirme que os pesos corretos estão instalados antes de enfileirar renderizações.

ComfyUI DreamID-Omni Sampler (#21)

Renderização de uma pessoa. Este nó combina o pipeline do carregador com a primeira imagem e áudio de referência para sintetizar uma cabeça falante que preserva a identidade. O campo de prompt é onde você define a cena e o comportamento; a semente controla a repetibilidade; a resolução determina o enquadramento e o detalhe facial; e os passos trocam velocidade por fidelidade. Para resultados consistentes em várias tomadas, reutilize a mesma semente e mantenha as mudanças de prompt mínimas.

ComfyUI DreamID-Omni Sampler (#22)

Renderização de duas pessoas. Esta instância aceita duas fotos e dois áudios, emparelhando cada voz com seu sujeito para movimento labial sincronizado. O prompt pode encenar a conversa e o layout da câmera. Ajuste a semente e a resolução como faria no modo de uma pessoa, e certifique-se de que ambos os áudios estejam ajustados ao tempo desejado antes de renderizar.

💾 Save Video (Single Person) (#4)

Grava a saída de um orador no disco. Defina a pasta ou nome base para manter as versões organizadas. Se disponível, deixe as opções de codec e taxa de quadros no automático quando não tiver certeza.

💾 Save Video (Two Persons) (#5)

Grava a saída do diálogo no disco. Use um nome base distinto para que clipes de uma e duas pessoas sejam fáceis de distinguir. Mantenha as configurações de exportação automáticas para confiabilidade, a menos que você tenha um requisito específico de entrega.

Extras opcionais

  • Mantenha os rostos grandes o suficiente nas imagens de referência para ocupar uma parte significativa do quadro para um bloqueio de identidade mais forte.
  • Use áudio de fala limpo e bem nivelado. Corte silêncios no início para evitar lábios congelados inicialmente.
  • Para um visual mais estável, reutilize a mesma semente ao iterar sobre prompts ou roupas.
  • Se o espaçamento de duas pessoas parecer apertado, reformule o prompt para alargar a câmera ou aumentar o espaço para os ombros em vez de cortar rostos.
  • Para ativos e atualizações, veja o modelo e nó oficial: DreamID-Omni, ComfyUI_RH_Dreamid-Omni, e DreamID-Omni weights.

Agradecimentos

Este workflow implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Guoxu1233 pelo modelo/workflow DreamID-Omni, HM-RunningHub pelo nó DreamID-Omni ComfyUI, e XuGuo699 pelos pesos do modelo DreamID-Omni por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.

Recursos

  • Repositório Oficial DreamID-Omni - https://github.com/Guoxu1233/DreamID-Omni
    • GitHub: Guoxu1233/DreamID-Omni
  • Nó ComfyUI DreamID-Omni (RunningHub) - https://github.com/HM-RunningHub/ComfyUI_RH_Dreamid-Omni
    • GitHub: HM-RunningHub/ComfyUI_RH_Dreamid-Omni
  • Pesos do Modelo DreamID-Omni (Hugging Face) - https://huggingface.co/XuGuo699/DreamID-Omni
    • Hugging Face: XuGuo699/DreamID-Omni

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan2.2 S2V | Gerador de Som para Vídeo

Transforma seu clipe de áudio em vídeo realista e sincronizado a partir de uma imagem

Controle de Pose LipSync S2V | Gerador de Vídeo Expressivo

Transforme imagens em personagens falantes e em movimento com controle de pose e áudio.

Multitalk | Criador de Vídeo Falante Realista

Crie vídeos de sincronização labial com vários falantes a partir de retratos e vozes com um clique!

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

Fluxtapoz | RF Inversion and Stylization

Nodos Fluxtapoz para RF Inversion e Estilização - Unsampling e Sampling

Wan 2.1 Ditto | Gerador de Restilização de Vídeo Cinematográfico

Transforme vídeos em estilos artísticos deslumbrantes com fluxo de movimento perfeito.

DreamO | Framework Unificado de Personalização de Imagem Multi-Tarefa

Realize geração de imagem com identidade, estilo, experimentação e multi-condição a partir de 1–3 referências

Audioreactive Dancers Evolved

Transforme seu sujeito com um fundo audioreativo feito de geometrías intrincadas.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.