ComfyUI>Fluxos de Trabalho>DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Workflow Name: RunComfy/DreamID-Omni
Workflow ID: 0000...1381
Este workflow ajuda você a transformar uma única imagem e áudio em vídeos falantes naturais que preservam a identidade. Você pode facilmente produzir monólogos de uma pessoa ou diálogos de duas pessoas para narrativas, mensagens de avatar ou personagens virtuais. Ele mantém os detalhes faciais consistentes e os movimentos labiais precisos. Projetado para criadores, oferece animação precisa orientada por áudio. Você obtém geração eficiente e resultados de vídeo realistas para qualquer projeto baseado em personagens.

ComfyUI DreamID-Omni Workflow

DreamID-Omni in ComfyUI | Single & Dual Talking Video Workflow
Want to run this workflow?
  • Fully operational workflows
  • No missing nodes or models
  • No manual setups required
  • Features stunning visuals

ComfyUI DreamID-Omni Examples

Workflow de vídeo falante de personagem único e duplo DreamID-Omni para ComfyUI#

Este workflow transforma uma única foto de referência e um clipe de áudio em um vídeo falante que preserva a identidade. Alimentado pelo modelo DreamID-Omni, ele combina uma moderna estrutura de vídeo com movimento labial orientado por MMAudio para que o sujeito fale naturalmente enquanto mantém o rosto da sua imagem. Ele também suporta dois personagens, permitindo clipes de conversa lado a lado conduzidos por duas vozes.

Projetado para criadores, equipes de produto e pesquisadores, o workflow DreamID-Omni no ComfyUI é ideal para avatares digitais, anúncios personalizados, introduções de tutoriais e cenas de diálogo em IA. Você fornece fotos e áudio, descreve opcionalmente a cena em um prompt curto, e o gráfico renderiza um vídeo polido pronto para compartilhar.

Modelos principais no workflow DreamID-Omni do ComfyUI#

  • DreamID-Omni. O módulo central de identidade que preserva a pessoa na sua imagem de referência através dos quadros enquanto responde ao áudio para movimentos labiais realistas. Veja o repositório oficial e os pesos para detalhes: DreamID-Omni e DreamID-Omni no Hugging Face.
  • Wan 2.2 geração de vídeo. Uma estrutura de difusão de vídeo de alta capacidade que sintetiza movimento coerente, iluminação e composição de cena enquanto o DreamID-Omni orienta a identidade facial.
  • MMAudio. Um modelo de representação de áudio que condiciona as formas da boca e sutis sinais faciais para alinhar com o discurso fornecido, melhorando o realismo da sincronização labial.

Como usar o workflow DreamID-Omni do ComfyUI#

Este gráfico tem dois caminhos paralelos. O caminho de uma pessoa usa uma imagem e um áudio. O caminho de duas pessoas usa duas imagens e dois áudios para produzir um clipe de conversa. Um carregador compartilhado DreamID-Omni inicializa o pipeline para ambos.

Pessoa Nº 1#

Use Load Reference Image (Person 1) (#6) para selecionar um retrato claro e de frente com iluminação uniforme e mínima oclusão. Use Load Reference Audio (Person 1) (#7) para fornecer o discurso que você deseja que o personagem diga. Áudio mais limpo produz melhor sincronização labial, então prefira discursos sem música ou ruídos de fundo fortes. Este par alimenta tanto o modo de uma pessoa quanto, quando habilitado, o sujeito esquerdo ou primeiro no modo de duas pessoas.

Pessoa Nº 2#

Use Load Reference Image (Person 2) (#9) e Load Reference Audio (Person 2) (#11) ao criar um diálogo. Escolha uma foto que corresponda ao enquadramento da Pessoa 1 para manter a composição equilibrada. Certifique-se de que o segundo áudio seja semelhante em volume ao primeiro para evitar mudanças perceptuais abruptas. Se você estiver fazendo apenas um clipe de uma pessoa, pode ignorar este grupo.

Vídeo de 1 Pessoa#

O caminho do orador único é conduzido por ComfyUI DreamID-Omni Sampler (#21). Ele funde o pipeline DreamID-Omni com a foto e o áudio da Pessoa 1, então renderiza uma cena consistente com a descrição breve da cena no campo de prompt do nó. Mantenha seu prompt conciso e prático, por exemplo, descrevendo o fundo, distância da câmera e comportamento. O resultado é escrito por 💾 Save Video (Single Person) (#4), que nomeia e exporta o arquivo para você.

Vídeo de 2 Pessoas#

O caminho do diálogo usa ComfyUI DreamID-Omni Sampler (#22) para compor duas identidades em um quadro e conduzir cada boca com seu áudio emparelhado. Forneça um breve prompt para definir o ambiente e o estilo de interação, como um espaço de co-working, tom casual ou quem fala primeiro. Isso ajuda a estabilizar o posicionamento da câmera e os gestos enquanto DreamID-Omni e MMAudio mantêm identidade e alinhamento labial. O clipe é exportado por 💾 Save Video (Two Persons) (#5).

Pipeline compartilhado DreamID-Omni#

ComfyUI DreamID-Omni Loader (#23) inicializa os componentes DreamID-Omni usados por ambos os caminhos. Normalmente, você não precisa ajustar nada aqui. Desde que os pesos e o nó ComfyUI estejam disponíveis, o carregador prepara o pipeline para que os amostradores possam renderizar.

Nós principais no workflow DreamID-Omni do ComfyUI#

ComfyUI DreamID-Omni Loader (#23)#

Inicializa o pipeline DreamID-Omni e disponibiliza seus pesos para amostradores a jusante. Não há entradas típicas do usuário aqui. Se você mantiver várias variantes do modelo, confirme que os pesos corretos estão instalados antes de enfileirar renderizações.

ComfyUI DreamID-Omni Sampler (#21)#

Renderização de uma pessoa. Este nó combina o pipeline do carregador com a primeira imagem e áudio de referência para sintetizar uma cabeça falante que preserva a identidade. O campo de prompt é onde você define a cena e o comportamento; a semente controla a repetibilidade; a resolução determina o enquadramento e o detalhe facial; e os passos trocam velocidade por fidelidade. Para resultados consistentes em várias tomadas, reutilize a mesma semente e mantenha as mudanças de prompt mínimas.

ComfyUI DreamID-Omni Sampler (#22)#

Renderização de duas pessoas. Esta instância aceita duas fotos e dois áudios, emparelhando cada voz com seu sujeito para movimento labial sincronizado. O prompt pode encenar a conversa e o layout da câmera. Ajuste a semente e a resolução como faria no modo de uma pessoa, e certifique-se de que ambos os áudios estejam ajustados ao tempo desejado antes de renderizar.

💾 Save Video (Single Person) (#4)#

Grava a saída de um orador no disco. Defina a pasta ou nome base para manter as versões organizadas. Se disponível, deixe as opções de codec e taxa de quadros no automático quando não tiver certeza.

💾 Save Video (Two Persons) (#5)#

Grava a saída do diálogo no disco. Use um nome base distinto para que clipes de uma e duas pessoas sejam fáceis de distinguir. Mantenha as configurações de exportação automáticas para confiabilidade, a menos que você tenha um requisito específico de entrega.

Extras opcionais#

  • Mantenha os rostos grandes o suficiente nas imagens de referência para ocupar uma parte significativa do quadro para um bloqueio de identidade mais forte.
  • Use áudio de fala limpo e bem nivelado. Corte silêncios no início para evitar lábios congelados inicialmente.
  • Para um visual mais estável, reutilize a mesma semente ao iterar sobre prompts ou roupas.
  • Se o espaçamento de duas pessoas parecer apertado, reformule o prompt para alargar a câmera ou aumentar o espaço para os ombros em vez de cortar rostos.
  • Para ativos e atualizações, veja o modelo e nó oficial: DreamID-Omni, ComfyUI_RH_Dreamid-Omni, e DreamID-Omni weights.

Agradecimentos#

Este workflow implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Guoxu1233 pelo modelo/workflow DreamID-Omni, HM-RunningHub pelo nó DreamID-Omni ComfyUI, e XuGuo699 pelos pesos do modelo DreamID-Omni por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.

Recursos#

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.