DreamID-Omni em ComfyUI | Workflow de Vídeo Falante Único & Duplo

ComfyUI DreamID-Omni Workflow

DreamID-Omni in ComfyUI | Single & Dual Talking Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI DreamID-Omni Examples

Workflow de vídeo falante de personagem único e duplo DreamID-Omni para ComfyUI#

Este workflow transforma uma única foto de referência e um clipe de áudio em um vídeo falante que preserva a identidade. Alimentado pelo modelo DreamID-Omni, ele combina uma moderna estrutura de vídeo com movimento labial orientado por MMAudio para que o sujeito fale naturalmente enquanto mantém o rosto da sua imagem. Ele também suporta dois personagens, permitindo clipes de conversa lado a lado conduzidos por duas vozes.

Projetado para criadores, equipes de produto e pesquisadores, o workflow DreamID-Omni no ComfyUI é ideal para avatares digitais, anúncios personalizados, introduções de tutoriais e cenas de diálogo em IA. Você fornece fotos e áudio, descreve opcionalmente a cena em um prompt curto, e o gráfico renderiza um vídeo polido pronto para compartilhar.

Modelos principais no workflow DreamID-Omni do ComfyUI#

DreamID-Omni. O módulo central de identidade que preserva a pessoa na sua imagem de referência através dos quadros enquanto responde ao áudio para movimentos labiais realistas. Veja o repositório oficial e os pesos para detalhes: DreamID-Omni e DreamID-Omni no Hugging Face.
Wan 2.2 geração de vídeo. Uma estrutura de difusão de vídeo de alta capacidade que sintetiza movimento coerente, iluminação e composição de cena enquanto o DreamID-Omni orienta a identidade facial.
MMAudio. Um modelo de representação de áudio que condiciona as formas da boca e sutis sinais faciais para alinhar com o discurso fornecido, melhorando o realismo da sincronização labial.

Como usar o workflow DreamID-Omni do ComfyUI#

Este gráfico tem dois caminhos paralelos. O caminho de uma pessoa usa uma imagem e um áudio. O caminho de duas pessoas usa duas imagens e dois áudios para produzir um clipe de conversa. Um carregador compartilhado DreamID-Omni inicializa o pipeline para ambos.

Pessoa Nº 1#

Use Load Reference Image (Person 1) (#6) para selecionar um retrato claro e de frente com iluminação uniforme e mínima oclusão. Use Load Reference Audio (Person 1) (#7) para fornecer o discurso que você deseja que o personagem diga. Áudio mais limpo produz melhor sincronização labial, então prefira discursos sem música ou ruídos de fundo fortes. Este par alimenta tanto o modo de uma pessoa quanto, quando habilitado, o sujeito esquerdo ou primeiro no modo de duas pessoas.

Pessoa Nº 2#

Use Load Reference Image (Person 2) (#9) e Load Reference Audio (Person 2) (#11) ao criar um diálogo. Escolha uma foto que corresponda ao enquadramento da Pessoa 1 para manter a composição equilibrada. Certifique-se de que o segundo áudio seja semelhante em volume ao primeiro para evitar mudanças perceptuais abruptas. Se você estiver fazendo apenas um clipe de uma pessoa, pode ignorar este grupo.

Vídeo de 1 Pessoa#

O caminho do orador único é conduzido por ComfyUI DreamID-Omni Sampler (#21). Ele funde o pipeline DreamID-Omni com a foto e o áudio da Pessoa 1, então renderiza uma cena consistente com a descrição breve da cena no campo de prompt do nó. Mantenha seu prompt conciso e prático, por exemplo, descrevendo o fundo, distância da câmera e comportamento. O resultado é escrito por 💾 Save Video (Single Person) (#4), que nomeia e exporta o arquivo para você.

Vídeo de 2 Pessoas#

O caminho do diálogo usa ComfyUI DreamID-Omni Sampler (#22) para compor duas identidades em um quadro e conduzir cada boca com seu áudio emparelhado. Forneça um breve prompt para definir o ambiente e o estilo de interação, como um espaço de co-working, tom casual ou quem fala primeiro. Isso ajuda a estabilizar o posicionamento da câmera e os gestos enquanto DreamID-Omni e MMAudio mantêm identidade e alinhamento labial. O clipe é exportado por 💾 Save Video (Two Persons) (#5).

Pipeline compartilhado DreamID-Omni#

ComfyUI DreamID-Omni Loader (#23) inicializa os componentes DreamID-Omni usados por ambos os caminhos. Normalmente, você não precisa ajustar nada aqui. Desde que os pesos e o nó ComfyUI estejam disponíveis, o carregador prepara o pipeline para que os amostradores possam renderizar.

Nós principais no workflow DreamID-Omni do ComfyUI#

`ComfyUI DreamID-Omni Loader` (#23)#

Inicializa o pipeline DreamID-Omni e disponibiliza seus pesos para amostradores a jusante. Não há entradas típicas do usuário aqui. Se você mantiver várias variantes do modelo, confirme que os pesos corretos estão instalados antes de enfileirar renderizações.

`ComfyUI DreamID-Omni Sampler` (#21)#

Renderização de uma pessoa. Este nó combina o pipeline do carregador com a primeira imagem e áudio de referência para sintetizar uma cabeça falante que preserva a identidade. O campo de prompt é onde você define a cena e o comportamento; a semente controla a repetibilidade; a resolução determina o enquadramento e o detalhe facial; e os passos trocam velocidade por fidelidade. Para resultados consistentes em várias tomadas, reutilize a mesma semente e mantenha as mudanças de prompt mínimas.

`ComfyUI DreamID-Omni Sampler` (#22)#

Renderização de duas pessoas. Esta instância aceita duas fotos e dois áudios, emparelhando cada voz com seu sujeito para movimento labial sincronizado. O prompt pode encenar a conversa e o layout da câmera. Ajuste a semente e a resolução como faria no modo de uma pessoa, e certifique-se de que ambos os áudios estejam ajustados ao tempo desejado antes de renderizar.

`💾 Save Video (Single Person)` (#4)#

Grava a saída de um orador no disco. Defina a pasta ou nome base para manter as versões organizadas. Se disponível, deixe as opções de codec e taxa de quadros no automático quando não tiver certeza.

`💾 Save Video (Two Persons)` (#5)#

Grava a saída do diálogo no disco. Use um nome base distinto para que clipes de uma e duas pessoas sejam fáceis de distinguir. Mantenha as configurações de exportação automáticas para confiabilidade, a menos que você tenha um requisito específico de entrega.

Extras opcionais#

Mantenha os rostos grandes o suficiente nas imagens de referência para ocupar uma parte significativa do quadro para um bloqueio de identidade mais forte.
Use áudio de fala limpo e bem nivelado. Corte silêncios no início para evitar lábios congelados inicialmente.
Para um visual mais estável, reutilize a mesma semente ao iterar sobre prompts ou roupas.
Se o espaçamento de duas pessoas parecer apertado, reformule o prompt para alargar a câmera ou aumentar o espaço para os ombros em vez de cortar rostos.
Para ativos e atualizações, veja o modelo e nó oficial: DreamID-Omni, ComfyUI_RH_Dreamid-Omni, e DreamID-Omni weights.

Agradecimentos#

Este workflow implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Guoxu1233 pelo modelo/workflow DreamID-Omni, HM-RunningHub pelo nó DreamID-Omni ComfyUI, e XuGuo699 pelos pesos do modelo DreamID-Omni por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação e os repositórios originais vinculados abaixo.

Recursos#

Repositório Oficial DreamID-Omni - https://github.com/Guoxu1233/DreamID-Omni
- GitHub: Guoxu1233/DreamID-Omni
Nó ComfyUI DreamID-Omni (RunningHub) - https://github.com/HM-RunningHub/ComfyUI_RH_Dreamid-Omni
- GitHub: HM-RunningHub/ComfyUI_RH_Dreamid-Omni
Pesos do Modelo DreamID-Omni (Hugging Face) - https://huggingface.co/XuGuo699/DreamID-Omni
- Hugging Face: XuGuo699/DreamID-Omni

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan2.2 S2V | Gerador de Som para Vídeo

Transforma seu clipe de áudio em vídeo realista e sincronizado a partir de uma imagem

Controle de Pose LipSync S2V | Gerador de Vídeo Expressivo

Transforme imagens em personagens falantes e em movimento com controle de pose e áudio.

Multitalk | Criador de Vídeo Falante Realista

Crie vídeos de sincronização labial com vários falantes a partir de retratos e vozes com um clique!

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

Hunyuan LoRA

Use LoRAs Hunyuan baixados para controlar o estilo e a consistência dos personagens na geração de vídeos.

IPAdapter Plus (V2) | Estilo e Composição

O IPAdapter Plus permite a transferência eficaz de estilo e composição, funcionando como um LoRA de 1 imagem.

Substituição de Personagem em Vídeo (MoCha) | Ferramenta de Troca Realista

Troque personagens de vídeo rapidamente com controle realista de movimento e iluminação.

Consistent Character Creator 3.8 | Personagens Consistentes de IA Hiper-realistas

Crie personagens de IA hiper-realistas e consistentes em identidade a partir de uma imagem de referência.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos