logo
RunComfy
  • ComfyUI
  • TreinadorNovo
  • Modelos
  • API
  • Preços
discord logo
ComfyUI>Fluxos de Trabalho>LTX 2.3 ID-LoRA | Gerador de Avatar Falante

LTX 2.3 ID-LoRA | Gerador de Avatar Falante

Workflow Name: RunComfy/LTX-2.3-ID-LoRA
Workflow ID: 0000...1385
Com este fluxo de trabalho consciente da identidade, você pode facilmente criar avatares falantes realistas a partir de uma única imagem, um curto clipe de áudio e entrada de texto. Ele combina consistência facial com sincronização labial precisa e transferência de voz expressiva. O modelo mantém as características únicas do sujeito enquanto combina movimento realista e tom. Ideal para personalidades virtuais, influenciadores digitais e narrativas baseadas em personagens. Esta ferramenta simplifica etapas complexas de geração em um processo unificado para uma saída audiovisual perfeita.

Fluxo de trabalho de vídeo falante LTX 2.3 ID-LoRA para ComfyUI

Este fluxo de trabalho transforma uma única imagem de rosto, um curto clipe de voz e um prompt em um vídeo falante totalmente sincronizado. Baseado no LTX‑2.3, ele funde áudio e visuais em um único processo de difusão e adiciona um adaptador de identidade In‑Context LoRA para que a pessoa na sua imagem de referência permaneça consistente em todos os quadros. O LTX 2.3 ID-LoRA é ideal para avatares, apresentadores virtuais e qualquer cenário onde sincronização labial, semelhança e controle de prompt devem se alinhar em uma única passagem.

Você fornece três coisas: uma imagem de referência, uma ou duas frases de áudio e um prompt de texto descrevendo a aparência e performance. O caminho LTX 2.3 ID-LoRA lida com a identidade enquanto um pré-processador de áudio leve melhora a clareza da voz para sinais labiais mais fortes. O resultado é um vídeo coerente, que preserva a identidade, com fala sincronizada que não requer treinamento por sujeito.

Modelos principais no fluxo de trabalho Comfyui LTX 2.3 ID-LoRA

  • Lightricks LTX‑2.3 22B base checkpoint. O modelo de base áudio-vídeo conjunto que gera quadros e som sincronizados a partir de condicionamento de texto, imagem e áudio. É o gerador principal usado por este pipeline ComfyUI. Model card
  • LTX‑2.3 distilled LoRA 384. Adaptador LoRA oficial que aplica orientação destilada ao modelo base para estabilizar e acelerar a amostragem sem sacrificar a qualidade. É inserido como o modelo de segunda etapa neste fluxo de trabalho. Veja a tabela de checkpoints na página LTX‑2.3. Model card
  • LTX‑2.3 spatial upscaler x2. Upscaler em espaço latente usado dentro do subgrafo do sampler para elevar o detalhe espacial antes da decodificação, melhorando a fidelidade do rosto e das bordas no vídeo final. Model card
  • Gemma 3 12B Instruct text encoder for LTX‑2.3. Fornece o condicionamento de texto que impulsiona estilo, cena e performance. Este fluxo de trabalho usa o codificador Gemma 3 empacotado para LTX‑2 no ComfyUI. Comfy‑Org text encoders
  • LTX‑2.3 VAEs para vídeo e áudio. VAEs construídos para propósito específico decodificam latentes visuais e acústicos produzidos pelo modelo em imagens e uma forma de onda. Builds compatíveis bf16 são referenciadas no grafo. Fontes de exemplo: Video VAE · Audio VAE
  • Mel‑Band RoFormer para separação vocal. Pré-processador opcional que extrai vocais limpos do áudio de referência para que o modelo possa rastrear sílabas e formas da boca de maneira mais confiável. Paper · ComfyUI node
  • LTX 2.3 ID‑LoRA (IC‑LoRA). Um LoRA de identidade em contexto treinado para uso em vídeos falantes que inclina o gerador em direção ao rosto na sua imagem de referência enquanto respeita os sinais de prompt e voz. Lightricks documenta o uso de LoRA e IC‑LoRA com LTX‑2.3 na página do modelo. Model card

Como usar o fluxo de trabalho Comfyui LTX 2.3 ID-LoRA

Fluxo geral. O pipeline carrega o LTX‑2.3 base com codificadores de texto e VAEs, prepara sua imagem e áudio, e então executa um sampler LTX de duas etapas que combina texto, a referência de rosto e uma faixa vocal para gerar quadros e fala sincronizados. Um sampler paralelo sem ID‑LoRA é incluído para comparações rápidas. Quadros finais e áudio são muxados em um MP4.

  • Modelo
    • O grafo carrega o checkpoint base com CheckpointLoaderSimple (#5493), os codificadores de texto baseados em Gemma via LTXAVTextEncoderLoader (#5494), e os VAEs dedicados para vídeo VAELoader (#5651) e áudio VAELoaderKJ (#5649). Em seguida, aplica dois adaptadores: o LoRA destilado oficial para formar um modelo de segunda etapa e o LTX 2.3 ID-LoRA para condicionamento de identidade através de LoraLoaderModelOnly (#5573).
    • Esta etapa garante que o gerador entenda seu prompt, tenha as pilhas de decodificação corretas e esteja preparado com orientação de eficiência e viés de identidade.
    • Geralmente, você não modifica nada aqui além de trocar checkpoints ou LoRAs se tiver alternativas.
  • Configuração de Vídeo
    • Controla dimensões de saída, taxa de quadros, passos e comprimento. Width (#5284), Height (#5286) e Frame Rate (#5289) alimentam uma pequena utilidade que calcula o total de quadros a partir de segundos, mantendo o tempo consistente entre áudio e vídeo.
    • As configurações são armazenadas uma vez e lidas por todos os nós a jusante para que os dois samplers e o muxer permaneçam alinhados.
    • Ajuste esses valores primeiro quando quiser um aspecto, suavidade ou duração diferentes.
  • Carregar Imagem de Referência
    • Forneça uma única imagem de rosto clara através de Load Image (Input) (#5525). A imagem é redimensionada com ImageResizeKJv2 (#5280) para corresponder à sua saída escolhida.
    • Esta imagem pré-processada se torna o âncora para identidade no estágio LTX 2.3 ID-LoRA, guiando semelhança e composição do tiro.
    • Use uma foto bem iluminada, frontal e com mínimo de desfoque de movimento para melhores resultados.
  • Pré-processamento de Áudio
    • Insira um curto WAV ou MP3 usando Reference Audio (Input) (#5652). O clipe é cortado se necessário e então passado para MelBandRoFormerSampler (#5473) para isolar vocais.
    • Vocais limpos ajudam o modelo a inferir fonemas e tempo para movimentos labiais precisos e ritmo de fala.
    • Se seu áudio já for apenas voz, você pode pular a separação e alimentá-lo diretamente.
  • Amostragem LTX com ID Lora
    • Este é o caminho principal. O subgrafo do sampler (Samplers (#5278)) mistura seu prompt positivo de Enhanced Prompt (Positive) (#5174), a lista negativa, a referência de rosto e a faixa vocal através do pipeline latente AV do LTX‑2.3.
    • LTXVReferenceAudio alinha movimento com fala enquanto LTXVImgToVideoInplace injeta a imagem de rosto no latente como um âncora. O adaptador LTX 2.3 ID-LoRA direciona o gerador para a identidade do seu sujeito.
    • O estágio inclui um upscaler latente interno para elevar o detalhe antes da decodificação. Ele gera quadros mais um fluxo de áudio sincronizado.
  • Amostragem LTX sem ID Lora
    • Um sampler espelhado (Samplers (#5643)) executa o mesmo condicionamento, mas sem o adaptador ID‑LoRA. Use isso para verificações A/B ou quando quiser mais liberdade longe da identidade de referência.
    • Todo o resto permanece idêntico, então as diferenças que você notar são devidas apenas ao condicionamento de identidade.
    • Este caminho pode ser útil para rascunhos rápidos ou saídas criativas.
  • Combinação e Saída de Vídeo
    • Quadros e áudio gerados são muxados para MP4 com Video Combine (Output) (#5218). A taxa de quadros vem da sua configuração global, então movimento e sincronização labial correspondem ao tempo do sampler.
    • O Video Combine secundário (#5645) pré-visualiza o ramo sem ID‑LoRA se você o habilitou, o que é útil para comparações.
    • O fluxo de trabalho limpa o cache entre execuções para manter o VRAM estável em sessões longas.

Nós principais no fluxo de trabalho Comfyui LTX 2.3 ID-LoRA

  • LoraLoaderModelOnly (#5573)
    • Carrega o LTX 2.3 ID-LoRA que preserva a identidade facial. Reduza seu peso se quiser mais variação criativa ou aumente para fixar mais firmemente a semelhança. Combine-o cuidadosamente com a força do prompt para que identidade e estilo não compitam. Referência: uso de LTX‑2.3 LoRA na página do modelo. Model card
  • LTXVReferenceAudio (#5589)
    • Converte seu áudio de referência em condicionamento para tempo de sílaba, prosódia e formas da boca. Alimente fala limpa para melhor alinhamento. Se você ouvir bombeamento ou articulação fora do ritmo, encurte ou simplifique o clipe em vez de aumentar a força.
  • LTXVImgToVideoInplace (#5245, também usado mais tarde)
    • Injeta a imagem de rosto no fluxo de vídeo latente como um prior espacial. O controle de força da imagem equilibra a adesão à foto versus liberdade de movimento. Para forte identidade com movimento natural, mantenha a força da imagem moderada e deixe o ID‑LoRA carregar a semelhança.
  • LTXVConditioning (#5621)
    • Empacota condicionamento de texto e sinais de tempo para os samplers LTX. Certifique-se de que sua entrada de taxa de quadros corresponda à sua taxa de quadros de saída para que campos de movimento e tempo de fonema permaneçam coerentes.
  • VHS_VideoCombine (#5218)
    • Muxa quadros e áudio para o arquivo final. Se seu áudio for ligeiramente mais longo que os quadros, habilite a poda aqui para evitar uma cauda preta final. Para compatibilidade com plataformas, mantenha as configurações padrão H.264, a menos que você tenha um motivo para mudá-las. Referência de nó: ComfyUI‑VideoHelperSuite
  • MelBandRoFormerSampler (#5473)
    • Separa vocais da música usando um transformador de banda Mel para que o gerador se trave na fala. Se sibilantes borram ou plosivas estouram, tente um arquivo de modelo diferente da mesma família ou reduza a intensidade do input. Leitura de fundo: arXiv

Extras opcionais

  • Para gerações mais estáveis com LTX‑2.3, use largura e altura divisíveis por 32 e escolha uma contagem de quadros de 8n + 1 conforme documentado por Lightricks. Model card
  • Mantenha a imagem de referência consistente com seu prompt. Se você descrever iluminação externa, mas fornecer uma foto interna, a identidade pode se manter enquanto a cor e a sombra lutam contra o prompt.
  • Dê ao áudio 2 a 8 segundos com ritmo natural. Clipes supercomprimidos ou reverberantes reduzem a fidelidade da sincronização labial mesmo após a separação vocal.
  • Quando os rostos se deslocam, reduza ligeiramente a força da imagem e confie mais no LTX 2.3 ID-LoRA. Quando os rostos vagam muito, faça o oposto.
  • Para tomadas mais longas, gere em segmentos que compartilham a mesma semente e configurações globais, depois junte clipes na edição de vídeo, se necessário.

Referências e repositórios úteis

  • Pesos abertos e notas do LTX‑2.3: Página do modelo Hugging Face
  • Nós oficiais do ComfyUI para LTX Video: Lightricks/ComfyUI‑LTXVideo
  • Base de código e artigo do LTX‑2: Lightricks/LTX‑Video · arXiv
  • Codificadores IT Gemma 3 12B para LTX no ComfyUI: Comfy‑Org/ltx‑2 text_encoders
  • Fundo do Mel‑Band RoFormer: arXiv

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos aos criadores do LTX 2.3 ID-LoRA Source para o fluxo de trabalho LTX 2.3 ID-LoRA Source por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • LTX 2.3 ID-LoRA Source
    • Docs / Notas de Lançamento: YouTube @Benji’s AI Playground

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Transforma fotos em vídeos falantes ultra-reais em segundos.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

LatentSync| Modelo de Sincronização Labial

Tecnologia avançada de sincronização labial guiada por áudio.

ComfyUI + TouchDesigner | Visuais Reativos a Áudio

Renderize visuais no ComfyUI e sincronize o áudio no TouchDesigner para vídeos dinâmicos reativos a áudio.

LivePortrait | Anima Retratos | Vid2Vid

Atualizado em 16/06/2025: versão do ComfyUI atualizada para v0.3.39 para melhorar a estabilidade e compatibilidade. Transfira expressões faciais e movimentos de um vídeo de condução para um vídeo fonte.

LTX-2 ComfyUI | Gerador de Vídeo em Tempo Real

Crie vídeos em tempo real instantaneamente, mais rápido do que qualquer outro gerador.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.