LTX 2.3 ID-LoRA in ComfyUI | Criador de Vídeo Controlado por Identidade

ComfyUI LTX 2.3 ID-LoRA Workflow

LTX 2.3 ID-LoRA in ComfyUI | Identity-Controlled Video Creator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 ID-LoRA Examples

Fluxo de trabalho de vídeo falante LTX 2.3 ID-LoRA para ComfyUI#

Este fluxo de trabalho transforma uma única imagem de rosto, um curto clipe de voz e um prompt em um vídeo falante totalmente sincronizado. Baseado no LTX‑2.3, ele funde áudio e visuais em um único processo de difusão e adiciona um adaptador de identidade In‑Context LoRA para que a pessoa na sua imagem de referência permaneça consistente em todos os quadros. O LTX 2.3 ID-LoRA é ideal para avatares, apresentadores virtuais e qualquer cenário onde sincronização labial, semelhança e controle de prompt devem se alinhar em uma única passagem.

Você fornece três coisas: uma imagem de referência, uma ou duas frases de áudio e um prompt de texto descrevendo a aparência e performance. O caminho LTX 2.3 ID-LoRA lida com a identidade enquanto um pré-processador de áudio leve melhora a clareza da voz para sinais labiais mais fortes. O resultado é um vídeo coerente, que preserva a identidade, com fala sincronizada que não requer treinamento por sujeito.

Modelos principais no fluxo de trabalho Comfyui LTX 2.3 ID-LoRA#

Lightricks LTX‑2.3 22B base checkpoint. O modelo de base áudio-vídeo conjunto que gera quadros e som sincronizados a partir de condicionamento de texto, imagem e áudio. É o gerador principal usado por este pipeline ComfyUI. Model card
LTX‑2.3 distilled LoRA 384. Adaptador LoRA oficial que aplica orientação destilada ao modelo base para estabilizar e acelerar a amostragem sem sacrificar a qualidade. É inserido como o modelo de segunda etapa neste fluxo de trabalho. Veja a tabela de checkpoints na página LTX‑2.3. Model card
LTX‑2.3 spatial upscaler x2. Upscaler em espaço latente usado dentro do subgrafo do sampler para elevar o detalhe espacial antes da decodificação, melhorando a fidelidade do rosto e das bordas no vídeo final. Model card
Gemma 3 12B Instruct text encoder for LTX‑2.3. Fornece o condicionamento de texto que impulsiona estilo, cena e performance. Este fluxo de trabalho usa o codificador Gemma 3 empacotado para LTX‑2 no ComfyUI. Comfy‑Org text encoders
LTX‑2.3 VAEs para vídeo e áudio. VAEs construídos para propósito específico decodificam latentes visuais e acústicos produzidos pelo modelo em imagens e uma forma de onda. Builds compatíveis bf16 são referenciadas no grafo. Fontes de exemplo: Video VAE · Audio VAE
Mel‑Band RoFormer para separação vocal. Pré-processador opcional que extrai vocais limpos do áudio de referência para que o modelo possa rastrear sílabas e formas da boca de maneira mais confiável. Paper · ComfyUI node
LTX 2.3 ID‑LoRA (IC‑LoRA). Um LoRA de identidade em contexto treinado para uso em vídeos falantes que inclina o gerador em direção ao rosto na sua imagem de referência enquanto respeita os sinais de prompt e voz. Lightricks documenta o uso de LoRA e IC‑LoRA com LTX‑2.3 na página do modelo. Model card

Como usar o fluxo de trabalho Comfyui LTX 2.3 ID-LoRA#

Fluxo geral. O pipeline carrega o LTX‑2.3 base com codificadores de texto e VAEs, prepara sua imagem e áudio, e então executa um sampler LTX de duas etapas que combina texto, a referência de rosto e uma faixa vocal para gerar quadros e fala sincronizados. Um sampler paralelo sem ID‑LoRA é incluído para comparações rápidas. Quadros finais e áudio são muxados em um MP4.

Modelo
- O grafo carrega o checkpoint base com CheckpointLoaderSimple (#5493), os codificadores de texto baseados em Gemma via LTXAVTextEncoderLoader (#5494), e os VAEs dedicados para vídeo VAELoader (#5651) e áudio VAELoaderKJ (#5649). Em seguida, aplica dois adaptadores: o LoRA destilado oficial para formar um modelo de segunda etapa e o LTX 2.3 ID-LoRA para condicionamento de identidade através de LoraLoaderModelOnly (#5573).
- Esta etapa garante que o gerador entenda seu prompt, tenha as pilhas de decodificação corretas e esteja preparado com orientação de eficiência e viés de identidade.
- Geralmente, você não modifica nada aqui além de trocar checkpoints ou LoRAs se tiver alternativas.
Configuração de Vídeo
- Controla dimensões de saída, taxa de quadros, passos e comprimento. Width (#5284), Height (#5286) e Frame Rate (#5289) alimentam uma pequena utilidade que calcula o total de quadros a partir de segundos, mantendo o tempo consistente entre áudio e vídeo.
- As configurações são armazenadas uma vez e lidas por todos os nós a jusante para que os dois samplers e o muxer permaneçam alinhados.
- Ajuste esses valores primeiro quando quiser um aspecto, suavidade ou duração diferentes.
Carregar Imagem de Referência
- Forneça uma única imagem de rosto clara através de Load Image (Input) (#5525). A imagem é redimensionada com ImageResizeKJv2 (#5280) para corresponder à sua saída escolhida.
- Esta imagem pré-processada se torna o âncora para identidade no estágio LTX 2.3 ID-LoRA, guiando semelhança e composição do tiro.
- Use uma foto bem iluminada, frontal e com mínimo de desfoque de movimento para melhores resultados.
Pré-processamento de Áudio
- Insira um curto WAV ou MP3 usando Reference Audio (Input) (#5652). O clipe é cortado se necessário e então passado para MelBandRoFormerSampler (#5473) para isolar vocais.
- Vocais limpos ajudam o modelo a inferir fonemas e tempo para movimentos labiais precisos e ritmo de fala.
- Se seu áudio já for apenas voz, você pode pular a separação e alimentá-lo diretamente.
Amostragem LTX com ID Lora
- Este é o caminho principal. O subgrafo do sampler (Samplers (#5278)) mistura seu prompt positivo de Enhanced Prompt (Positive) (#5174), a lista negativa, a referência de rosto e a faixa vocal através do pipeline latente AV do LTX‑2.3.
- LTXVReferenceAudio alinha movimento com fala enquanto LTXVImgToVideoInplace injeta a imagem de rosto no latente como um âncora. O adaptador LTX 2.3 ID-LoRA direciona o gerador para a identidade do seu sujeito.
- O estágio inclui um upscaler latente interno para elevar o detalhe antes da decodificação. Ele gera quadros mais um fluxo de áudio sincronizado.
Amostragem LTX sem ID Lora
- Um sampler espelhado (Samplers (#5643)) executa o mesmo condicionamento, mas sem o adaptador ID‑LoRA. Use isso para verificações A/B ou quando quiser mais liberdade longe da identidade de referência.
- Todo o resto permanece idêntico, então as diferenças que você notar são devidas apenas ao condicionamento de identidade.
- Este caminho pode ser útil para rascunhos rápidos ou saídas criativas.
Combinação e Saída de Vídeo
- Quadros e áudio gerados são muxados para MP4 com Video Combine (Output) (#5218). A taxa de quadros vem da sua configuração global, então movimento e sincronização labial correspondem ao tempo do sampler.
- O Video Combine secundário (#5645) pré-visualiza o ramo sem ID‑LoRA se você o habilitou, o que é útil para comparações.
- O fluxo de trabalho limpa o cache entre execuções para manter o VRAM estável em sessões longas.

Nós principais no fluxo de trabalho Comfyui LTX 2.3 ID-LoRA#

LoraLoaderModelOnly (#5573)
- Carrega o LTX 2.3 ID-LoRA que preserva a identidade facial. Reduza seu peso se quiser mais variação criativa ou aumente para fixar mais firmemente a semelhança. Combine-o cuidadosamente com a força do prompt para que identidade e estilo não compitam. Referência: uso de LTX‑2.3 LoRA na página do modelo. Model card
LTXVReferenceAudio (#5589)
- Converte seu áudio de referência em condicionamento para tempo de sílaba, prosódia e formas da boca. Alimente fala limpa para melhor alinhamento. Se você ouvir bombeamento ou articulação fora do ritmo, encurte ou simplifique o clipe em vez de aumentar a força.
LTXVImgToVideoInplace (#5245, também usado mais tarde)
- Injeta a imagem de rosto no fluxo de vídeo latente como um prior espacial. O controle de força da imagem equilibra a adesão à foto versus liberdade de movimento. Para forte identidade com movimento natural, mantenha a força da imagem moderada e deixe o ID‑LoRA carregar a semelhança.
LTXVConditioning (#5621)
- Empacota condicionamento de texto e sinais de tempo para os samplers LTX. Certifique-se de que sua entrada de taxa de quadros corresponda à sua taxa de quadros de saída para que campos de movimento e tempo de fonema permaneçam coerentes.
VHS_VideoCombine (#5218)
- Muxa quadros e áudio para o arquivo final. Se seu áudio for ligeiramente mais longo que os quadros, habilite a poda aqui para evitar uma cauda preta final. Para compatibilidade com plataformas, mantenha as configurações padrão H.264, a menos que você tenha um motivo para mudá-las. Referência de nó: ComfyUI‑VideoHelperSuite
MelBandRoFormerSampler (#5473)
- Separa vocais da música usando um transformador de banda Mel para que o gerador se trave na fala. Se sibilantes borram ou plosivas estouram, tente um arquivo de modelo diferente da mesma família ou reduza a intensidade do input. Leitura de fundo: arXiv

Extras opcionais#

Para gerações mais estáveis com LTX‑2.3, use largura e altura divisíveis por 32 e escolha uma contagem de quadros de 8n + 1 conforme documentado por Lightricks. Model card
Mantenha a imagem de referência consistente com seu prompt. Se você descrever iluminação externa, mas fornecer uma foto interna, a identidade pode se manter enquanto a cor e a sombra lutam contra o prompt.
Dê ao áudio 2 a 8 segundos com ritmo natural. Clipes supercomprimidos ou reverberantes reduzem a fidelidade da sincronização labial mesmo após a separação vocal.
Quando os rostos se deslocam, reduza ligeiramente a força da imagem e confie mais no LTX 2.3 ID-LoRA. Quando os rostos vagam muito, faça o oposto.
Para tomadas mais longas, gere em segmentos que compartilham a mesma semente e configurações globais, depois junte clipes na edição de vídeo, se necessário.

Referências e repositórios úteis#

Pesos abertos e notas do LTX‑2.3: Página do modelo Hugging Face
Nós oficiais do ComfyUI para LTX Video: Lightricks/ComfyUI‑LTXVideo
Base de código e artigo do LTX‑2: Lightricks/LTX‑Video · arXiv
Codificadores IT Gemma 3 12B para LTX no ComfyUI: Comfy‑Org/ltx‑2 text_encoders
Fundo do Mel‑Band RoFormer: arXiv

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos aos criadores do LTX 2.3 ID-LoRA Source para o fluxo de trabalho LTX 2.3 ID-LoRA Source por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

LTX 2.3 ID-LoRA Source
- Docs / Notas de Lançamento: YouTube @Benji’s AI Playground

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

InfiniteTalk | Gerador de Avatar Sincronizado com Lábios

Foto + Voz = Avatar Falante Perfeitamente Sincronizado em Minutos

DreamID-Omni | Criador de Vídeo Falante a partir de Fotos

Transforma fotos em vídeos falantes ultra-reais em segundos.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Hallo2 | Animação de Retrato com Sincronização Labial

Sincronização labial guiada por áudio para animação de retratos em 4K.

LatentSync| Modelo de Sincronização Labial

Tecnologia avançada de sincronização labial guiada por áudio.

Estilo de Argila com Unsampling

Converta seu vídeo em estilo de argila usando o método Unsampling.

Transferência de Estilo Consistente com Unsampling

Controlar o ruído latente com Unsampling ajuda a aumentar dramaticamente a consistência na transferência de estilo de vídeo.

FLUX.2 Dev LoRA Inferência | AI Toolkit ComfyUI

Execute seu FLUX.2 Dev LoRA treinado no AI Toolkit no ComfyUI com comportamento compatível com o treinamento usando um único nó personalizado RunComfy RC.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX 2.3 ID-LoRA | Gerador de Avatar Falante