LTX-2 ComfyUI Workflow | Velocidade de Geração de Vídeo em Tempo Real

LTX-2 ComfyUI: texto, imagem, profundidade e pose para vídeo em tempo real com áudio sincronizado

Este fluxo de trabalho LTX-2 ComfyUI tudo-em-um permite que você gere e itere em vídeos curtos com áudio em segundos. Ele vem com rotas para texto para vídeo (T2V), imagem para vídeo (I2V), profundidade para vídeo, pose para vídeo e canny para vídeo, para que você possa começar a partir de um prompt, uma imagem fixa ou orientação estruturada e manter o mesmo ciclo criativo.

Construído em torno do pipeline AV de baixa latência do LTX-2 e do paralelismo de sequência multi-GPU, o gráfico enfatiza o feedback rápido. Descreva movimento, câmera, aparência e som uma vez, depois ajuste largura, altura, contagem de quadros ou controle LoRAs para refinar o resultado sem reconfigurar nada.

Nota: Nota sobre a Compatibilidade do Fluxo de Trabalho LTX-2 — O LTX-2 inclui 5 fluxos de trabalho: Texto para Vídeo e Imagem para Vídeo rodam em todos os tipos de máquinas, enquanto Profundidade para Vídeo, Canny para Vídeo e Pose para Vídeo requerem uma máquina 2X-Large ou maior; executar esses fluxos de trabalho ControlNet em máquinas menores pode resultar em erros.

Modelos principais no fluxo de trabalho LTX-2 ComfyUI

LTX-2 19B (dev FP8) checkpoint. Modelo gerativo audiovisual principal que produz quadros de vídeo e áudio sincronizado a partir de condicionamento multimodal. Lightricks/LTX-2
LTX-2 19B Distilled checkpoint. Variante mais leve e rápida útil para rascunhos rápidos ou execuções controladas por canny. Lightricks/LTX-2
Gemma 3 12B IT text encoder. Backbone primário de compreensão de texto usado pelos codificadores de prompt do fluxo de trabalho. Comfy-Org/ltx-2 split files
LTX-2 Spatial Upscaler x2. Upsampler latente que dobra o detalhe espacial no meio do gráfico para saídas mais limpas. Lightricks/LTX-2
LTX-2 Audio VAE. Codifica e decodifica latentes de áudio para que o som possa ser gerado e muxado juntamente com o vídeo. Incluído com o lançamento do LTX-2 acima.
Lotus Depth D v1‑1. Depth UNet usado para derivar mapas de profundidade robustos a partir de imagens antes da geração de vídeo guiada por profundidade. Comfy‑Org/lotus
SD VAE (MSE, EMA pruned). VAE usado no ramo do pré-processador de profundidade. stabilityai/sd-vae-ft-mse-original
Control LoRAs para LTX‑2. LoRAs opcionais, plug‑and‑play para direcionar movimento e estrutura:
- Distilled LoRA 384 (refinamento geral) link
- Controle de Câmera: Dolly Left link
- Controle de Pose link
- Controle de Profundidade link
- Controle de Canny link

Como usar o fluxo de trabalho LTX-2 ComfyUI

O gráfico contém cinco rotas que você pode executar de forma independente. Todas as rotas compartilham o mesmo caminho de exportação e usam a mesma lógica de prompt para condicionamento, então uma vez que você aprende uma, as outras parecem familiares.

T2V: gerar vídeo e áudio a partir de um prompt

O caminho T2V começa com CLIP Text Encode (Prompt) (#3) e um opcional negativo em CLIP Text Encode (Prompt) (#4). LTXVConditioning (#22) vincula seu texto e a taxa de quadros escolhida ao modelo. EmptyLTXVLatentVideo (#43) e LTX LTXV Empty Latent Audio (#26) criam latentes de vídeo e áudio que são fundidos por LTX LTXV Concat AV Latent (#28). O loop de remoção de ruído passa por LTXVScheduler (#9) e SamplerCustomAdvanced (#41), após o qual VAE Decode (#12) e LTX LTXV Audio VAE Decode (#14) produzem quadros e áudio. Video Combine 🎥🅥🅗🅢 (#15) salva um H.264 MP4 com som sincronizado.

I2V: animar uma imagem fixa

Carregue uma imagem fixa com LoadImage (#98) e redimensione com ResizeImageMaskNode (#99). Dentro do subgráfico T2V, LTX LTXV Img To Video Inplace injeta o primeiro quadro na sequência latente para que o movimento se construa a partir da sua imagem fixa em vez de puro ruído. Mantenha seu prompt textual focado em movimento, câmera e ambiente; o conteúdo vem da imagem.

Profundidade para vídeo: movimento consciente da estrutura a partir de mapas de profundidade

Use o pré-processador “Image to Depth Map (Lotus)” para transformar uma entrada em uma imagem de profundidade, decodificada por VAEDecode e opcionalmente invertida para polaridade correta. A rota “Depth to Video (LTX 2.0)” então alimenta a orientação de profundidade através de LTX LTXV Add Guide para que o modelo respeite a estrutura global da cena enquanto anima. O caminho reutiliza os mesmos estágios de agendador, amostrador e upscaler, e termina com decodificação em mosaico para imagens e áudio muxado para exportação.

Pose para vídeo: dirigir movimento a partir da pose humana

Importe um clipe com VHS_LoadVideo (#198); DWPreprocessor (#158) estima a pose humana de forma confiável através dos quadros. O subgráfico “Pose to Video (LTX 2.0)” combina seu prompt, o condicionamento de pose e um opcional Pose Control LoRA para manter membros, orientação e batidas consistentes enquanto permite que estilo e fundo fluam a partir do texto. Use isso para dança, acrobacias simples ou gravações de fala para câmera onde o tempo corporal importa.

Canny para vídeo: animação fiel às bordas e modo de velocidade destilada

Alimente quadros para Canny (#169) para obter um mapa de bordas estável. O ramo “Canny to Video (LTX 2.0)” aceita as bordas mais um opcional Canny Control LoRA para alta fidelidade às silhuetas, enquanto “Canny to Video (LTX 2.0 Distilled)” oferece um checkpoint destilado mais rápido para iterações rápidas. Ambas as variantes permitem que você injete opcionalmente o primeiro quadro e escolha a força da imagem, depois exporte via CreateVideo ou VHS_VideoCombine.

Configurações de vídeo e exportação

Defina largura e altura via Width (#175) e height (#173), o total de quadros com Frame Count (#176), e ative Enable First Frame (#177) se você quiser bloquear uma referência inicial. Use os nós VHS_VideoCombine no final de cada rota para controlar crf, frame_rate, pix_fmt e salvamento de metadados. Um SaveVideo (#180) dedicado é fornecido para a rota canny destilada quando você prefere saída de VÍDEO direta.

Desempenho e multi-GPU

O gráfico aplica LTXVSequenceParallelMultiGPUPatcher (#44) com torch_compile ativado para dividir sequências através de GPUs para menor latência. KSamplerSelect (#8) permite que você escolha entre amostradores, incluindo estilos de Euler e estimativa de gradiente; contagens de quadros menores e etapas mais baixas reduzem o tempo de resposta para que você possa iterar rapidamente e escalar quando estiver satisfeito.

Nós principais no fluxo de trabalho LTX-2 ComfyUI

LTX Multimodal Guider (#17). Coordena como o condicionamento de texto direciona os ramos de vídeo e áudio. Ajuste cfg e modality nos LTX Guider Parameters vinculados (#18 para VÍDEO, #19 para ÁUDIO) para balancear fidelidade versus criatividade; aumente cfg para maior aderência ao prompt e aumente modality_scale para enfatizar um ramo específico.
LTXVScheduler (#9). Constrói um cronograma de sigma adaptado ao espaço latente do LTX‑2. Use steps para trocar velocidade por qualidade; ao prototipar, menos etapas reduzem a latência, depois aumente as etapas para renderizações finais.
SamplerCustomAdvanced (#41). O denoiser que une RandomNoise, o amostrador escolhido de KSamplerSelect (#8), os sigmas do agendador e o latente AV. Troque amostradores para diferentes texturas de movimento e comportamento de convergência.
LTX LTXV Img To Video Inplace (veja ramos I2V, por exemplo, #107). Injeta uma imagem em um latente de vídeo para que o primeiro quadro ancore o conteúdo enquanto o modelo sintetiza o movimento. Ajuste strength para quão estritamente o primeiro quadro é preservado.
LTX LTXV Add Guide (em rotas guiadas, por exemplo, profundidade/pose/canny). Adiciona um guia estrutural (imagem, pose ou bordas) diretamente no espaço latente. Use strength para balancear fidelidade ao guia com liberdade gerativa e ative o primeiro quadro apenas quando quiser ancoragem temporal.
Video Combine 🎥🅥🅗🅢 (#15 e similares). Empacota quadros decodificados e o áudio gerado em MP4. Para pré-visualizações, aumente crf (mais compressão); para finais, reduza crf e confirme que frame_rate coincide com o que você configurou no condicionamento.
LTXVSequenceParallelMultiGPUPatcher (#44). Habilita inferência em sequência paralela com otimizações de compilação. Deixe ativado para melhor rendimento; desative apenas ao depurar posicionamento de dispositivo.

Extras opcionais

Dicas de prompt para LTX-2 ComfyUI
- Descreva ações principais ao longo do tempo, não apenas aparência estática.
- Especifique detalhes visuais importantes que você deve ver no vídeo.
- Escreva a trilha sonora: ambiente, efeitos sonoros, música e qualquer diálogo.
Regras de dimensionamento e taxa de quadros
- Use largura e altura que sejam múltiplos de 32 (por exemplo, 1280×720).
- Use contagens de quadros que sejam múltiplos de 8 (121 neste modelo é um bom comprimento).
- Mantenha a taxa de quadros consistente onde aparece; o gráfico inclui caixas de float e int e elas devem coincidir.
Orientação LoRA
- LoRAs de câmera, profundidade, pose e canny são integradas; comece com força 1 para movimentos de câmera, depois adicione um segundo LoRA apenas quando necessário. Navegue pela coleção oficial em Lightricks/LTX‑2.
Iterações mais rápidas
- Reduza a contagem de quadros, reduza as etapas em LTXVScheduler e experimente o checkpoint destilado para a rota canny. Quando o movimento funcionar, escale a resolução e as etapas para os finais.
Reprodutibilidade
- Bloqueie noise_seed nos nós de Ruído Aleatório para obter resultados repetíveis enquanto ajusta prompts, tamanhos e LoRAs.

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos sinceramente à Lightricks pelo modelo de geração de vídeo multimodal LTX-2 e à base de código de pesquisa LTX-Video, e à Comfy Org pelos nós/parceiros de integração LTX-2 ComfyUI, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

Comfy Org/LTX-2 Agora Disponível no ComfyUI!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 Now Available in ComfyUI!

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.1 | Geração de Vídeo Revolucionária

Crie vídeos incríveis a partir de texto ou imagens com IA revolucionária rodando em CPUs comuns.

PuLID Flux II | Geração Consistente de Personagens

Gere imagens com controle preciso de personagens enquanto preserva o estilo artístico.

CogvideoX Fun | Modelo de Vídeo para Vídeo

CogVideoX Fun: Modelo avançado de vídeo para vídeo para geração de vídeos de alta qualidade.

Wan 2.1 Fun | I2V + T2V

Potencialize seus vídeos de IA com o Wan 2.1 Fun.

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

SAM 3D ComfyUI | Animação de Objeto e Corpo

Crie movimento 3D realista e animação a partir de imagens estáticas instantaneamente.

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

utiliza modelos LoRA, ControlNet e InstantID para transformações avançadas de rosto para muitos

IPAdapter Plus (V2) + ControlNet | Imagem para Vídeo

Converta imagens em animações com ComfyUI IPAdapter Plus e ControlNet QRCode.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX-2 ComfyUI | Gerador de Vídeo em Tempo Real

LTX-2 ComfyUI: texto, imagem, profundidade e pose para vídeo em tempo real com áudio sincronizado

Modelos principais no fluxo de trabalho LTX-2 ComfyUI

Como usar o fluxo de trabalho LTX-2 ComfyUI

T2V: gerar vídeo e áudio a partir de um prompt

I2V: animar uma imagem fixa

Profundidade para vídeo: movimento consciente da estrutura a partir de mapas de profundidade

Pose para vídeo: dirigir movimento a partir da pose humana

Canny para vídeo: animação fiel às bordas e modo de velocidade destilada

Configurações de vídeo e exportação

Desempenho e multi-GPU

Nós principais no fluxo de trabalho LTX-2 ComfyUI

Extras opcionais

Agradecimentos

Recursos

Want More ComfyUI Workflows?

Wan 2.1 | Geração de Vídeo Revolucionária

PuLID Flux II | Geração Consistente de Personagens

CogvideoX Fun | Modelo de Vídeo para Vídeo

Wan 2.1 Fun | I2V + T2V

Wan 2.2 | Líder em Geração de Vídeo Open-Source

SAM 3D ComfyUI | Animação de Objeto e Corpo

Face to Many | 3D, Emoji, Pixel, Clay, Toy, Video game

IPAdapter Plus (V2) + ControlNet | Imagem para Vídeo