LTX-2 ControlNet: geração de vídeo guiada por estrutura e sincronizada com áudio no ComfyUI
LTX-2 ControlNet é um fluxo de trabalho dirigido por controle para a extensão ComfyUI-LTXVideo que permite controlar a geração de vídeo LTX-2 com orientação de profundidade, borda canny e pose enquanto mantém áudio e visuais sincronizados. Ele opera em um espaço latente áudio-visual unificado, então fala, efeitos sonoros e movimento são gerados juntos e permanecem alinhados do primeiro ao último quadro.
Projetado para texto para vídeo, imagem para vídeo e vídeo para vídeo, o fluxo de trabalho adiciona condicionamento ControlNet baseado em IC LoRA para controle preciso de layout e movimento, inicialização do primeiro quadro para continuidade de cena e um pipeline de duas etapas com escalonamento latente para resultados nítidos sem estourar a VRAM. LTX-2 ControlNet é totalmente aberto, rápido de iterar e orientado para a produção para criadores que precisam de saídas repetíveis e de alta qualidade.
Modelos chave no fluxo de trabalho ComfyUI LTX-2 ControlNet
- LTX-2 19B (dev FP8 e destilado). Modelo generativo áudio-visual central usado para amostrar vídeo e áudio em um único espaço latente. Model family
- Gemma 3 12B IT codificador de texto. Fornece compreensão robusta da linguagem para prompts e negativos via o codificador empacotado usado pelo LTX-2. Encoder file
- LTX-2 Spatial Upscaler x2. Modelo de escalonamento latente usado na segunda etapa para refinar detalhes espaciais. Upscaler
- LTX-2 Audio VAE. Decodificador-encoder de áudio especializado que mantém o som gerado alinhado com os quadros. Incluído com os pontos de verificação LTX-2. Checkpoints
- Família de controle IC LoRA para LTX-2. Adiciona condicionamento estilo ControlNet:
- Controle de profundidade LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Controle Canny LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Controle de pose LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- LoRA destilada para trocas de qualidade/eficiência: ltx-2-19b-distilled-lora-384
- Lotus Depth D v1.1. Estimador de profundidade usado no caminho de controle de profundidade. Model
- SD VAE FT MSE (Stability AI). VAE de imagem usado para pré-computação de profundidade e decodificação em blocos. VAE
- Extensão ComfyUI-LTXVideo. Fornece os amostradores LTX-2, latentes AV, VAE de áudio e nós de guia usados ao longo do processo. Repository
Como usar o fluxo de trabalho ComfyUI LTX-2 ControlNet
Em um nível alto, o LTX-2 ControlNet pega seu prompt e referências opcionais, constrói um latente áudio-visual com orientação estilo ControlNet, amostra uma primeira passagem e depois escala o latente para vídeo nítido e áudio sincronizado. Escolha um dos três caminhos guiados (Profundidade, Canny, Pose) ou use-os independentemente, depois defina comprimento e tamanho antes de exportar.
- Pré-processamento de imagem/vídeo
- Se estiver fazendo imagem para vídeo ou vídeo para vídeo, use os carregadores para trazer sua mídia de referência.
VHS_LoadVideo(#196, #197, #198) divide quadros para análise, enquantoLoadImage(#189) lida com imagens estáticas. O grupo fornece escalonamento conveniente para que os guias a jusante vejam tamanhos de quadro consistentes. - Uma imagem do “primeiro quadro” pode ser passada para frente para inicialização de cena; você a habilitará mais tarde no grupo de geração.
- Se estiver fazendo imagem para vídeo ou vídeo para vídeo, use os carregadores para trazer sua mídia de referência.
- Pré-processamento de profundidade de imagem
- Para orientação de profundidade, o subgrafo “Image to Depth Map (Lotus)” converte sua entrada em um mapa de profundidade normalizado usando Lotus Depth. Isso prepara uma representação de profundidade de um único quadro ou de múltiplos quadros que o LTX-2 pode seguir.
- O caminho inclui redimensionamento opcional e controles de intensidade para que o guia codifique a estrutura ampla sem sobreajustar a pequenos artefatos.
- Pré-processamento de pose de vídeo
- Para orientação de pose,
DWPreprocessor(#158) detecta pontos-chave de corpo inteiro do vídeo de entrada e os escala para condicionamento estável. Isso gera uma sequência de imagens de pose limpa que enfatiza a orientação do esqueleto e dos membros. - Nós de pré-visualização ajudam você a verificar rapidamente se as detecções e proporções estão corretas antes da geração.
- Para orientação de pose,
- Canny para vídeo
- Este caminho de controle extrai bordas com
Canny(#169), então constrói um latente AV com a sequência de imagem de controle. Use-o quando quiser preservar silhuetas, contornos principais ou bordas de tipografia de uma referência. - Uma entrada de imagem do primeiro quadro está disponível para inicialização consistente; habilite-a apenas quando quiser que o quadro de abertura corresponda a uma imagem estática específica.
- Este caminho de controle extrai bordas com
- Profundidade para vídeo
- Este caminho alimenta os mapas de profundidade Lotus como as imagens de controle. O controle de profundidade é ideal para impor geometria de câmera, layout em grande escala e distância do sujeito enquanto permite que o gerador escolha texturas e iluminação.
- Você pode fornecer um primeiro quadro para travar a composição inicial e depois deixar o movimento evoluir guiado por dicas de profundidade.
- Pose para vídeo
- O caminho de pose usa a renderização de pontos-chave do pré-processador, orientando a orientação do corpo e o tempo de movimento. É especialmente eficaz para bloqueio de personagens, tempo de elevação de mãos e ciclos de caminhada.
- Como em outros modos, você pode combinar o tempo do prompt com o condicionamento opcional de primeiro quadro para continuidade.
- Configurações de vídeo e comprimento
- Defina a largura de trabalho, altura e contagem de quadros nos grupos “Configurações de Vídeo” e “comprimento do vídeo”. O fluxo de trabalho ajusta automaticamente valores inválidos para os tamanhos compatíveis mais próximos da grade latente e passo do LTX-2 para que você possa iterar com segurança.
- Mantenha sua taxa de quadros alvo consistente entre os nós; os nós de condicionamento e a mux final respeitam isso para sincronização áudio-visual suave.
- Geração, escalonamento e exportação
- Durante a amostragem,
LTXVAddGuideintegra seu condicionamento positivo/negativo com as imagens de controle escolhidas, entãoSamplerCustomAdvancedexecuta o cronograma doLTXVSchedulerpara latentes de vídeo e áudio. O primeiro quadro opcional é injetado comLTXVImgToVideoInplaceonde habilitado. - A segunda etapa executa
LTXVLatentUpsamplerpara refinar detalhes com o escalonador latente x2. A decodificação final acontece comVAEDecodeTiledem blocos para quadros eLTXVAudioVAEDecodepara áudio, então o vídeo é escrito comVHS_VideoCombineouCreateVideodependendo do ramo selecionado.
- Durante a amostragem,
Nós chave no fluxo de trabalho ComfyUI LTX-2 ControlNet
LTXVAddGuide(#132)- Mescla o condicionamento de texto e controles IC LoRA no latente AV, atuando como o coração da orientação do LTX-2 ControlNet. Ajuste apenas os poucos controles que importam: escolha o LoRA de controle que corresponde ao seu caminho (profundidade, canny ou pose) e, quando disponível, o
image_strengthque ajusta o quão fielmente o modelo segue os guias. Implementação de referência e comportamento do nó são fornecidos pela extensão LTXVideo. Docs/Code
- Mescla o condicionamento de texto e controles IC LoRA no latente AV, atuando como o coração da orientação do LTX-2 ControlNet. Ajuste apenas os poucos controles que importam: escolha o LoRA de controle que corresponde ao seu caminho (profundidade, canny ou pose) e, quando disponível, o
LTXVImgToVideoInplace(#149, #155)- Injeta uma imagem do primeiro quadro no latente AV para inicialização de cena consistente. Use
strengthpara equilibrar a fidelidade ao primeiro quadro versus liberdade para evoluir; mantenha-o mais baixo para mais movimento e mais alto para âncoras mais firmes. Ignore-o quando quiser aberturas puramente dirigidas por texto ou controle. Docs/Code
- Injeta uma imagem do primeiro quadro no latente AV para inicialização de cena consistente. Use
LTXVScheduler(#95)- Conduz a trajetória de remoção de ruído para o latente unificado para que áudio e vídeo converjam juntos. Aumente os passos para cenas complexas e detalhes finos; reduza para rascunhos e iteração rápida. As configurações do cronograma interagem com a força da orientação, portanto, evite valores extremos quando a orientação for forte. Docs/Code
LTXVLatentUpsampler(#112)- Realiza o escalonamento latente de segunda etapa com o escalonador espacial x2 do LTX-2, melhorando a nitidez com crescimento mínimo de VRAM. Use-o após a primeira passagem em vez de aumentar a resolução base para manter as iterações responsivas. Upscaler model
DWPreprocessor(#158)- Gera pontos-chave de pose humana limpa para o caminho de controle de pose. Verifique as detecções com a pré-visualização; se mãos ou pequenos membros estiverem ruidosos, escale as entradas para uma dimensão máxima moderada antes do pré-processamento. Fornecido pela suíte auxiliar ControlNet. Repo
VHS_VideoCombine/CreateVideo(#195, #106)- Muxa quadros decodificados e áudio em um MP4 com a taxa de quadros e formato de pixel selecionados. Use-os apenas após confirmar que sua decodificação de áudio parece alinhada na pré-visualização. Fornecido pelo Video Helper Suite. Repo
Extras opcionais
- Prompting para LTX-2 ControlNet
- Descreva ações ao longo do tempo, não apenas atributos estáticos.
- Inclua dicas de som ou diálogos necessários para que o áudio seja gerado no ritmo.
- Use um prompt negativo conciso para suprimir artefatos que você vê repetidamente.
- Tamanhos e comprimentos
- Use tamanhos de imagem da forma 32k + 1 para largura/altura; o gráfico auto-corrige se você errar, mas valores exatos aceleram a iteração.
- Contagens de quadros da forma 8k + 1 tendem a ser mais estáveis para agendamento.
- Consistência do primeiro quadro
- Habilite o primeiro quadro apenas quando precisar de uma composição de abertura travada; combine com
image_strengthmoderado para evitar sobreconstrangimento.
- Habilite o primeiro quadro apenas quando precisar de uma composição de abertura travada; combine com
- VRAM e rendimento
- O fluxo de trabalho inclui opções de sequência-paralela e compilação torch no patcher LTXVideo para configurações multi-GPU ou com restrição de memória. Mantenha-os ativados para clipes longos, desativados ao depurar o comportamento do nó. Extension
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Lightricks pelo ComfyUI-LTXVideo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Repositório GitHub ComfyUI-LTXVideo: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
