LTX-2 ControlNet no ComfyUI | Fluxo de Trabalho de Vídeo Controlado por Profundidade

ComfyUI LTX-2 ControlNet Workflow

LTX-2 ControlNet in ComfyUI | Depth-Controlled Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX-2 ControlNet Examples

LTX-2 ControlNet: geração de vídeo guiada por estrutura e sincronizada com áudio no ComfyUI#

LTX-2 ControlNet é um fluxo de trabalho dirigido por controle para a extensão ComfyUI-LTXVideo que permite controlar a geração de vídeo LTX-2 com orientação de profundidade, borda canny e pose enquanto mantém áudio e visuais sincronizados. Ele opera em um espaço latente áudio-visual unificado, então fala, efeitos sonoros e movimento são gerados juntos e permanecem alinhados do primeiro ao último quadro.

Projetado para texto para vídeo, imagem para vídeo e vídeo para vídeo, o fluxo de trabalho adiciona condicionamento ControlNet baseado em IC LoRA para controle preciso de layout e movimento, inicialização do primeiro quadro para continuidade de cena e um pipeline de duas etapas com escalonamento latente para resultados nítidos sem estourar a VRAM. LTX-2 ControlNet é totalmente aberto, rápido de iterar e orientado para a produção para criadores que precisam de saídas repetíveis e de alta qualidade.

Modelos chave no fluxo de trabalho ComfyUI LTX-2 ControlNet#

LTX-2 19B (dev FP8 e destilado). Modelo generativo áudio-visual central usado para amostrar vídeo e áudio em um único espaço latente. Model family
Gemma 3 12B IT codificador de texto. Fornece compreensão robusta da linguagem para prompts e negativos via o codificador empacotado usado pelo LTX-2. Encoder file
LTX-2 Spatial Upscaler x2. Modelo de escalonamento latente usado na segunda etapa para refinar detalhes espaciais. Upscaler
LTX-2 Audio VAE. Decodificador-encoder de áudio especializado que mantém o som gerado alinhado com os quadros. Incluído com os pontos de verificação LTX-2. Checkpoints
Família de controle IC LoRA para LTX-2. Adiciona condicionamento estilo ControlNet:
- Controle de profundidade LoRA: ltx-2-19b-IC-LoRA-Depth-Control
- Controle Canny LoRA: ltx-2-19b-IC-LoRA-Canny-Control
- Controle de pose LoRA: ltx-2-19b-IC-LoRA-Pose-Control
- LoRA destilada para trocas de qualidade/eficiência: ltx-2-19b-distilled-lora-384
Lotus Depth D v1.1. Estimador de profundidade usado no caminho de controle de profundidade. Model
SD VAE FT MSE (Stability AI). VAE de imagem usado para pré-computação de profundidade e decodificação em blocos. VAE
Extensão ComfyUI-LTXVideo. Fornece os amostradores LTX-2, latentes AV, VAE de áudio e nós de guia usados ao longo do processo. Repository

Como usar o fluxo de trabalho ComfyUI LTX-2 ControlNet#

Em um nível alto, o LTX-2 ControlNet pega seu prompt e referências opcionais, constrói um latente áudio-visual com orientação estilo ControlNet, amostra uma primeira passagem e depois escala o latente para vídeo nítido e áudio sincronizado. Escolha um dos três caminhos guiados (Profundidade, Canny, Pose) ou use-os independentemente, depois defina comprimento e tamanho antes de exportar.

Pré-processamento de imagem/vídeo
- Se estiver fazendo imagem para vídeo ou vídeo para vídeo, use os carregadores para trazer sua mídia de referência. VHS_LoadVideo (#196, #197, #198) divide quadros para análise, enquanto LoadImage (#189) lida com imagens estáticas. O grupo fornece escalonamento conveniente para que os guias a jusante vejam tamanhos de quadro consistentes.
- Uma imagem do “primeiro quadro” pode ser passada para frente para inicialização de cena; você a habilitará mais tarde no grupo de geração.
Pré-processamento de profundidade de imagem
- Para orientação de profundidade, o subgrafo “Image to Depth Map (Lotus)” converte sua entrada em um mapa de profundidade normalizado usando Lotus Depth. Isso prepara uma representação de profundidade de um único quadro ou de múltiplos quadros que o LTX-2 pode seguir.
- O caminho inclui redimensionamento opcional e controles de intensidade para que o guia codifique a estrutura ampla sem sobreajustar a pequenos artefatos.
Pré-processamento de pose de vídeo
- Para orientação de pose, DWPreprocessor (#158) detecta pontos-chave de corpo inteiro do vídeo de entrada e os escala para condicionamento estável. Isso gera uma sequência de imagens de pose limpa que enfatiza a orientação do esqueleto e dos membros.
- Nós de pré-visualização ajudam você a verificar rapidamente se as detecções e proporções estão corretas antes da geração.
Canny para vídeo
- Este caminho de controle extrai bordas com Canny (#169), então constrói um latente AV com a sequência de imagem de controle. Use-o quando quiser preservar silhuetas, contornos principais ou bordas de tipografia de uma referência.
- Uma entrada de imagem do primeiro quadro está disponível para inicialização consistente; habilite-a apenas quando quiser que o quadro de abertura corresponda a uma imagem estática específica.
Profundidade para vídeo
- Este caminho alimenta os mapas de profundidade Lotus como as imagens de controle. O controle de profundidade é ideal para impor geometria de câmera, layout em grande escala e distância do sujeito enquanto permite que o gerador escolha texturas e iluminação.
- Você pode fornecer um primeiro quadro para travar a composição inicial e depois deixar o movimento evoluir guiado por dicas de profundidade.
Pose para vídeo
- O caminho de pose usa a renderização de pontos-chave do pré-processador, orientando a orientação do corpo e o tempo de movimento. É especialmente eficaz para bloqueio de personagens, tempo de elevação de mãos e ciclos de caminhada.
- Como em outros modos, você pode combinar o tempo do prompt com o condicionamento opcional de primeiro quadro para continuidade.
Configurações de vídeo e comprimento
- Defina a largura de trabalho, altura e contagem de quadros nos grupos “Configurações de Vídeo” e “comprimento do vídeo”. O fluxo de trabalho ajusta automaticamente valores inválidos para os tamanhos compatíveis mais próximos da grade latente e passo do LTX-2 para que você possa iterar com segurança.
- Mantenha sua taxa de quadros alvo consistente entre os nós; os nós de condicionamento e a mux final respeitam isso para sincronização áudio-visual suave.
Geração, escalonamento e exportação
- Durante a amostragem, LTXVAddGuide integra seu condicionamento positivo/negativo com as imagens de controle escolhidas, então SamplerCustomAdvanced executa o cronograma do LTXVScheduler para latentes de vídeo e áudio. O primeiro quadro opcional é injetado com LTXVImgToVideoInplace onde habilitado.
- A segunda etapa executa LTXVLatentUpsampler para refinar detalhes com o escalonador latente x2. A decodificação final acontece com VAEDecodeTiled em blocos para quadros e LTXVAudioVAEDecode para áudio, então o vídeo é escrito com VHS_VideoCombine ou CreateVideo dependendo do ramo selecionado.

Nós chave no fluxo de trabalho ComfyUI LTX-2 ControlNet#

LTXVAddGuide (#132)
- Mescla o condicionamento de texto e controles IC LoRA no latente AV, atuando como o coração da orientação do LTX-2 ControlNet. Ajuste apenas os poucos controles que importam: escolha o LoRA de controle que corresponde ao seu caminho (profundidade, canny ou pose) e, quando disponível, o image_strength que ajusta o quão fielmente o modelo segue os guias. Implementação de referência e comportamento do nó são fornecidos pela extensão LTXVideo. Docs/Code
LTXVImgToVideoInplace (#149, #155)
- Injeta uma imagem do primeiro quadro no latente AV para inicialização de cena consistente. Use strength para equilibrar a fidelidade ao primeiro quadro versus liberdade para evoluir; mantenha-o mais baixo para mais movimento e mais alto para âncoras mais firmes. Ignore-o quando quiser aberturas puramente dirigidas por texto ou controle. Docs/Code
LTXVScheduler (#95)
- Conduz a trajetória de remoção de ruído para o latente unificado para que áudio e vídeo converjam juntos. Aumente os passos para cenas complexas e detalhes finos; reduza para rascunhos e iteração rápida. As configurações do cronograma interagem com a força da orientação, portanto, evite valores extremos quando a orientação for forte. Docs/Code
LTXVLatentUpsampler (#112)
- Realiza o escalonamento latente de segunda etapa com o escalonador espacial x2 do LTX-2, melhorando a nitidez com crescimento mínimo de VRAM. Use-o após a primeira passagem em vez de aumentar a resolução base para manter as iterações responsivas. Upscaler model
DWPreprocessor (#158)
- Gera pontos-chave de pose humana limpa para o caminho de controle de pose. Verifique as detecções com a pré-visualização; se mãos ou pequenos membros estiverem ruidosos, escale as entradas para uma dimensão máxima moderada antes do pré-processamento. Fornecido pela suíte auxiliar ControlNet. Repo
VHS_VideoCombine / CreateVideo (#195, #106)
- Muxa quadros decodificados e áudio em um MP4 com a taxa de quadros e formato de pixel selecionados. Use-os apenas após confirmar que sua decodificação de áudio parece alinhada na pré-visualização. Fornecido pelo Video Helper Suite. Repo

Extras opcionais#

Prompting para LTX-2 ControlNet
- Descreva ações ao longo do tempo, não apenas atributos estáticos.
- Inclua dicas de som ou diálogos necessários para que o áudio seja gerado no ritmo.
- Use um prompt negativo conciso para suprimir artefatos que você vê repetidamente.
Tamanhos e comprimentos
- Use tamanhos de imagem da forma 32k + 1 para largura/altura; o gráfico auto-corrige se você errar, mas valores exatos aceleram a iteração.
- Contagens de quadros da forma 8k + 1 tendem a ser mais estáveis para agendamento.
Consistência do primeiro quadro
- Habilite o primeiro quadro apenas quando precisar de uma composição de abertura travada; combine com image_strength moderado para evitar sobreconstrangimento.
VRAM e rendimento
- O fluxo de trabalho inclui opções de sequência-paralela e compilação torch no patcher LTXVideo para configurações multi-GPU ou com restrição de memória. Mantenha-os ativados para clipes longos, desativados ao depurar o comportamento do nó. Extension

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Lightricks pelo ComfyUI-LTXVideo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Repositório GitHub ComfyUI-LTXVideo: https://github.com/Lightricks/ComfyUI-LTXVideo
- GitHub: Lightricks/ComfyUI-LTXVideo

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Pyramid Flow | Geração de Vídeo

Incluindo modos de texto-para-vídeo e imagem-para-vídeo.

CogvideoX Fun | Modelo de Vídeo para Vídeo

CogVideoX Fun: Modelo avançado de vídeo para vídeo para geração de vídeos de alta qualidade.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Mochi 1 | Genmo Texto para Vídeo

Demonstração de Texto para Vídeo Usando o Modelo Genmo Mochi 1

Mochi Edit UnSampling | Vídeo-para-Vídeo

Mochi Edit: Modifique Vídeos Usando Prompts Baseados em Texto e Unsampling.

Z-Depth Maps | Animações no estilo Houdini

Crie animações deslumbrantes no estilo Houdini com Z-Depth Maps usando apenas imagem 2D.

LTX 2.3 ID-LoRA | Gerador de Avatar Falante

Cria avatares falantes realistas com voz e visuais sincronizados.

SkyReels-A2 | Geração de Vídeo Multi-Elemento

Combine múltiplos elementos em vídeos dinâmicos com precisão.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX-2 ControlNet | Gerador de Vídeo de Precisão