logo
RunComfy
  • ComfyUI
  • TrainerNew
  • Models
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>LTX-2 ControlNet | Gerador de Vídeo de Precisão

LTX-2 ControlNet | Gerador de Vídeo de Precisão

Workflow Name: RunComfy/LTX-2-ControlNet
Workflow ID: 0000...1336
Este fluxo de trabalho LTX-2 alimentado por ControlNet permite a geração de vídeos altamente precisos, guiados por condições estruturais explícitas como mapas de profundidade, bordas canny e poses humanas. Usando o condicionamento IC LoRA estilo ControlNet, impõe fortes restrições espaciais e de movimento em todos os quadros enquanto gera áudio e visuais sincronizados em um espaço latente unificado. O fluxo de trabalho suporta pipelines de texto para vídeo, imagem para vídeo e vídeo para vídeo, permitindo que os criadores controlem precisamente a estrutura da cena, movimento e continuidade. Sua arquitetura de duas etapas oferece escalonamento eficiente e uso otimizado de memória, tornando-o ideal para síntese de vídeo refinada, controlável e pronta para produção.

LTX-2 ControlNet: geração de vídeo guiada por estrutura e sincronizada com áudio no ComfyUI

LTX-2 ControlNet é um fluxo de trabalho dirigido por controle para a extensão ComfyUI-LTXVideo que permite controlar a geração de vídeo LTX-2 com orientação de profundidade, borda canny e pose enquanto mantém áudio e visuais sincronizados. Ele opera em um espaço latente áudio-visual unificado, então fala, efeitos sonoros e movimento são gerados juntos e permanecem alinhados do primeiro ao último quadro.

Projetado para texto para vídeo, imagem para vídeo e vídeo para vídeo, o fluxo de trabalho adiciona condicionamento ControlNet baseado em IC LoRA para controle preciso de layout e movimento, inicialização do primeiro quadro para continuidade de cena e um pipeline de duas etapas com escalonamento latente para resultados nítidos sem estourar a VRAM. LTX-2 ControlNet é totalmente aberto, rápido de iterar e orientado para a produção para criadores que precisam de saídas repetíveis e de alta qualidade.

Modelos chave no fluxo de trabalho ComfyUI LTX-2 ControlNet

  • LTX-2 19B (dev FP8 e destilado). Modelo generativo áudio-visual central usado para amostrar vídeo e áudio em um único espaço latente. Model family
  • Gemma 3 12B IT codificador de texto. Fornece compreensão robusta da linguagem para prompts e negativos via o codificador empacotado usado pelo LTX-2. Encoder file
  • LTX-2 Spatial Upscaler x2. Modelo de escalonamento latente usado na segunda etapa para refinar detalhes espaciais. Upscaler
  • LTX-2 Audio VAE. Decodificador-encoder de áudio especializado que mantém o som gerado alinhado com os quadros. Incluído com os pontos de verificação LTX-2. Checkpoints
  • Família de controle IC LoRA para LTX-2. Adiciona condicionamento estilo ControlNet:
    • Controle de profundidade LoRA: ltx-2-19b-IC-LoRA-Depth-Control
    • Controle Canny LoRA: ltx-2-19b-IC-LoRA-Canny-Control
    • Controle de pose LoRA: ltx-2-19b-IC-LoRA-Pose-Control
    • LoRA destilada para trocas de qualidade/eficiência: ltx-2-19b-distilled-lora-384
  • Lotus Depth D v1.1. Estimador de profundidade usado no caminho de controle de profundidade. Model
  • SD VAE FT MSE (Stability AI). VAE de imagem usado para pré-computação de profundidade e decodificação em blocos. VAE
  • Extensão ComfyUI-LTXVideo. Fornece os amostradores LTX-2, latentes AV, VAE de áudio e nós de guia usados ao longo do processo. Repository

Como usar o fluxo de trabalho ComfyUI LTX-2 ControlNet

Em um nível alto, o LTX-2 ControlNet pega seu prompt e referências opcionais, constrói um latente áudio-visual com orientação estilo ControlNet, amostra uma primeira passagem e depois escala o latente para vídeo nítido e áudio sincronizado. Escolha um dos três caminhos guiados (Profundidade, Canny, Pose) ou use-os independentemente, depois defina comprimento e tamanho antes de exportar.

  • Pré-processamento de imagem/vídeo
    • Se estiver fazendo imagem para vídeo ou vídeo para vídeo, use os carregadores para trazer sua mídia de referência. VHS_LoadVideo (#196, #197, #198) divide quadros para análise, enquanto LoadImage (#189) lida com imagens estáticas. O grupo fornece escalonamento conveniente para que os guias a jusante vejam tamanhos de quadro consistentes.
    • Uma imagem do “primeiro quadro” pode ser passada para frente para inicialização de cena; você a habilitará mais tarde no grupo de geração.
  • Pré-processamento de profundidade de imagem
    • Para orientação de profundidade, o subgrafo “Image to Depth Map (Lotus)” converte sua entrada em um mapa de profundidade normalizado usando Lotus Depth. Isso prepara uma representação de profundidade de um único quadro ou de múltiplos quadros que o LTX-2 pode seguir.
    • O caminho inclui redimensionamento opcional e controles de intensidade para que o guia codifique a estrutura ampla sem sobreajustar a pequenos artefatos.
  • Pré-processamento de pose de vídeo
    • Para orientação de pose, DWPreprocessor (#158) detecta pontos-chave de corpo inteiro do vídeo de entrada e os escala para condicionamento estável. Isso gera uma sequência de imagens de pose limpa que enfatiza a orientação do esqueleto e dos membros.
    • Nós de pré-visualização ajudam você a verificar rapidamente se as detecções e proporções estão corretas antes da geração.
  • Canny para vídeo
    • Este caminho de controle extrai bordas com Canny (#169), então constrói um latente AV com a sequência de imagem de controle. Use-o quando quiser preservar silhuetas, contornos principais ou bordas de tipografia de uma referência.
    • Uma entrada de imagem do primeiro quadro está disponível para inicialização consistente; habilite-a apenas quando quiser que o quadro de abertura corresponda a uma imagem estática específica.
  • Profundidade para vídeo
    • Este caminho alimenta os mapas de profundidade Lotus como as imagens de controle. O controle de profundidade é ideal para impor geometria de câmera, layout em grande escala e distância do sujeito enquanto permite que o gerador escolha texturas e iluminação.
    • Você pode fornecer um primeiro quadro para travar a composição inicial e depois deixar o movimento evoluir guiado por dicas de profundidade.
  • Pose para vídeo
    • O caminho de pose usa a renderização de pontos-chave do pré-processador, orientando a orientação do corpo e o tempo de movimento. É especialmente eficaz para bloqueio de personagens, tempo de elevação de mãos e ciclos de caminhada.
    • Como em outros modos, você pode combinar o tempo do prompt com o condicionamento opcional de primeiro quadro para continuidade.
  • Configurações de vídeo e comprimento
    • Defina a largura de trabalho, altura e contagem de quadros nos grupos “Configurações de Vídeo” e “comprimento do vídeo”. O fluxo de trabalho ajusta automaticamente valores inválidos para os tamanhos compatíveis mais próximos da grade latente e passo do LTX-2 para que você possa iterar com segurança.
    • Mantenha sua taxa de quadros alvo consistente entre os nós; os nós de condicionamento e a mux final respeitam isso para sincronização áudio-visual suave.
  • Geração, escalonamento e exportação
    • Durante a amostragem, LTXVAddGuide integra seu condicionamento positivo/negativo com as imagens de controle escolhidas, então SamplerCustomAdvanced executa o cronograma do LTXVScheduler para latentes de vídeo e áudio. O primeiro quadro opcional é injetado com LTXVImgToVideoInplace onde habilitado.
    • A segunda etapa executa LTXVLatentUpsampler para refinar detalhes com o escalonador latente x2. A decodificação final acontece com VAEDecodeTiled em blocos para quadros e LTXVAudioVAEDecode para áudio, então o vídeo é escrito com VHS_VideoCombine ou CreateVideo dependendo do ramo selecionado.

Nós chave no fluxo de trabalho ComfyUI LTX-2 ControlNet

  • LTXVAddGuide (#132)
    • Mescla o condicionamento de texto e controles IC LoRA no latente AV, atuando como o coração da orientação do LTX-2 ControlNet. Ajuste apenas os poucos controles que importam: escolha o LoRA de controle que corresponde ao seu caminho (profundidade, canny ou pose) e, quando disponível, o image_strength que ajusta o quão fielmente o modelo segue os guias. Implementação de referência e comportamento do nó são fornecidos pela extensão LTXVideo. Docs/Code
  • LTXVImgToVideoInplace (#149, #155)
    • Injeta uma imagem do primeiro quadro no latente AV para inicialização de cena consistente. Use strength para equilibrar a fidelidade ao primeiro quadro versus liberdade para evoluir; mantenha-o mais baixo para mais movimento e mais alto para âncoras mais firmes. Ignore-o quando quiser aberturas puramente dirigidas por texto ou controle. Docs/Code
  • LTXVScheduler (#95)
    • Conduz a trajetória de remoção de ruído para o latente unificado para que áudio e vídeo converjam juntos. Aumente os passos para cenas complexas e detalhes finos; reduza para rascunhos e iteração rápida. As configurações do cronograma interagem com a força da orientação, portanto, evite valores extremos quando a orientação for forte. Docs/Code
  • LTXVLatentUpsampler (#112)
    • Realiza o escalonamento latente de segunda etapa com o escalonador espacial x2 do LTX-2, melhorando a nitidez com crescimento mínimo de VRAM. Use-o após a primeira passagem em vez de aumentar a resolução base para manter as iterações responsivas. Upscaler model
  • DWPreprocessor (#158)
    • Gera pontos-chave de pose humana limpa para o caminho de controle de pose. Verifique as detecções com a pré-visualização; se mãos ou pequenos membros estiverem ruidosos, escale as entradas para uma dimensão máxima moderada antes do pré-processamento. Fornecido pela suíte auxiliar ControlNet. Repo
  • VHS_VideoCombine / CreateVideo (#195, #106)
    • Muxa quadros decodificados e áudio em um MP4 com a taxa de quadros e formato de pixel selecionados. Use-os apenas após confirmar que sua decodificação de áudio parece alinhada na pré-visualização. Fornecido pelo Video Helper Suite. Repo

Extras opcionais

  • Prompting para LTX-2 ControlNet
    • Descreva ações ao longo do tempo, não apenas atributos estáticos.
    • Inclua dicas de som ou diálogos necessários para que o áudio seja gerado no ritmo.
    • Use um prompt negativo conciso para suprimir artefatos que você vê repetidamente.
  • Tamanhos e comprimentos
    • Use tamanhos de imagem da forma 32k + 1 para largura/altura; o gráfico auto-corrige se você errar, mas valores exatos aceleram a iteração.
    • Contagens de quadros da forma 8k + 1 tendem a ser mais estáveis para agendamento.
  • Consistência do primeiro quadro
    • Habilite o primeiro quadro apenas quando precisar de uma composição de abertura travada; combine com image_strength moderado para evitar sobreconstrangimento.
  • VRAM e rendimento
    • O fluxo de trabalho inclui opções de sequência-paralela e compilação torch no patcher LTXVideo para configurações multi-GPU ou com restrição de memória. Mantenha-os ativados para clipes longos, desativados ao depurar o comportamento do nó. Extension

Agradecimentos

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a Lightricks pelo ComfyUI-LTXVideo por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos

  • Repositório GitHub ComfyUI-LTXVideo: https://github.com/Lightricks/ComfyUI-LTXVideo
    • GitHub: Lightricks/ComfyUI-LTXVideo

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Pyramid Flow | Geração de Vídeo

Incluindo modos de texto-para-vídeo e imagem-para-vídeo.

CogvideoX Fun | Modelo de Vídeo para Vídeo

CogVideoX Fun: Modelo avançado de vídeo para vídeo para geração de vídeos de alta qualidade.

EchoMimic | Animações de Retratos Guiadas por Áudio

Gere cabeças falantes realistas e gestos corporais sincronizados com o áudio fornecido.

Mochi 1 | Genmo Texto para Vídeo

Demonstração de Texto para Vídeo Usando o Modelo Genmo Mochi 1

Mochi Edit UnSampling | Vídeo-para-Vídeo

Mochi Edit: Modifique Vídeos Usando Prompts Baseados em Texto e Unsampling.

FramePack Wrapper | Geração de Vídeo Longo Eficiente

Crie vídeos estáveis, com mais de 60s, usando recursos mínimos de nuvem.

Product Relighting Video | Vid2Vid

Insira um vídeo e máscaras de luz para gerar um vídeo de reiluminação

SAM 3D ComfyUI | Animação de Objeto e Corpo

Crie movimento 3D realista e animação a partir de imagens estáticas instantaneamente.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.