LTX 2.3 IC-LoRA: Geração de vídeo com Rastreamento de Movimento em ComfyUI
Este fluxo de trabalho traz o sistema LTX 2.3 IC-LoRA para ComfyUI, permitindo que você guie o movimento e a estrutura da cena enquanto estiliza livremente com prompts ou LoRAs adicionais. Ele condiciona o gerador de vídeo LTX-2.3 em sinais de referência como profundidade, pose e bordas, possibilitando transferência de movimento, bloqueio de câmera e composição previsível.
Criadores trabalhando em vídeo-para-vídeo, redirecionamento de movimento e animação AI controlada descobrirão que o LTX 2.3 IC-LoRA separa o controle de movimento do estilo visual. Você dirige o visual com textos e LoRAs de estilo e dirige o movimento com guias estruturadas, tudo dentro de um único gráfico ComfyUI.
Modelos principais no fluxo de trabalho Comfyui LTX 2.3 IC-LoRA
- LTX-2.3 por Lightricks. Um transformador de difusão de vídeo latente de alta fidelidade que gera sequências temporalmente consistentes e suporta condicionamento para controle de estrutura e movimento. Hugging Face: Lightricks/LTX-2.3
- Pesos de controle de união LTX 2.3 IC-LoRA. Pesos de LoRA em contexto projetados para injetar sinais de orientação estruturada no LTX-2.3 para controle preciso de movimento e geometria. Fornecido com a cadeia de modelo do fluxo de trabalho e carregado antes da geração.
- VAEs de vídeo e áudio LTX-2.3. Codificadores/decodificadores latentes emparelhados com o LTX-2.3 para comprimir e reconstruir recursos de vídeo e áudio usados durante a amostragem. Pré-configurado no gráfico e alternável ao usar compilações quantizadas. Exemplos de pacotes divididos estão disponíveis aqui: Hugging Face: unsloth/LTX-2.3-GGUF
- Depth Anything V2. Estimativa robusta de profundidade monocular usada para bloquear o movimento da câmera ou preservar o layout da cena durante a geração. Hugging Face: LiheYoung/Depth-Anything-V2
- DWPose. Estimador de pose leve para múltiplas pessoas usado para redirecionar ou preservar o movimento de personagens através de pontos-chave. Hugging Face: yzd-v/DWPose
Como usar o fluxo de trabalho Comfyui LTX 2.3 IC-LoRA
O gráfico é organizado em grupos claros. Você prepara prompts e um vídeo de referência, escolhe um ou mais guias estruturais, depois gera e exporta.
Configurar prompts
Use CLIP Text Encode (Positive Prompt) (#2483) e CLIP Text Encode (Negative Prompt) (#2612) para descrever o estilo visual e excluir características indesejadas. Os codificadores de texto são carregados no grupo de modelos e roteados para LTXVConditioning (#1241), que também recebe a taxa de quadros de trabalho para que o condicionamento corresponda ao tempo do seu clipe. Mantenha os prompts focados na aparência porque o LTX 2.3 IC-LoRA cuidará do movimento e da estrutura.
Pré-processamento
Carregue ou passe um clipe de referência para VHS_LoadVideo (#5182). Os quadros são redimensionados em ImageResizeKJv2 (#5080) e alimentados nos extratores de guia: DepthAnythingV2Preprocessor (#5064) para profundidade, DWPreprocessor (#4986) para pose e CannyEdgePreprocessor (#4991) para bordas. Um nó de redimensionamento a jusante garante que os mapas de guia correspondam aos múltiplos amigáveis do modelo, e GetImageSize (#5029) registra largura, altura e contagem de quadros para o restante do pipeline. A sequência de imagens guia resultante é armazenada por Set_video_controlnet (#5100) para consumo do IC-LoRA.
Carregar Modelos
O modelo base e os LoRAs são montados neste grupo. CheckpointLoaderSimple (#3940) carrega o LTX-2.3; LoraLoaderModelOnly (#4922) aplica um LoRA LTX destilado para qualidade e velocidade; LTXICLoRALoaderModelOnly (#5011) adiciona os pesos LTX 2.3 IC-LoRA e publica o fator de redução latente necessário. VAEs para vídeo e áudio são carregados, e Boolean - Use GGUF? (#5158) pode alternar para uma compilação quantizada GGUF via GGUFLoaderKJ (#5150) com codificadores de texto e VAEs compatíveis quando a VRAM está apertada.
Carregar Imagem (defina bypass=True se t2v)
Se você quiser ancorar a composição com uma referência estática ou primeiro quadro, use LoadImage (#2004). Ele é redimensionado por ImageResizeKJv2 (#5076) e pré-visualizado para verificações rápidas. O booleano bypass_i2v controla se a imagem é usada ou não; defina-o como True para texto-puro-para-vídeo com LTX 2.3 IC-LoRA.
Gerar
EmptyLTXVLatentVideo (#3059) cria a tela latente. Se a ancoragem de imagem estiver habilitada, LTXVImgToVideoConditionOnly (#3159) injeta apenas informações estruturais da sua imagem sem incorporar estilo. O passo central ocorre em LTXAddVideoICLoRAGuide (#5012), que anexa a sequência de guia escolhida ao modelo usando o fator de redução latente do carregador IC-LoRA. O condicionamento de áudio também flui para o latente através de LTXVEmptyLatentAudio (#3980) ou do caminho de áudio personalizado. CFGGuider (#4828), KSamplerSelect (#4831), ManualSigmas (#5025) e SamplerCustomAdvanced (#4829) então realizam a remoção de ruído para sintetizar o vídeo latente final enquanto respeitam tanto os prompts quanto os controles LTX 2.3 IC-LoRA.
Decodificar
LTXVSeparateAVLatent (#4845) divide os latentes de áudio e vídeo gerados para decodificação. LTXVCropGuides (#5013) alinha e recorta se necessário, então VAEDecodeTiled (#4851) reconstrói os quadros de forma eficiente. VHS_VideoCombine (#5070) combina os quadros em um MP4, usando o áudio do clipe de referência por padrão. Você também pode decodificar o latente de áudio gerado com LTXVAudioVAEDecode (#4848) se quiser ouvi-lo separadamente.
Preparar Vídeo de Referência
Esta área auxiliar mostra o pipeline de quadros de referência. VHS_VideoInfoLoaded (#5073) extrai fps e duração, que são propagados para os nós de condicionamento e para os exportadores para que o tempo permaneça sincronizado. Um pequeno nó de combinação fornece uma pré-visualização rápida da sequência de origem para verificações de sanidade.
Áudio Personalizado
Se você gostaria de geração sensível ao áudio, o áudio de referência é codificado com LTXVAudioVAEEncode (#5146) e uma máscara simples é aplicada em SetLatentNoiseMask (#5148). O switch intitulado Switch - Custom Audio? (#5149) seleciona entre latentes de áudio vazios ou codificados antes da concatenação em LTXVConcatAVLatent (#4528). A exportação final ainda usa o áudio de referência por padrão; se você preferir o áudio decodificado do modelo, direcione a saída de LTXVAudioVAEDecode para a entrada de áudio do exportador.
Configuração Oficial de Sigma LTX
O nó de agendamento ManualSigmas (#5025) define um perfil de sigma conciso ajustado para LTX-2.3, e SigmasPreview (#5142) o visualiza para que você possa raciocinar sobre a alocação de ruído ao longo do tempo. Isso permite que você troque velocidade por detalhe enquanto mantém a estabilidade temporal característica do LTX 2.3 IC-LoRA.
Nós principais no fluxo de trabalho Comfyui LTX 2.3 IC-LoRA
LTXICLoRALoaderModelOnly(#5011). Carrega os pesos LTX 2.3 IC-LoRA e produz o fator de redução latente necessário pelo injetor de guia. Se você adicionar LoRAs de estilo extras, coloque-os antes deste carregador para manter o domínio da orientação de movimento.LTXAddVideoICLoRAGuide(#5012). O ponto onde sequências de profundidade, pose ou borda entram no modelo como orientação em contexto. Ajuste sua força para equilibrar entre adesão estrutural estrita e liberdade estilística de seu prompt e LoRAs de estilo.LTXVImgToVideoConditionOnly(#3159). Fornece condicionamento opcional de imagem para vídeo que transfere apenas composição e estrutura grosseira de uma imagem estática. Use seu alternadorbypassao alternar entre i2v e texto-puro-para-vídeo.CFGGuider(#4828). Controla quão fortemente o modelo segue seus prompts em relação ao guia LTX 2.3 IC-LoRA. Aumente a orientação quando a fidelidade de estilo for mais importante, diminua-a para preservar movimento e geometria com mínimo desvio.SamplerCustomAdvanced(#4829) comManualSigmas(#5025). Um agendamento compacto e emparelhamento de amostrador multietapa que oferece boa coerência temporal para LTX-2.3. Se você modificar o agendamento, mantenha-o suavemente decrescente e teste clipes curtos antes de renderizações mais longas.
Extras opcionais
- Escolha o guia certo. Use profundidade para bloquear câmera e layout, pose para movimento de personagens e bordas para objetos rígidos ou silhuetas limpas. Misturar dois guias é possível se eles descreverem aspectos diferentes.
- Mantenha as dimensões amigáveis ao amostrador. Os pré-processadores já arredondam os tamanhos para múltiplos amigáveis ao modelo; mantenha sua fonte próxima à proporção de aspecto alvo para minimizar o preenchimento.
- Estilize sem quebrar o movimento. Adicione um LoRA de estilo leve antes do carregador IC-LoRA e mantenha seu peso moderado para que o LTX 2.3 IC-LoRA possa manter a geometria e o tempo.
- Modo de baixa VRAM. Ative Usar GGUF para executar o modelo destilado quantizado e codificadores de texto/VAEs correspondentes do pacote GGUF se sua GPU estiver limitada. Hugging Face: unsloth/LTX-2.3-GGUF
- Tempo estável. A taxa de quadros lida do vídeo de referência é injetada no condicionamento e nos exportadores para que o movimento e o áudio permaneçam alinhados. Se você substituir fps, faça-o de forma consistente em todo o condicionamento e exportação.
Agradecimentos
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos @Benji’s AI Playground de LTX 2.3 IC-LoRA Source por fornecer materiais de origem e orientação. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- LTX 2.3 IC-LoRA Source
- Docs / Release Notes: YouTube @Benji’s AI Playground
Nota: O uso dos modelos, datasets e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
