LTX-2 First Last Frame em ComfyUI | Controle de Movimento Áudio-Visual

ComfyUI LTX-2 First Last Frame Fluxo de Trabalho

LTX-2 First Last Frame in ComfyUI | Audio-Visual Motion Control

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI LTX-2 First Last Frame Exemplos

LTX-2 First Last Frame: geração de vídeo controlada de início a fim, sincronizada com áudio em ComfyUI#

LTX-2 First Last Frame é um fluxo de trabalho do ComfyUI para criadores que desejam movimento cinematográfico preciso entre um quadro inicial e um quadro final definidos, enquanto geram áudio e visuais sincronizados em uma única passagem. Ao condicionar em ambas as imagens (e opcionalmente um quadro intermediário guia), o pipeline preserva identidade, enquadramento e iluminação ao longo da tomada, então direciona o movimento para pousar exatamente no último quadro. É projetado para batidas narrativas, transições de título ou cena, movimentos de câmera, e qualquer momento onde a continuidade temporal e o alinhamento de áudio importam.

Impulsionado pelo modelo em tempo real LTX-2, o fluxo de trabalho mantém a iteração rápida enquanto oferece controle fino sobre prompts, comportamento da câmera via LoRAs, e força do primeiro/último quadro. O resultado é uma sequência suave e coerente cujo tempo, aparência e som seguem suas direções do primeiro ao último quadro.

Nota: Para tipos de máquina abaixo de 2x Large, por favor, use o modelo "ltx-2-19b-dev-fp8.safetensors" !

Modelos chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui#

LTX-2 19B (dev). O modelo central de geração de vídeo que produz latentes de áudio-vídeo conjuntos a partir de texto e controles de quadros; suporta iteração em tempo real e LoRAs conscientes de câmera. Veja o repositório oficial e pesos: Lightricks/LTX-2 on GitHub e Lightricks/LTX-2 on Hugging Face.
Gemma 3 12B Instruct text encoder for LTX-2. Fornece compreensão de linguagem robusta e ajustada por instrução para prompting visual e de áudio neste pipeline; empacotado para ComfyUI como um codificador de texto compatível com LTX. Referência de pesos: Comfy-Org/ltx-2 split text encoders.
LTXV Audio VAE (vocoder de 24 kHz). Codifica e decodifica latentes de áudio para que a trilha sonora seja gerada junto com o vídeo e permaneça sincronizada com a ação na tela. Veja o contexto da família de modelos em Lightricks/LTX-2.
LTX-2 Spatial Upscaler x2. Um upscaler latente para resultados de alta resolução mais limpos após a passagem base, usado durante a etapa de amostragem de upscale. Os pesos estão disponíveis em Lightricks/LTX-2.
LTX-2 LoRA pack for camera control and detail. LoRAs opcionais como Dolly In/Out/Left/Right, Jib Up/Down, Static, e um Image-Conditioning Detailer moldam o movimento da câmera e detalhes finos. Navegue pela coleção oficial: Lightricks LTX-2 LoRAs.

Como usar o fluxo de trabalho Comfyui LTX-2 First Last Frame#

Este fluxo de trabalho move-se de entradas e prompts para uma amostra de áudio-vídeo base, depois executa uma passagem de upscale guiada 2x antes de decodificar e muxar para MP4 com áudio. Ele depende de controles de primeiro/último quadro em ambas as etapas base e de upscale, com um quadro intermediário opcional para estabilizar a trajetória.

Model#

O grupo Model carrega o checkpoint LTX-2, o codificador de texto Gemma 3 12B Instruct, e o LTXV Audio VAE. Use o painel ckpt_name para selecionar entre variantes padrão e FP8 com base no seu GPU. O codificador de texto é fornecido por LTXAVTextEncoderLoader e alimenta tanto prompts positivos quanto negativos. O áudio VAE permite a geração conjunta de áudio-vídeo para que diálogo, efeitos ou ambiente descritos no prompt surjam com os visuais.

Prompt#

Escreva a cena no prompt positivo e liste características indesejáveis no prompt negativo. Descreva ações ao longo do tempo, especificidades visuais chave, e eventos sonoros na ordem em que devem ocorrer. O bloco LTXVConditioning aplica seu prompt junto com a taxa de quadros escolhida para que o tempo e o movimento sejam interpretados de forma consistente. Trate o áudio como parte do prompt quando precisar de fala, efeitos ou ambiente.

Video Settings#

Defina Width, Height, e total de Video Frames, então escolha Length para o espaçamento de controle primeiro/último, se necessário. O fluxo de trabalho garante que as dimensões correspondam aos requisitos do modelo e escala as entradas de forma apropriada. Se suas imagens de entrada forem maiores, o gráfico lê seu tamanho para inicializar a tela latente e redimensiona os quadros fornecidos para se ajustar. Escolha uma taxa de quadros que corresponda à sua entrega pretendida.

Latent#

Este grupo constrói um vídeo latente vazio e um áudio latente correspondente, então os concatena para que o modelo amostre áudio e vídeo juntos. É onde o guia de primeiro/último quadro é injetado pela primeira vez na passagem base. Fornecer um quadro intermediário é opcional, mas útil para estabilizar identidade ou pose chave no meio da tomada. O resultado é um único latente AV pronto para a amostragem base.

Basic Sampler#

A passagem base usa ruído aleatório, um agendador, e o guia configurado para resolver seu prompt em um latente AV coerente. O guia recebe condicionamento positivo e negativo mais qualquer modelo modificado por LoRA. Após a amostragem, o latente é dividido novamente em vídeo e áudio para que o vídeo possa ser upscalado enquanto o áudio é mantido alinhado. Esta etapa define o movimento global, ritmo, e ritmo de áudio que a passagem de upscale irá refinar.

Upscale#

O upscaler eleva o latente para uma resolução espacial mais alta antes de uma segunda passagem de amostragem. O controle de primeiro/último quadro é reaplicado nesta resolução mais alta para travar os quadros de abertura e fechamento com precisão. Você também pode alimentar um quadro intermediário aqui para manter características estáveis através do upscale. O resultado é um latente AV mais nítido que preserva o movimento planejado.

Model#

Este grupo Model carrega o upscaler latente LTX-2 usado pelo grupo Upscale. Ele prepara o modelo espacial x2 específico e o expõe ao nó upsampler latente. Alterne modelos aqui se você mantiver múltiplos upscalers. Deixe este grupo intocado se você estiver satisfeito com o comportamento padrão x2.

Upscale Sampling(2x)#

A segunda passagem realiza amostragem guiada no latente upscalado usando um sampler separado e cronograma sigma. Um guia consciente de corte alinha o condicionamento à nova resolução para que os detalhes permaneçam consistentes. A saída é dividida novamente em vídeo e áudio para decodificação. Esta passagem melhora principalmente bordas, melhora pequenos textos ou texturas, e mantém a correspondência do primeiro/último quadro.

LTX-2-19b-IC-LoRA-Detailer#

Este grupo aplica um LoRA orientado a detalhes ajustado para o caminho de condicionamento de imagem do LTX-2. Ative-o quando você quiser mais microdetalhes ou texturas mais apertadas após o condicionamento em imagens reais. Mantenha a força moderada para evitar sobrecarregar seu prompt ou restrições de quadro. Se suas entradas já forem nítidas e bem iluminadas, você pode ignorar este LoRA.

Camera-Control-Dolly-In#

Use este LoRA quando a câmera deve se mover em direção ao sujeito ao longo do tempo. Ele inclina o modelo em direção ao movimento para frente enquanto respeita os alvos de primeiro/último. Combine com pistas textuais descrevendo o movimento para o efeito mais forte. Reduza a força se o movimento ultrapassar seu enquadramento pretendido.

Camera-Control-Dolly-Out#

Selecione este quando a tomada deve se afastar do sujeito. Ajuda a criar paralaxe negativa e contexto de ampliação à medida que a sequência progride. Mantenha o último quadro alinhado com sua composição de saída para pousar o movimento de forma limpa. Combine com prompts de áudio atmosférico para revelações cinematográficas.

Camera-Control-Dolly-Left#

Aplica um movimento lateral para a esquerda que é lido como um dolly ou caminhão. Bom para batidas de conversa ou revelações através de um conjunto. Se objetos se mancharem ou derivarem, aumente ligeiramente a força do primeiro/último ou adicione um quadro intermediário. Equilibre com pequenas dicas textuais como "movimento lento para a esquerda" para complementar o LoRA.

Camera-Control-Dolly-Right#

O espelho de Dolly-Left, isso inclina o movimento para o lado direito. Funciona bem para seguir um personagem ou panoramizar para um novo sujeito. Mantenha a força do LoRA modesta se você também solicitar um empurrão para evitar sinais conflitantes. Certifique-se de que a composição do último quadro corresponda ao seu ponto final desejado.

Camera-Control-Jib-Up#

Cria uma elevação vertical, útil para revelações de levantamento ou tomadas de estabelecimento. Combine com prompts superficiais sobre mudança de perspectiva e mudança de horizonte para clareza. Quando o movimento é forte, observe tetos ou exposição do céu; ajuste o prompt negativo para evitar destaques estourados. Se necessário, adicione um quadro intermediário mostrando a enquadramento de meio de subida.

Camera-Control-Jib-Down#

Produz uma descida controlada, frequentemente usada para se estabelecer em um detalhe ou personagem. Pode ser emparelhado com uma cama de áudio mais silenciosa para ênfase. Certifique-se de que o último quadro contenha o objeto ou rosto alvo para que o movimento se resolva de forma decisiva. Ajuste a força do LoRA se a descida parecer muito rápida.

Camera-Control-Static#

Trava a câmera virtual no lugar quando você deseja ação sem movimento de câmera. Isso é útil para diálogos ou tomadas de produto onde apenas o sujeito se move. Combine com controle de primeiro/último quadro para manter a composição perfeitamente estável. Adicione movimento sutil através do prompt de texto em vez de um LoRA de câmera.

Nós chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui#

`LTXVFirstLastFrameControl_TTP` (#227)#

Injeta restrições de imagem de primeiro e último no latente AV base. Ajuste first_strength para controlar quão estritamente o primeiro quadro é correspondido e last_strength para determinar quão forte a sequência pousa no quadro final. Se o meio do clipe se desviar, forneça um quadro intermediário via LTXVMiddleFrame_TTP e mantenha as forças moderadas para evitar restringir demais o movimento.

`LTXVMiddleFrame_TTP` (#181)#

Insere opcionalmente um quadro guia em uma posição escolhida entre o início e o fim para estabilizar identidade ou pose. Aumente strength quando o sujeito mudar muito no meio da tomada. Use com moderação; os melhores resultados vêm de uma única referência intermediária bem escolhida, em vez de muitas restrições concorrentes.

`LTXVLatentUpsampler` (#217)#

Realiza o upscale espacial x2 no espaço latente usando o upscaler espacial LTX-2. Use isso antes da passagem de amostragem 2x para que os detalhes de alta resolução sejam refinados pelo modelo em vez de esticados. Se a memória estiver apertada, mantenha o uso de LoRA mínimo durante esta etapa.

`LTXVFirstLastFrameControl_TTP` (#223)#

Reaplica a orientação de início/fim (e opcionalmente intermediário) após o upscale x2. Isso garante que os quadros decodificados finais correspondam precisamente às suas referências de primeiro e último na resolução de entrega. Se o upscale introduzir microdeslocamentos, aumente ligeiramente last_strength aqui em vez de na etapa base.

`LTXVSpatioTemporalTiledVAEDecode` (#230)#

Decodifica o vídeo latente de alta resolução em quadros usando tiling espácio-temporal. Ajuste as configurações de tile e overlap somente quando você vir costuras ou cintilação temporal; maior overlap custa mais VRAM, mas melhora a consistência. Mantenha last_frame_fix para casos extremos onde o quadro final mostra pequeno desvio.

`VHS_VideoCombine` (#254)#

Muxa quadros decodificados e o áudio gerado em um único MP4. Defina format, pix_fmt, e crf para seu alvo de entrega, e escolha uma frame_rate consistente com o condicionamento. Habilite a gravação de metadados para manter registros de reprodutibilidade com cada renderização.

Extras opcionais#

Use pesos FP8 do LTX-2 se seu GPU for limitado; mude de volta para precisão total para a maior fidelidade quando o VRAM permitir. Os pesos estão em Lightricks/LTX-2.
As dimensões funcionam melhor quando largura e altura são da forma 32n + 1; o total de quadros funciona melhor como 8n + 1. O fluxo de trabalho corrige automaticamente para os valores válidos mais próximos, se necessário.
Descreva dicas de áudio diretamente no seu prompt positivo (diálogo, efeitos, ambiente). O latente conjunto AV do modelo mantém lábios, ações, e sons alinhados.
Comece com forças de primeiro/último moderadas; aumente a força do último para acertar a pose final, ou adicione um quadro intermediário para estabilizar a identidade.
Aplique apenas um LoRA de câmera por vez para um intento claro. Navegue pelas opções oficiais na coleção Lightricks LTX-2 LoRA.

Agradecimentos#

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos @AIKSK pela Referência de Fluxo de Trabalho LTX-2 First Last Frame por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.

Recursos#

RunningHub/LTX-2 First Last Frame Workflow Reference
- Docs / Release Notes: LTX-2 First Last Frame Workflow Reference from AIKSK

Nota: O uso dos modelos, conjuntos de dados, e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan 2.1 FLF2V | Vídeo de Quadro Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.1 FLF2V.

FLUX.2 Dev LoRA Inferência | AI Toolkit ComfyUI

Execute seu FLUX.2 Dev LoRA treinado no AI Toolkit no ComfyUI com comportamento compatível com o treinamento usando um único nó personalizado RunComfy RC.

AnimateDiff + ControlNet + IPAdapter V1 | Estilo Anime Plano

Dê aos seus vídeos uma transformação única de anime sem esforço, capturando o vibrante estilo plano

LTX 2.3 IC-LoRA | Gerador de Vídeo AI com Rastreamento de Movimento

Ferramenta de vídeo guiada por movimento V2V para criação AI ultra-precisa e sem estilo

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

ComfyUI LTX-2 First Last Frame Fluxo de Trabalho

ComfyUI LTX-2 First Last Frame Exemplos

LTX-2 First Last Frame: geração de vídeo controlada de início a fim, sincronizada com áudio em ComfyUI#

Modelos chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui#

Como usar o fluxo de trabalho Comfyui LTX-2 First Last Frame#

Model#

Prompt#

Video Settings#

Latent#

Basic Sampler#

Upscale#

Model#

Upscale Sampling(2x)#

LTX-2-19b-IC-LoRA-Detailer#

Camera-Control-Dolly-In#

Camera-Control-Dolly-Out#

Camera-Control-Dolly-Left#

Camera-Control-Dolly-Right#

Camera-Control-Jib-Up#

Camera-Control-Jib-Down#

Camera-Control-Static#

Nós chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui#

LTXVFirstLastFrameControl_TTP (#227)#

LTXVMiddleFrame_TTP (#181)#

LTXVLatentUpsampler (#217)#

LTXVFirstLastFrameControl_TTP (#223)#

LTXVSpatioTemporalTiledVAEDecode (#230)#

VHS_VideoCombine (#254)#

Extras opcionais#

Agradecimentos#

Recursos#

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.1 FLF2V | Vídeo de Quadro Inicial-Final

FLUX.2 Dev LoRA Inferência | AI Toolkit ComfyUI

AnimateDiff + ControlNet + IPAdapter V1 | Estilo Anime Plano

LTX 2.3 IC-LoRA | Gerador de Vídeo AI com Rastreamento de Movimento

`LTXVFirstLastFrameControl_TTP` (#227)#

`LTXVMiddleFrame_TTP` (#181)#

`LTXVLatentUpsampler` (#217)#

`LTXVFirstLastFrameControl_TTP` (#223)#

`LTXVSpatioTemporalTiledVAEDecode` (#230)#

`VHS_VideoCombine` (#254)#