logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Fluxos de Trabalho>LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

Workflow Name: RunComfy/LTX-2-First-Last-Frame
Workflow ID: 0000...1334
Construído sobre o modelo LTX-2, este fluxo de trabalho de geração de vídeo capacita você a criar animações fluidas e visualmente consistentes com controle preciso entre os quadros de início e término escolhidos. Ele mantém inteligentemente a coerência temporal enquanto gera som sincronizado para alinhar visuais e áudio de forma suave. Perfeito para transições cinematográficas, tomadas narrativas e design de movimento criativo, oferece iteração rápida e controle sobre o tempo e o fluxo do movimento. Com processamento de baixa latência, os designers podem ajustar todos os aspectos da cena de vídeo de forma rápida e eficiente.

LTX-2 First Last Frame: geração de vídeo controlada de início a fim, sincronizada com áudio em ComfyUI

LTX-2 First Last Frame é um fluxo de trabalho do ComfyUI para criadores que desejam movimento cinematográfico preciso entre um quadro inicial e um quadro final definidos, enquanto geram áudio e visuais sincronizados em uma única passagem. Ao condicionar em ambas as imagens (e opcionalmente um quadro intermediário guia), o pipeline preserva identidade, enquadramento e iluminação ao longo da tomada, então direciona o movimento para pousar exatamente no último quadro. É projetado para batidas narrativas, transições de título ou cena, movimentos de câmera, e qualquer momento onde a continuidade temporal e o alinhamento de áudio importam.

Impulsionado pelo modelo em tempo real LTX-2, o fluxo de trabalho mantém a iteração rápida enquanto oferece controle fino sobre prompts, comportamento da câmera via LoRAs, e força do primeiro/último quadro. O resultado é uma sequência suave e coerente cujo tempo, aparência e som seguem suas direções do primeiro ao último quadro.

Nota: Para tipos de máquina abaixo de 2x Large, por favor, use o modelo "ltx-2-19b-dev-fp8.safetensors" !

Modelos chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui

  • LTX-2 19B (dev). O modelo central de geração de vídeo que produz latentes de áudio-vídeo conjuntos a partir de texto e controles de quadros; suporta iteração em tempo real e LoRAs conscientes de câmera. Veja o repositório oficial e pesos: Lightricks/LTX-2 on GitHub e Lightricks/LTX-2 on Hugging Face.
  • Gemma 3 12B Instruct text encoder for LTX-2. Fornece compreensão de linguagem robusta e ajustada por instrução para prompting visual e de áudio neste pipeline; empacotado para ComfyUI como um codificador de texto compatível com LTX. Referência de pesos: Comfy-Org/ltx-2 split text encoders.
  • LTXV Audio VAE (vocoder de 24 kHz). Codifica e decodifica latentes de áudio para que a trilha sonora seja gerada junto com o vídeo e permaneça sincronizada com a ação na tela. Veja o contexto da família de modelos em Lightricks/LTX-2.
  • LTX-2 Spatial Upscaler x2. Um upscaler latente para resultados de alta resolução mais limpos após a passagem base, usado durante a etapa de amostragem de upscale. Os pesos estão disponíveis em Lightricks/LTX-2.
  • LTX-2 LoRA pack for camera control and detail. LoRAs opcionais como Dolly In/Out/Left/Right, Jib Up/Down, Static, e um Image-Conditioning Detailer moldam o movimento da câmera e detalhes finos. Navegue pela coleção oficial: Lightricks LTX-2 LoRAs.

Como usar o fluxo de trabalho Comfyui LTX-2 First Last Frame

Este fluxo de trabalho move-se de entradas e prompts para uma amostra de áudio-vídeo base, depois executa uma passagem de upscale guiada 2x antes de decodificar e muxar para MP4 com áudio. Ele depende de controles de primeiro/último quadro em ambas as etapas base e de upscale, com um quadro intermediário opcional para estabilizar a trajetória.

Model

O grupo Model carrega o checkpoint LTX-2, o codificador de texto Gemma 3 12B Instruct, e o LTXV Audio VAE. Use o painel ckpt_name para selecionar entre variantes padrão e FP8 com base no seu GPU. O codificador de texto é fornecido por LTXAVTextEncoderLoader e alimenta tanto prompts positivos quanto negativos. O áudio VAE permite a geração conjunta de áudio-vídeo para que diálogo, efeitos ou ambiente descritos no prompt surjam com os visuais.

Prompt

Escreva a cena no prompt positivo e liste características indesejáveis no prompt negativo. Descreva ações ao longo do tempo, especificidades visuais chave, e eventos sonoros na ordem em que devem ocorrer. O bloco LTXVConditioning aplica seu prompt junto com a taxa de quadros escolhida para que o tempo e o movimento sejam interpretados de forma consistente. Trate o áudio como parte do prompt quando precisar de fala, efeitos ou ambiente.

Video Settings

Defina Width, Height, e total de Video Frames, então escolha Length para o espaçamento de controle primeiro/último, se necessário. O fluxo de trabalho garante que as dimensões correspondam aos requisitos do modelo e escala as entradas de forma apropriada. Se suas imagens de entrada forem maiores, o gráfico lê seu tamanho para inicializar a tela latente e redimensiona os quadros fornecidos para se ajustar. Escolha uma taxa de quadros que corresponda à sua entrega pretendida.

Latent

Este grupo constrói um vídeo latente vazio e um áudio latente correspondente, então os concatena para que o modelo amostre áudio e vídeo juntos. É onde o guia de primeiro/último quadro é injetado pela primeira vez na passagem base. Fornecer um quadro intermediário é opcional, mas útil para estabilizar identidade ou pose chave no meio da tomada. O resultado é um único latente AV pronto para a amostragem base.

Basic Sampler

A passagem base usa ruído aleatório, um agendador, e o guia configurado para resolver seu prompt em um latente AV coerente. O guia recebe condicionamento positivo e negativo mais qualquer modelo modificado por LoRA. Após a amostragem, o latente é dividido novamente em vídeo e áudio para que o vídeo possa ser upscalado enquanto o áudio é mantido alinhado. Esta etapa define o movimento global, ritmo, e ritmo de áudio que a passagem de upscale irá refinar.

Upscale

O upscaler eleva o latente para uma resolução espacial mais alta antes de uma segunda passagem de amostragem. O controle de primeiro/último quadro é reaplicado nesta resolução mais alta para travar os quadros de abertura e fechamento com precisão. Você também pode alimentar um quadro intermediário aqui para manter características estáveis através do upscale. O resultado é um latente AV mais nítido que preserva o movimento planejado.

Model

Este grupo Model carrega o upscaler latente LTX-2 usado pelo grupo Upscale. Ele prepara o modelo espacial x2 específico e o expõe ao nó upsampler latente. Alterne modelos aqui se você mantiver múltiplos upscalers. Deixe este grupo intocado se você estiver satisfeito com o comportamento padrão x2.

Upscale Sampling(2x)

A segunda passagem realiza amostragem guiada no latente upscalado usando um sampler separado e cronograma sigma. Um guia consciente de corte alinha o condicionamento à nova resolução para que os detalhes permaneçam consistentes. A saída é dividida novamente em vídeo e áudio para decodificação. Esta passagem melhora principalmente bordas, melhora pequenos textos ou texturas, e mantém a correspondência do primeiro/último quadro.

LTX-2-19b-IC-LoRA-Detailer

Este grupo aplica um LoRA orientado a detalhes ajustado para o caminho de condicionamento de imagem do LTX-2. Ative-o quando você quiser mais microdetalhes ou texturas mais apertadas após o condicionamento em imagens reais. Mantenha a força moderada para evitar sobrecarregar seu prompt ou restrições de quadro. Se suas entradas já forem nítidas e bem iluminadas, você pode ignorar este LoRA.

Camera-Control-Dolly-In

Use este LoRA quando a câmera deve se mover em direção ao sujeito ao longo do tempo. Ele inclina o modelo em direção ao movimento para frente enquanto respeita os alvos de primeiro/último. Combine com pistas textuais descrevendo o movimento para o efeito mais forte. Reduza a força se o movimento ultrapassar seu enquadramento pretendido.

Camera-Control-Dolly-Out

Selecione este quando a tomada deve se afastar do sujeito. Ajuda a criar paralaxe negativa e contexto de ampliação à medida que a sequência progride. Mantenha o último quadro alinhado com sua composição de saída para pousar o movimento de forma limpa. Combine com prompts de áudio atmosférico para revelações cinematográficas.

Camera-Control-Dolly-Left

Aplica um movimento lateral para a esquerda que é lido como um dolly ou caminhão. Bom para batidas de conversa ou revelações através de um conjunto. Se objetos se mancharem ou derivarem, aumente ligeiramente a força do primeiro/último ou adicione um quadro intermediário. Equilibre com pequenas dicas textuais como "movimento lento para a esquerda" para complementar o LoRA.

Camera-Control-Dolly-Right

O espelho de Dolly-Left, isso inclina o movimento para o lado direito. Funciona bem para seguir um personagem ou panoramizar para um novo sujeito. Mantenha a força do LoRA modesta se você também solicitar um empurrão para evitar sinais conflitantes. Certifique-se de que a composição do último quadro corresponda ao seu ponto final desejado.

Camera-Control-Jib-Up

Cria uma elevação vertical, útil para revelações de levantamento ou tomadas de estabelecimento. Combine com prompts superficiais sobre mudança de perspectiva e mudança de horizonte para clareza. Quando o movimento é forte, observe tetos ou exposição do céu; ajuste o prompt negativo para evitar destaques estourados. Se necessário, adicione um quadro intermediário mostrando a enquadramento de meio de subida.

Camera-Control-Jib-Down

Produz uma descida controlada, frequentemente usada para se estabelecer em um detalhe ou personagem. Pode ser emparelhado com uma cama de áudio mais silenciosa para ênfase. Certifique-se de que o último quadro contenha o objeto ou rosto alvo para que o movimento se resolva de forma decisiva. Ajuste a força do LoRA se a descida parecer muito rápida.

Camera-Control-Static

Trava a câmera virtual no lugar quando você deseja ação sem movimento de câmera. Isso é útil para diálogos ou tomadas de produto onde apenas o sujeito se move. Combine com controle de primeiro/último quadro para manter a composição perfeitamente estável. Adicione movimento sutil através do prompt de texto em vez de um LoRA de câmera.

Nós chave no fluxo de trabalho LTX-2 First Last Frame do Comfyui

LTXVFirstLastFrameControl_TTP (#227)

Injeta restrições de imagem de primeiro e último no latente AV base. Ajuste first_strength para controlar quão estritamente o primeiro quadro é correspondido e last_strength para determinar quão forte a sequência pousa no quadro final. Se o meio do clipe se desviar, forneça um quadro intermediário via LTXVMiddleFrame_TTP e mantenha as forças moderadas para evitar restringir demais o movimento.

LTXVMiddleFrame_TTP (#181)

Insere opcionalmente um quadro guia em uma posição escolhida entre o início e o fim para estabilizar identidade ou pose. Aumente strength quando o sujeito mudar muito no meio da tomada. Use com moderação; os melhores resultados vêm de uma única referência intermediária bem escolhida, em vez de muitas restrições concorrentes.

LTXVLatentUpsampler (#217)

Realiza o upscale espacial x2 no espaço latente usando o upscaler espacial LTX-2. Use isso antes da passagem de amostragem 2x para que os detalhes de alta resolução sejam refinados pelo modelo em vez de esticados. Se a memória estiver apertada, mantenha o uso de LoRA mínimo durante esta etapa.

LTXVFirstLastFrameControl_TTP (#223)

Reaplica a orientação de início/fim (e opcionalmente intermediário) após o upscale x2. Isso garante que os quadros decodificados finais correspondam precisamente às suas referências de primeiro e último na resolução de entrega. Se o upscale introduzir microdeslocamentos, aumente ligeiramente last_strength aqui em vez de na etapa base.

LTXVSpatioTemporalTiledVAEDecode (#230)

Decodifica o vídeo latente de alta resolução em quadros usando tiling espácio-temporal. Ajuste as configurações de tile e overlap somente quando você vir costuras ou cintilação temporal; maior overlap custa mais VRAM, mas melhora a consistência. Mantenha last_frame_fix para casos extremos onde o quadro final mostra pequeno desvio.

VHS_VideoCombine (#254)

Muxa quadros decodificados e o áudio gerado em um único MP4. Defina format, pix_fmt, e crf para seu alvo de entrega, e escolha uma frame_rate consistente com o condicionamento. Habilite a gravação de metadados para manter registros de reprodutibilidade com cada renderização.

Extras opcionais

  • Use pesos FP8 do LTX-2 se seu GPU for limitado; mude de volta para precisão total para a maior fidelidade quando o VRAM permitir. Os pesos estão em Lightricks/LTX-2.
  • As dimensões funcionam melhor quando largura e altura são da forma 32n + 1; o total de quadros funciona melhor como 8n + 1. O fluxo de trabalho corrige automaticamente para os valores válidos mais próximos, se necessário.
  • Descreva dicas de áudio diretamente no seu prompt positivo (diálogo, efeitos, ambiente). O latente conjunto AV do modelo mantém lábios, ações, e sons alinhados.
  • Comece com forças de primeiro/último moderadas; aumente a força do último para acertar a pose final, ou adicione um quadro intermediário para estabilizar a identidade.
  • Aplique apenas um LoRA de câmera por vez para um intento claro. Navegue pelas opções oficiais na coleção Lightricks LTX-2 LoRA.

Agradecimentos

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos @AIKSK pela Referência de Fluxo de Trabalho LTX-2 First Last Frame por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e repositórios vinculados abaixo.

Recursos

  • RunningHub/LTX-2 First Last Frame Workflow Reference
    • Docs / Release Notes: LTX-2 First Last Frame Workflow Reference from AIKSK

Nota: O uso dos modelos, conjuntos de dados, e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

Wan 2.2 | Líder em Geração de Vídeo Open-Source

Disponível agora! Melhor precisão + movimento mais suave.

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | Ultra Rápido I2V & T2V

Configuração Dual Light LoRA, 4X mais rápida.

Wan 2.2 Lightning T2V I2V | 4 Etapas Ultra Rápido

Wan 2.2 agora 20x mais rápido! T2V + I2V em 4 etapas.

Wan 2.1 FLF2V | Vídeo de Quadro Inicial-Final

Gere vídeos suaves a partir de um quadro inicial e final usando Wan 2.1 FLF2V.

Geração de Música ACE-Step | Criação de Áudio com IA

Gere música de qualidade de estúdio 15× mais rápido com tecnologia de difusão revolucionária.

Janus-Pro | Modelo T2I + I2T

Janus-Pro: Geração Avançada de Texto-para-Imagem e Imagem-para-Texto.

Imagem Nunchaku Qwen | Editor de Imagens Múltiplas

Misture e estilize várias imagens com controle de próximo nível.

Siga-nos
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Suporte
  • Discord
  • E-mail
  • Status do Sistema
  • afiliado
Recursos
  • ComfyUI Online Gratuito
  • Guias do ComfyUI
  • RunComfy API
  • Tutoriais do ComfyUI
  • Nós do ComfyUI
  • Saiba Mais
Legal
  • Termos de Serviço
  • Política de Privacidade
  • Política de Cookies
RunComfy
Copyright 2026 RunComfy. Todos os Direitos Reservados.

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.