LTX 2.3 Primeiro Último Quadro em ComfyUI | Quadro-chave para Vídeo Suave

LTX 2.3 Primeiro Último Quadro para Vídeo#

LTX 2.3 Primeiro Último Quadro para Vídeo é um fluxo de trabalho do ComfyUI que transforma duas imagens estáticas em um vídeo suave e contínuo com áudio sincronizado. Você fornece um primeiro quadro, um último quadro e um prompt em linguagem natural descrevendo movimento, detalhes da cena e som. Alimentado pelo LTX-2.3 22B distilled FP8 checkpoint, o pipeline interpola entre as imagens enquanto mantém a aparência e o tempo consistentes. É ideal para editores, designers de movimento e artistas de storyboard que precisam de uma transição suave ou um clipe curto em loop criado diretamente no ComfyUI.

Este fluxo de trabalho LTX 2.3 Primeiro Último Quadro enfatiza inferência eficiente e alta fidelidade de prompt. Os pesos FP8 mantêm o uso de VRAM sob controle, enquanto um codificador de texto Gemma 3 12B melhora a compreensão semântica de instruções visuais e de áudio. O resultado é uma passagem visual coerente do primeiro ao último quadro que respeita seu prompt e permanece sincronizado com o áudio gerado.

Modelos chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

LTX-2.3 22B Distilled FP8 checkpoint by Lightricks. Modelo principal de geração de vídeo destilado para inferência eficiente, usado aqui para sintetizar quadros temporalmente consistentes enquanto condiciona nos dois guias de imagem e no prompt de texto. Model card
Gemma 3 12B IT text encoder. Fornece compreensão robusta de linguagem para aspectos visuais e de áudio do prompt, permitindo movimento preciso, atributos de cena e pistas de trilha sonora. Model card
LTX-2.3 latent VAEs para vídeo e áudio. Esses componentes mapeiam imagens e áudio de forma de onda para latentes compactos e de volta durante a decodificação, preservando a qualidade enquanto mantém a amostragem eficiente. Enviado com o lançamento do LTX-2.3 FP8. Model card

Como usar o fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

Este fluxo de trabalho pega duas imagens de referência e um prompt, constrói condicionamento com guias de primeiro e último quadro, amostra um latente de vídeo com áudio sincronizado e decodifica tudo para um arquivo reproduzível.

Configurações

Defina sua resolução alvo, contagem de quadros e taxa de quadros no grupo de Configurações. A largura e a altura definem a tela de trabalho; os quadros de entrada são redimensionados para corresponder para que o modelo possa interpolar sem problemas. A contagem de quadros controla quanto tempo dura a transição, e a taxa de quadros define a velocidade de reprodução. Escolha uma proporção que corresponda às suas fontes para evitar cortes indesejados. Os nós WIDTH (#113), HEIGHT (#98), Length (#102) e Frame Rate(int) (#114) ancoram essas escolhas.

Primeiro Quadro

Carregue sua imagem inicial em Load First Frame (#31). Ela é redimensionada por ResizeImageMaskNode (#124) para as dimensões alvo e normalizada por LTXVPreprocess (#104). Isso prepara o primeiro quadro para servir como um guia estrutural e de cor forte no início do clipe. Use uma imagem nítida e bem iluminada para melhores resultados.

Último Quadro

Carregue sua imagem final em Load Last Frame (#39). A imagem é ajustada para o mesmo tamanho com ResizeImageMaskNode (#125) e normalizada por LTXVPreprocess (#99). Isso garante a aparência e o layout finais que você deseja no final da transição. Para loops, faça o último quadro visualmente compatível com o primeiro.

Prompt

O LTXAVTextEncoderLoader (#103) fornece o codificador de texto, e dois nós CLIPTextEncode capturam seus prompts positivo e negativo. No prompt positivo (CLIPTextEncode (#128)), descreva o movimento da câmera, os assuntos, a iluminação e também inclua pistas de áudio como “Música: pads ambientes com percussão suave” ou “Diálogo: sussurro breve.” O prompt negativo (CLIPTextEncode (#112)) pode listar artefatos ou traços que você deseja suprimir.

Condicionamento

LTXVConditioning (#109) mescla o condicionamento de texto com informações de tempo para que o movimento e o áudio se alinhem com a taxa de quadros escolhida. EmptyLTXVLatentVideo (#108) cria um latente de vídeo na sua resolução e comprimento. Duas passagens de LTXVAddGuide primeiro anexam o primeiro quadro (LTXVAddGuide (#115)) e depois o último quadro (LTXVAddGuide (#111)) para que o modelo saiba onde começar e onde terminar. LTXVEmptyLatentAudio (#101) inicializa um latente de áudio de duração correspondente, e LTXVConcatAVLatent (#119) agrupa os latentes de áudio e vídeo para amostragem.

Modelo

CheckpointLoaderSimple (#127) carrega os pesos LTX-2.3 22B distilled FP8 e o VAE de vídeo, enquanto LTXVAudioVAELoader (#126) fornece o VAE de áudio. Estes são pré-configurados para que você possa se concentrar em entradas criativas em vez de detalhes de configuração.

Amostragem

CFGGuider (#116) equilibra a aderência ao seu texto e quadros de guia contra a liberdade criativa. RandomNoise (#100) define uma semente para reprodutibilidade. O amostrador usa SamplerEulerAncestral (#117) com um cronograma personalizado de ManualSigmas (#118), orquestrado por SamplerCustomAdvanced (#120), para refinar progressivamente o latente em uma sequência coerente que segue suas instruções de movimento e áudio.

Decodificação

Após a amostragem, LTXVSeparateAVLatent (#121) divide o latente combinado de volta em vídeo e áudio. LTXVCropGuides (#106) refina a orientação espacial para reduzir artefatos de borda antes da decodificação de imagem. VAEDecodeTiled (#105) produz a sequência de quadros, e LTXVAudioVAEDecode (#107) gera a forma de onda de áudio. CreateVideo (#122) muxa quadros e som na sua taxa de quadros selecionada e SaveVideo (#68) grava o arquivo final na sua saída do ComfyUI.

Nós chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

EmptyLTXVLatentVideo (#108)

Define a resolução de trabalho e a duração do seu clipe. Ajuste a largura, altura e comprimento aqui para definir a escala visual e o tempo de transição. Durações mais longas precisam de pistas de movimento mais fortes no prompt para evitar estagnação.

LTXVAddGuide (#115)

Injeta o primeiro quadro como um âncora estrutural e de cor no início da sequência. Se a abertura desviar da sua fonte, aumente a influência deste guia; se parecer muito restrito, reduza-o ligeiramente para permitir mais movimento.

LTXVAddGuide (#111)

Âncora a aparência alvo no final do clipe usando o último quadro. Se a transição ultrapassar ou nunca alcançar completamente seu último quadro, aumente a influência do guia; se ajustar muito forte perto do final, diminua-o.

CFGGuider (#116)

Controla quão fortemente o modelo segue o condicionamento de texto e imagem. Orientações mais fortes enfatizam seu prompt e guias, mas podem reduzir a suavidade; valores mais baixos parecem mais livres, mas podem desviar do visual pretendido. Ajuste em pequenos passos e reutilize a mesma semente ao comparar.

SamplerCustomAdvanced (#120) com SamplerEulerAncestral (#117) e ManualSigmas (#118)

Conduz a desnoising com um cronograma consistente para movimento estável. Cronogramas mais curtos renderizam mais rápido, mas podem ser irregulares; cronogramas mais longos ou mais suaves melhoram a consistência com custo computacional adicional. Mantenha o cronograma consistente ao testar outros parâmetros.

CreateVideo (#122)

Muxa quadros decodificados e áudio em um clipe final na sua taxa de quadros escolhida. Use o mesmo fps que você condicionou para que formas labiais, passos ou pulsos de música permaneçam alinhados.

Extras opcionais#

Escreva prompts com verbos e tempo: “câmera avança,” “as luzes diminuem à medida que nos aproximamos,” “Música: piano esparso com reverberação suave.” Verbos claros ajudam o pipeline LTX 2.3 Primeiro Último Quadro a inferir movimento e ritmo.
Combine a proporção e a orientação das suas duas imagens. Grandes discrepâncias podem introduzir cortes ou esticamentos indesejados.
Para loops sem emenda, faça o último quadro quase igual ao primeiro e mantenha o movimento da câmera cíclico.
Reutilize uma semente em RandomNoise para reproduzir uma aparência enquanto itera em prompts ou forças de guia; altere a semente para explorar novas variações.
Se precisar de detalhes de implementação ou referências de nós personalizados, consulte as integrações e utilitários LTX do ComfyUI, como ComfyUI-LTXTricks. Repository

Agradecimentos#

Este fluxo de trabalho implementa e baseia-se nos seguintes trabalhos e recursos. Agradecemos a Lightricks pelo LTX-2.3 22B Distilled FP8 Checkpoint, Google pelo Gemma 3 12B IT FP4 Text Encoder, logtd pelos ComfyUI-LTXTricks Custom Nodes, e Comfy.org pelo Comfy.org Official Workflow por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
- Hugging Face: Lightricks/LTX-2.3-fp8
Google/Gemma 3 12B IT FP4 Text Encoder
- Hugging Face: google/gemma-3-12b-it
logtd/ComfyUI-LTXTricks Custom Nodes
- GitHub: logtd/ComfyUI-LTXTricks
Comfy.org/Comfy.org Official Workflow
- Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v

Note: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

LTX 2.3 Primeiro Último Quadro | Gerador de Vídeo Sem Emenda

LTX 2.3 Primeiro Último Quadro para Vídeo#

Modelos chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

Como usar o fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

Nós chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro#

Extras opcionais#

Agradecimentos#

Recursos#

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | Geração de Vídeo Quadro-Inicial-Final

Wan 2.1 FLF2V | Vídeo de Quadro Inicial-Final

Wan2.2 Fun Inp | Gerador de Vídeos Cinematográficos

LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

IPAdapter Plus (V2) | Mesclar Imagens

ComfyUI + TouchDesigner | Visuais Reativos a Áudio

Hunyuan LoRA

IPAdapter Plus (V2) | Mudar de roupa