LTX 2.3 Primeiro Último Quadro para Vídeo
LTX 2.3 Primeiro Último Quadro para Vídeo é um fluxo de trabalho do ComfyUI que transforma duas imagens estáticas em um vídeo suave e contínuo com áudio sincronizado. Você fornece um primeiro quadro, um último quadro e um prompt em linguagem natural descrevendo movimento, detalhes da cena e som. Alimentado pelo LTX-2.3 22B distilled FP8 checkpoint, o pipeline interpola entre as imagens enquanto mantém a aparência e o tempo consistentes. É ideal para editores, designers de movimento e artistas de storyboard que precisam de uma transição suave ou um clipe curto em loop criado diretamente no ComfyUI.
Este fluxo de trabalho LTX 2.3 Primeiro Último Quadro enfatiza inferência eficiente e alta fidelidade de prompt. Os pesos FP8 mantêm o uso de VRAM sob controle, enquanto um codificador de texto Gemma 3 12B melhora a compreensão semântica de instruções visuais e de áudio. O resultado é uma passagem visual coerente do primeiro ao último quadro que respeita seu prompt e permanece sincronizado com o áudio gerado.
Modelos chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro
- LTX-2.3 22B Distilled FP8 checkpoint by Lightricks. Modelo principal de geração de vídeo destilado para inferência eficiente, usado aqui para sintetizar quadros temporalmente consistentes enquanto condiciona nos dois guias de imagem e no prompt de texto. Model card
- Gemma 3 12B IT text encoder. Fornece compreensão robusta de linguagem para aspectos visuais e de áudio do prompt, permitindo movimento preciso, atributos de cena e pistas de trilha sonora. Model card
- LTX-2.3 latent VAEs para vídeo e áudio. Esses componentes mapeiam imagens e áudio de forma de onda para latentes compactos e de volta durante a decodificação, preservando a qualidade enquanto mantém a amostragem eficiente. Enviado com o lançamento do LTX-2.3 FP8. Model card
Como usar o fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro
Este fluxo de trabalho pega duas imagens de referência e um prompt, constrói condicionamento com guias de primeiro e último quadro, amostra um latente de vídeo com áudio sincronizado e decodifica tudo para um arquivo reproduzível.
Configurações
- Defina sua resolução alvo, contagem de quadros e taxa de quadros no grupo de Configurações. A largura e a altura definem a tela de trabalho; os quadros de entrada são redimensionados para corresponder para que o modelo possa interpolar sem problemas. A contagem de quadros controla quanto tempo dura a transição, e a taxa de quadros define a velocidade de reprodução. Escolha uma proporção que corresponda às suas fontes para evitar cortes indesejados. Os nós
WIDTH(#113),HEIGHT(#98),Length(#102) eFrame Rate(int)(#114) ancoram essas escolhas.
Primeiro Quadro
- Carregue sua imagem inicial em
Load First Frame(#31). Ela é redimensionada porResizeImageMaskNode(#124) para as dimensões alvo e normalizada porLTXVPreprocess(#104). Isso prepara o primeiro quadro para servir como um guia estrutural e de cor forte no início do clipe. Use uma imagem nítida e bem iluminada para melhores resultados.
Último Quadro
- Carregue sua imagem final em
Load Last Frame(#39). A imagem é ajustada para o mesmo tamanho comResizeImageMaskNode(#125) e normalizada porLTXVPreprocess(#99). Isso garante a aparência e o layout finais que você deseja no final da transição. Para loops, faça o último quadro visualmente compatível com o primeiro.
Prompt
- O
LTXAVTextEncoderLoader(#103) fornece o codificador de texto, e dois nósCLIPTextEncodecapturam seus prompts positivo e negativo. No prompt positivo (CLIPTextEncode(#128)), descreva o movimento da câmera, os assuntos, a iluminação e também inclua pistas de áudio como “Música: pads ambientes com percussão suave” ou “Diálogo: sussurro breve.” O prompt negativo (CLIPTextEncode(#112)) pode listar artefatos ou traços que você deseja suprimir.
Condicionamento
LTXVConditioning(#109) mescla o condicionamento de texto com informações de tempo para que o movimento e o áudio se alinhem com a taxa de quadros escolhida.EmptyLTXVLatentVideo(#108) cria um latente de vídeo na sua resolução e comprimento. Duas passagens deLTXVAddGuideprimeiro anexam o primeiro quadro (LTXVAddGuide(#115)) e depois o último quadro (LTXVAddGuide(#111)) para que o modelo saiba onde começar e onde terminar.LTXVEmptyLatentAudio(#101) inicializa um latente de áudio de duração correspondente, eLTXVConcatAVLatent(#119) agrupa os latentes de áudio e vídeo para amostragem.
Modelo
CheckpointLoaderSimple(#127) carrega os pesos LTX-2.3 22B distilled FP8 e o VAE de vídeo, enquantoLTXVAudioVAELoader(#126) fornece o VAE de áudio. Estes são pré-configurados para que você possa se concentrar em entradas criativas em vez de detalhes de configuração.
Amostragem
CFGGuider(#116) equilibra a aderência ao seu texto e quadros de guia contra a liberdade criativa.RandomNoise(#100) define uma semente para reprodutibilidade. O amostrador usaSamplerEulerAncestral(#117) com um cronograma personalizado deManualSigmas(#118), orquestrado porSamplerCustomAdvanced(#120), para refinar progressivamente o latente em uma sequência coerente que segue suas instruções de movimento e áudio.
Decodificação
- Após a amostragem,
LTXVSeparateAVLatent(#121) divide o latente combinado de volta em vídeo e áudio.LTXVCropGuides(#106) refina a orientação espacial para reduzir artefatos de borda antes da decodificação de imagem.VAEDecodeTiled(#105) produz a sequência de quadros, eLTXVAudioVAEDecode(#107) gera a forma de onda de áudio.CreateVideo(#122) muxa quadros e som na sua taxa de quadros selecionada eSaveVideo(#68) grava o arquivo final na sua saída do ComfyUI.
Nós chave no fluxo de trabalho Comfyui LTX 2.3 Primeiro Último Quadro
EmptyLTXVLatentVideo (#108)
- Define a resolução de trabalho e a duração do seu clipe. Ajuste a largura, altura e comprimento aqui para definir a escala visual e o tempo de transição. Durações mais longas precisam de pistas de movimento mais fortes no prompt para evitar estagnação.
LTXVAddGuide (#115)
- Injeta o primeiro quadro como um âncora estrutural e de cor no início da sequência. Se a abertura desviar da sua fonte, aumente a influência deste guia; se parecer muito restrito, reduza-o ligeiramente para permitir mais movimento.
LTXVAddGuide (#111)
- Âncora a aparência alvo no final do clipe usando o último quadro. Se a transição ultrapassar ou nunca alcançar completamente seu último quadro, aumente a influência do guia; se ajustar muito forte perto do final, diminua-o.
CFGGuider (#116)
- Controla quão fortemente o modelo segue o condicionamento de texto e imagem. Orientações mais fortes enfatizam seu prompt e guias, mas podem reduzir a suavidade; valores mais baixos parecem mais livres, mas podem desviar do visual pretendido. Ajuste em pequenos passos e reutilize a mesma semente ao comparar.
SamplerCustomAdvanced (#120) com SamplerEulerAncestral (#117) e ManualSigmas (#118)
- Conduz a desnoising com um cronograma consistente para movimento estável. Cronogramas mais curtos renderizam mais rápido, mas podem ser irregulares; cronogramas mais longos ou mais suaves melhoram a consistência com custo computacional adicional. Mantenha o cronograma consistente ao testar outros parâmetros.
CreateVideo (#122)
- Muxa quadros decodificados e áudio em um clipe final na sua taxa de quadros escolhida. Use o mesmo fps que você condicionou para que formas labiais, passos ou pulsos de música permaneçam alinhados.
Extras opcionais
- Escreva prompts com verbos e tempo: “câmera avança,” “as luzes diminuem à medida que nos aproximamos,” “Música: piano esparso com reverberação suave.” Verbos claros ajudam o pipeline LTX 2.3 Primeiro Último Quadro a inferir movimento e ritmo.
- Combine a proporção e a orientação das suas duas imagens. Grandes discrepâncias podem introduzir cortes ou esticamentos indesejados.
- Para loops sem emenda, faça o último quadro quase igual ao primeiro e mantenha o movimento da câmera cíclico.
- Reutilize uma semente em
RandomNoisepara reproduzir uma aparência enquanto itera em prompts ou forças de guia; altere a semente para explorar novas variações. - Se precisar de detalhes de implementação ou referências de nós personalizados, consulte as integrações e utilitários LTX do ComfyUI, como ComfyUI-LTXTricks. Repository
Agradecimentos
Este fluxo de trabalho implementa e baseia-se nos seguintes trabalhos e recursos. Agradecemos a Lightricks pelo LTX-2.3 22B Distilled FP8 Checkpoint, Google pelo Gemma 3 12B IT FP4 Text Encoder, logtd pelos ComfyUI-LTXTricks Custom Nodes, e Comfy.org pelo Comfy.org Official Workflow por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos
- Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
- Hugging Face: Lightricks/LTX-2.3-fp8
- Google/Gemma 3 12B IT FP4 Text Encoder
- Hugging Face: google/gemma-3-12b-it
- logtd/ComfyUI-LTXTricks Custom Nodes
- GitHub: logtd/ComfyUI-LTXTricks
- Comfy.org/Comfy.org Official Workflow
- Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v
Note: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

