LTX 2.3 Prompt Relay: geração de imagem para vídeo multi-batida em ComfyUI#
LTX 2.3 Prompt Relay é um fluxo de trabalho ComfyUI para direcionar imagem para vídeo com roteamento de prompts segmentados em múltiplas batidas em um clipe. Ele usa o PromptRelayEncode como um controlador sem treinamento, em tempo de inferência, para atribuir diferentes instruções de texto a diferentes períodos de tempo, permitindo que você roteirize movimentos de câmera e ações por batida enquanto preserva a continuidade do assunto e transições suaves. Um assistente Qwen VLM pode rascunhar ou refinar automaticamente as batidas da história a partir de uma imagem de referência antes da geração.
Este fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay é ideal para curtas cinematográficos, tomadas de produtos e teasers narrativos onde você deseja controle cena por cena sem ajustes finos. Ele produz um vídeo sincronizado com áudio decodificado e escreve um H.264 MP4 com metadados preservados.
Modelos principais no fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#
- Ponto de verificação base LTX‑Video 2.3. A espinha dorsal generativa que sintetiza vídeo temporalmente consistente a partir de texto e um quadro de referência opcional. Veja a construção da comunidade e o contexto dos pesos no Hugging Face para usuários do ComfyUI. Kijai/LTX2.3_comfy
- LTX‑Video 2.3 Video VAE e Audio VAE. Decodificadores que transformam o vídeo latente e o áudio latente do modelo em quadros RGB e uma forma de onda para muxing, usados aqui para exportar um MP4. Kijai/LTX2.3_comfy
- Qwen VLM (Instruct). Um modelo de linguagem visual que lê a imagem de referência e elabora linhas de ação multi-batida que o fluxo de trabalho usa como prompts locais. Integrado via a extensão ComfyUI‑QwenVL. 1038lab/ComfyUI-QwenVL
- LTX 2.3 LoRAs opcionais. Adaptadores de estilo ou eficiência, como uma LoRA destilada e uma LoRA de aprimoramento nítido, são pré-configurados para fácil alternância para mudar a textura e a nitidez sem alterar seus prompts. Kijai/LTX2.3_comfy
Como usar o fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#
Fluxo geral#
O fluxo de trabalho lê uma única imagem como o quadro de abertura, reúne um prompt global mais prompts locais específicos de batida, codifica-os com Prompt Relay, amostra um latente de áudio-vídeo conjunto, depois decodifica e combina quadros e áudio em um MP4. Os grupos são organizados como Modelos, Configuração de Vídeo de Entrada, VLM, Condicionamento, Criar Latente, Amostragem e Decodificação.
Modelos#
O ponto de verificação base LTX‑Video 2.3 carrega primeiro, depois duas LoRAs opcionais são aplicadas em sequência para ajustar a nitidez e a eficiência. A correção de atenção é habilitada para melhorar a fidelidade em prompts longos. Você pode manter ambas as LoRAs, desabilitar uma ou ignorá-las completamente se preferir uma aparência de base neutra.
Configuração de Vídeo de Entrada#
Escolha largura, altura, segundos totais e FPS para o clipe. O fluxo de trabalho calcula automaticamente a contagem de quadros como produto de segundos e FPS, mantendo os comprimentos de imagem e áudio sincronizados. Defina isso antes de escrever os prompts para saber quantas batidas caberão confortavelmente.
VLM#
Carregue ou solte uma imagem de referência. A imagem é pré-processada e enviada para um Qwen VLM que segue um modelo de instrução curto para propor quatro linhas de batida concisas separadas pelo caractere pipe "|". Você pode revisar e editar o texto gerado no visualizador na tela antes de prosseguir, ou pular o VLM e escrever suas próprias linhas.
Condicionamento com Prompt Relay#
PromptRelayEncode leva um prompt global para estilo e configuração mais seus prompts locais para ações por batida. Separe as batidas com "|" nos prompts locais; o codificador roteia cada segmento para seu período de tempo e mistura entre eles para transições suaves. O nó fornece condicionamento de prompt e um modelo corrigido para que o sampler siga seu script de batida fielmente. Referência e uso são fornecidos pelo projeto ComfyUI‑PromptRelay. kijai/ComfyUI-PromptRelay
Criar Latente#
Um vídeo latente vazio é inicializado para sua resolução e comprimento escolhidos. A imagem de referência pré-processada é escrita no primeiro quadro da linha do tempo para ancorar identidade, pose e iluminação. Um áudio latente vazio com duração correspondente é criado para que a decodificação produza uma forma de onda pronta para muxing junto com os quadros.
Amostragem#
Um agendador cria o cronograma de ruído, um visualizador o pré-visualiza, e o sampler é executado no latente de áudio-vídeo concatenado usando o modelo LTX 2.3 corrigido e o condicionamento do Prompt Relay. Você pode mudar o tipo de sampler se preferir um equilíbrio diferente entre nitidez e estabilidade. O resultado é um único latente que já codifica tanto vídeo quanto áudio.
Decodificação e exportação#
O latente é dividido em ramificações de vídeo e áudio, depois decodificado pelo LTX 2.3 Video VAE e Audio VAE. VideoHelperSuite combina os quadros e a forma de onda em um H.264 MP4 com um formato de pixel padrão para ampla compatibilidade de player e salva os metadados para reprodutibilidade. ComfyUI-VideoHelperSuite
Nós principais no fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#
PromptRelayEncode (#605)#
O controlador central que aplica roteamento de prompts segmentados em tempo de inferência. Use global_prompt para estilo, configuração, assunto e linguagem de lente que devem persistir, e use local_prompts para ações específicas de batida separadas por |. Mantenha as batidas concisas e focadas; 3 a 6 batidas geralmente são lidas claramente. Se você quiser cronometrar transições manualmente, mantenha as batidas adjacentes semanticamente compatíveis para que a mistura seja natural. Referência: kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
Um assistente VLM que lê a imagem de referência e expande sua ideia em linhas de batida usando um prompt de instrução curto. Edite o texto da instrução para ajustar o tom ou o vocabulário da câmera, depois revise as batidas geradas no visualizador. A saída alimenta diretamente local_prompts, e você pode substituí-la por sua própria escrita a qualquer momento. Referência: 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
Inicia o primeiro quadro do vídeo latente com sua imagem de entrada, promovendo estabilidade de identidade e iluminação entre as batidas. Para texto puro para vídeo, ignore este nó e comece a partir de um vídeo latente vazio. Para maior aderência ao quadro de semente, mantenha seu prompt global consistente com o conteúdo da imagem.
BasicScheduler (#514) e VisualizeSigmasKJ (#358)#
Controle e visualize o cronograma de remoção de ruído usado pelo sampler. Use o visualizador para verificar a forma da curva ao trocar amostradores ou contagens de etapas. Um cronograma mais suave geralmente produz movimento mais estável, enquanto cronogramas mais agressivos aumentam os detalhes.
VHS_VideoCombine (#604)#
Muxa quadros decodificados e áudio em um único MP4 com um formato de pixel amplamente compatível. Certifique-se de que sua taxa de quadros corresponda ao seu grupo de Configuração de Vídeo de Entrada para sincronização precisa. Desconecte a entrada de áudio aqui se quiser uma exportação silenciosa. Referência: ComfyUI-VideoHelperSuite
Extras opcionais#
- Dicas de escrita de batida: escreva no tempo presente, mantenha cada batida em uma ação, adicione diálogos curtos apenas quando avançar a batida, e comece com um verbo de câmera como "aproximar-se", "panoramizar à direita", ou "deriva manual".
- Use o prompt global para direção de arte e ótica (iluminação, lente, humor); use prompts locais para movimento, gestos e mudanças de enquadramento.
- Para iteração mais rápida, mantenha a resolução modesta enquanto elabora batidas, depois aumente para a renderização final.
- Se as LoRAs superafiadas ou mudarem a cor, reduza seus pesos ou desabilite uma delas para recuperar a neutralidade.
Agradecimentos#
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a gordonchen19 pelo Prompt-Relay, kijai pelo ComfyUI-PromptRelay, Kijai pelo LTX2.3_comfy (contexto do modelo ComfyUI), 1038lab pelo ComfyUI-QwenVL, e o autor do post no Patreon (Innovate Futures @ Benji) pela fonte do fluxo de trabalho, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- Patreon/Fonte do fluxo de trabalho
- Docs / Notas de lançamento: post @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Docs / Notas de lançamento: site
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Docs / Notas de lançamento: discussion #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.
