LTX 2.3 Prompt Relay em ComfyUI | Fluxo de Trabalho de Imagem para Vídeo

ComfyUI LTX 2.3 Prompt Relay Workflow

LTX 2.3 Prompt Relay in ComfyUI | Image-to-Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Prompt Relay Examples

LTX 2.3 Prompt Relay: geração de imagem para vídeo multi-batida em ComfyUI#

LTX 2.3 Prompt Relay é um fluxo de trabalho ComfyUI para direcionar imagem para vídeo com roteamento de prompts segmentados em múltiplas batidas em um clipe. Ele usa o PromptRelayEncode como um controlador sem treinamento, em tempo de inferência, para atribuir diferentes instruções de texto a diferentes períodos de tempo, permitindo que você roteirize movimentos de câmera e ações por batida enquanto preserva a continuidade do assunto e transições suaves. Um assistente Qwen VLM pode rascunhar ou refinar automaticamente as batidas da história a partir de uma imagem de referência antes da geração.

Este fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay é ideal para curtas cinematográficos, tomadas de produtos e teasers narrativos onde você deseja controle cena por cena sem ajustes finos. Ele produz um vídeo sincronizado com áudio decodificado e escreve um H.264 MP4 com metadados preservados.

Modelos principais no fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#

Ponto de verificação base LTX‑Video 2.3. A espinha dorsal generativa que sintetiza vídeo temporalmente consistente a partir de texto e um quadro de referência opcional. Veja a construção da comunidade e o contexto dos pesos no Hugging Face para usuários do ComfyUI. Kijai/LTX2.3_comfy
LTX‑Video 2.3 Video VAE e Audio VAE. Decodificadores que transformam o vídeo latente e o áudio latente do modelo em quadros RGB e uma forma de onda para muxing, usados aqui para exportar um MP4. Kijai/LTX2.3_comfy
Qwen VLM (Instruct). Um modelo de linguagem visual que lê a imagem de referência e elabora linhas de ação multi-batida que o fluxo de trabalho usa como prompts locais. Integrado via a extensão ComfyUI‑QwenVL. 1038lab/ComfyUI-QwenVL
LTX 2.3 LoRAs opcionais. Adaptadores de estilo ou eficiência, como uma LoRA destilada e uma LoRA de aprimoramento nítido, são pré-configurados para fácil alternância para mudar a textura e a nitidez sem alterar seus prompts. Kijai/LTX2.3_comfy

Como usar o fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#

Fluxo geral#

O fluxo de trabalho lê uma única imagem como o quadro de abertura, reúne um prompt global mais prompts locais específicos de batida, codifica-os com Prompt Relay, amostra um latente de áudio-vídeo conjunto, depois decodifica e combina quadros e áudio em um MP4. Os grupos são organizados como Modelos, Configuração de Vídeo de Entrada, VLM, Condicionamento, Criar Latente, Amostragem e Decodificação.

Modelos#

O ponto de verificação base LTX‑Video 2.3 carrega primeiro, depois duas LoRAs opcionais são aplicadas em sequência para ajustar a nitidez e a eficiência. A correção de atenção é habilitada para melhorar a fidelidade em prompts longos. Você pode manter ambas as LoRAs, desabilitar uma ou ignorá-las completamente se preferir uma aparência de base neutra.

Configuração de Vídeo de Entrada#

Escolha largura, altura, segundos totais e FPS para o clipe. O fluxo de trabalho calcula automaticamente a contagem de quadros como produto de segundos e FPS, mantendo os comprimentos de imagem e áudio sincronizados. Defina isso antes de escrever os prompts para saber quantas batidas caberão confortavelmente.

VLM#

Carregue ou solte uma imagem de referência. A imagem é pré-processada e enviada para um Qwen VLM que segue um modelo de instrução curto para propor quatro linhas de batida concisas separadas pelo caractere pipe "|". Você pode revisar e editar o texto gerado no visualizador na tela antes de prosseguir, ou pular o VLM e escrever suas próprias linhas.

Condicionamento com Prompt Relay#

PromptRelayEncode leva um prompt global para estilo e configuração mais seus prompts locais para ações por batida. Separe as batidas com "|" nos prompts locais; o codificador roteia cada segmento para seu período de tempo e mistura entre eles para transições suaves. O nó fornece condicionamento de prompt e um modelo corrigido para que o sampler siga seu script de batida fielmente. Referência e uso são fornecidos pelo projeto ComfyUI‑PromptRelay. kijai/ComfyUI-PromptRelay

Criar Latente#

Um vídeo latente vazio é inicializado para sua resolução e comprimento escolhidos. A imagem de referência pré-processada é escrita no primeiro quadro da linha do tempo para ancorar identidade, pose e iluminação. Um áudio latente vazio com duração correspondente é criado para que a decodificação produza uma forma de onda pronta para muxing junto com os quadros.

Amostragem#

Um agendador cria o cronograma de ruído, um visualizador o pré-visualiza, e o sampler é executado no latente de áudio-vídeo concatenado usando o modelo LTX 2.3 corrigido e o condicionamento do Prompt Relay. Você pode mudar o tipo de sampler se preferir um equilíbrio diferente entre nitidez e estabilidade. O resultado é um único latente que já codifica tanto vídeo quanto áudio.

Decodificação e exportação#

O latente é dividido em ramificações de vídeo e áudio, depois decodificado pelo LTX 2.3 Video VAE e Audio VAE. VideoHelperSuite combina os quadros e a forma de onda em um H.264 MP4 com um formato de pixel padrão para ampla compatibilidade de player e salva os metadados para reprodutibilidade. ComfyUI-VideoHelperSuite

Nós principais no fluxo de trabalho ComfyUI LTX 2.3 Prompt Relay#

`PromptRelayEncode` (#605)#

O controlador central que aplica roteamento de prompts segmentados em tempo de inferência. Use global_prompt para estilo, configuração, assunto e linguagem de lente que devem persistir, e use local_prompts para ações específicas de batida separadas por |. Mantenha as batidas concisas e focadas; 3 a 6 batidas geralmente são lidas claramente. Se você quiser cronometrar transições manualmente, mantenha as batidas adjacentes semanticamente compatíveis para que a mistura seja natural. Referência: kijai/ComfyUI-PromptRelay

`AILab_QwenVL_Advanced` (#610)#

Um assistente VLM que lê a imagem de referência e expande sua ideia em linhas de batida usando um prompt de instrução curto. Edite o texto da instrução para ajustar o tom ou o vocabulário da câmera, depois revise as batidas geradas no visualizador. A saída alimenta diretamente local_prompts, e você pode substituí-la por sua própria escrita a qualquer momento. Referência: 1038lab/ComfyUI-QwenVL

`LTXVImgToVideoInplaceKJ` (#582)#

Inicia o primeiro quadro do vídeo latente com sua imagem de entrada, promovendo estabilidade de identidade e iluminação entre as batidas. Para texto puro para vídeo, ignore este nó e comece a partir de um vídeo latente vazio. Para maior aderência ao quadro de semente, mantenha seu prompt global consistente com o conteúdo da imagem.

`BasicScheduler` (#514) e `VisualizeSigmasKJ` (#358)#

Controle e visualize o cronograma de remoção de ruído usado pelo sampler. Use o visualizador para verificar a forma da curva ao trocar amostradores ou contagens de etapas. Um cronograma mais suave geralmente produz movimento mais estável, enquanto cronogramas mais agressivos aumentam os detalhes.

`VHS_VideoCombine` (#604)#

Muxa quadros decodificados e áudio em um único MP4 com um formato de pixel amplamente compatível. Certifique-se de que sua taxa de quadros corresponda ao seu grupo de Configuração de Vídeo de Entrada para sincronização precisa. Desconecte a entrada de áudio aqui se quiser uma exportação silenciosa. Referência: ComfyUI-VideoHelperSuite

Extras opcionais#

Dicas de escrita de batida: escreva no tempo presente, mantenha cada batida em uma ação, adicione diálogos curtos apenas quando avançar a batida, e comece com um verbo de câmera como "aproximar-se", "panoramizar à direita", ou "deriva manual".
Use o prompt global para direção de arte e ótica (iluminação, lente, humor); use prompts locais para movimento, gestos e mudanças de enquadramento.
Para iteração mais rápida, mantenha a resolução modesta enquanto elabora batidas, depois aumente para a renderização final.
Se as LoRAs superafiadas ou mudarem a cor, reduza seus pesos ou desabilite uma delas para recuperar a neutralidade.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos a gordonchen19 pelo Prompt-Relay, kijai pelo ComfyUI-PromptRelay, Kijai pelo LTX2.3_comfy (contexto do modelo ComfyUI), 1038lab pelo ComfyUI-QwenVL, e o autor do post no Patreon (Innovate Futures @ Benji) pela fonte do fluxo de trabalho, por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

Patreon/Fonte do fluxo de trabalho
- Docs / Notas de lançamento: post @Benji
gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Docs / Notas de lançamento: site
kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Docs / Notas de lançamento: discussion #51
1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

AnimateDiff + Batch Prompt Schedule | Texto para Vídeo

Utilize Prompts Travel com Animatediff para controle preciso sobre quadros específicos dentro da animação.

AnimateDiff + Agendamento de Prompt em Lote | Texto para Vídeo

O Agendamento de Prompt em Lote com AnimateDiff oferece controle preciso sobre a narrativa e os elementos visuais na criação de animações.

LTX 2.3 Primeiro Último Quadro | Gerador de Vídeo Sem Emenda

Transforma quadros-chave em transições de vídeo ultra-suaves e realistas rapidamente.

Wan2.2 Fun Inp | Gerador de Vídeos Cinematográficos

De 2 imagens a vídeos deslumbrantes com transições suaves e controláveis.

CogVideoX-5B | Modelo Avançado de Texto-para-Vídeo

CogVideoX-5B: Modelo avançado de texto-para-vídeo para geração de vídeos de alta qualidade.

FLUX Inpainting | Edição de Imagens Sem Costura

Preencha, remova e refine imagens sem esforço, integrando novo conteúdo de forma coesa.

CatVTON | Incrível Virtual Try-On

CatVTON para um virtual try-on fácil e preciso.

FLUX.2 Klein Edição de Imagem Unificada | Inpaint, Outpaint & Remove Inteligente

Edição impecável. Remova, preencha e estenda qualquer imagem rapidamente.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX 2.3 Prompt Relay | Criador de Vídeos Controlados por Cena