LTX 2.3 Sulphur imagem para vídeo workflow: imagem para vídeo cinematográfico com movimento controlável#
Este workflow LTX 2.3 Sulphur imagem para vídeo transforma uma única imagem estática em uma tomada cinematográfica pronta para publicação, com micro‑expressões naturais, movimento de personagem crível e continuidade atmosférica estável. É construído para tomadas narrativas onde você deseja controle sobre a sensação da câmera, humor e dinâmica de cena sem se perder em detalhes de configuração.
O workflow executa um pipeline de difusão em duas etapas em torno do LTX‑2.3: uma passagem de baixa resolução para estabelecer movimento e tempo, seguida de um upscale latente e uma passagem de refinamento de alta resolução para detalhe final. Um estilo Sulphur LoRA orienta a aparência e tons de pele, enquanto a segmentação de prompt suporta batidas evolutivas ao longo da tomada. Alterne um único interruptor para executar imagem‑para‑vídeo clássico ou puro texto‑para‑vídeo conforme necessário.
Modelos principais no workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#
- Lightricks LTX‑2.3‑22B dev FP8. O checkpoint base de difusão de vídeo que impulsiona a geração e decodificação enquanto mantém o uso de memória prático. Model card
- LTX‑2.3 Spatial Upscaler x2. Um modelo de super‑resolução latente usado entre as passagens para preservar o movimento enquanto adiciona fidelidade espacial. Model page
- Gemma 3 12B instruction‑tuned text encoder packaged for LTX‑2. Permite condicionamento rico e fundamentado para prompts globais e segmentados. Repository
- Sulphur style LoRA e LTX‑2.3 distilled LoRA 1.1. LoRAs emparelhados que estabilizam o realismo facial e o tom cinematográfico enquanto mantêm o controle do prompt.
Como usar o workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#
Fluxo geral: defina as dimensões e o comprimento da tomada, prepare sua imagem estática, defina um prompt global mais batidas de prompt local opcionais e, em seguida, renderize. A etapa de baixa resolução constrói movimento e tempo, o upscaler latente levanta o detalhe, e a etapa de alta resolução finaliza textura e iluminação antes de decodificar para MP4.
Configurações de Vídeo#
Escolha seu Width, Height, Length (quadros) e Frame Rate alvo. As dimensões são definidas para serem divisíveis por tamanhos de grade de difusão comuns para evitar artefatos. Um único booleano, Switch to Text to Video? (#28), controla se a imagem estática é injetada ou ignorada. Mantenha a proporção consistente com a imagem de entrada para o enquadramento mais limpo, especialmente para rostos e mãos.
Pré-processamento de Imagem#
Sua imagem estática de origem é carregada, redimensionada e levemente comprimida para prontidão de difusão usando ImageResizeKJv2 (#75) e LTXVPreprocess (#76). Uma versão escalada é alimentada para a passagem de baixa resolução para movimento estável, enquanto a versão de maior detalhe está disponível para a passagem de alta resolução. Use esta seção para alinhar enquadramento e espaço superior antes da geração. Ajustes sutis de pré-corte aqui compensam em linhas de visão mais consistentes e continuidade de fundo.
Latente Vazio#
EmptyLTXVLatentVideo (#21) e LTXVEmptyLatentAudio (#33) constroem latentes de vídeo e áudio sincronizados usando suas configurações de tomada. Eles são mesclados por LTXVConcatAVLatent (#32) para estabelecer um esqueleto de linha do tempo que os nós a jusante irão refinar. O ramo de áudio cria uma faixa silenciosa e válida para que o MP4 final toque de forma confiável em qualquer lugar. Esses latentes também ancoram segmentos de prompt para que mudanças de movimento ocorram onde você espera.
Prompt#
Escreva sua descrição de tomada em PromptRelayEncode (#80). Use um prompt global conciso para a aparência geral, depois adicione linhas específicas de batida como prompts locais, separadas pelo caractere |, para evoluir micro-ações ao longo do clipe. O codificador de texto LTX de LTXAVTextEncoderLoader (#5) lida com semântica, enquanto CLIPTextEncode (#41) fornece um prompt negativo fortemente orientado para realismo. LTXVConditioning (#31) mistura condicionamento positivo e negativo e os sincroniza com a taxa de quadros.
Modelo#
CheckpointLoaderSimple (#44) carrega o LTX‑2.3 base. PathchSageAttentionKJ (#67) otimiza a atenção para imagens grandes. Uma curta cadeia LoRA aplica o estilo Sulphur e um LoRA de estabilidade destilada antes de cada estágio de amostragem. Este design equilibra a consistência de aparência com a capacidade de resposta ao prompt, para que a identidade do personagem e a iluminação permaneçam coerentes entre as passagens.
Gerar Baixa Resolução#
Esta primeira passagem de difusão estabelece o movimento. LTXVImgToVideoInplace (#22) injeta sua imagem estática pré-processada na linha do tempo; se Switch to Text to Video? estiver habilitado, sua entrada bypass desativa a injeção de imagem para T2V puro. LTXVScheduler (#47) molda o cronograma sigma para controlar a amplitude do movimento e a suavidade temporal. SamplerCustomAdvanced (#9), impulsionado por CFGGuider (#42) e KSamplerSelect (#17), sintetiza um latente A/V coerente de baixa resolução. LTXVSeparateAVLatent (#35) então divide os caminhos de vídeo e áudio e encaminha informações de enquadramento para LTXVCropGuides (#10) para composição consciente de guia.
Upscale Latente#
LTXVLatentUpsampler (#13) com o LTX‑2.3 Spatial Upscaler eleva o detalhe espacial no espaço latente enquanto preserva o movimento aprendido na primeira passagem. O upscaling aqui evita reinventar o tempo e reduz o tremor frequentemente visto com regeneração de segunda passagem ingênua. Ele entrega um latente mais nítido e consistente em movimento para a fase de refinamento final.
Gerar Alta Resolução#
A fase refinada recombina o latente de vídeo upscaled e o latente de áudio via LTXVConcatAVLatent (#3). CFGGuider (#8) e KSamplerSelect (#6) orientam um amostrador rápido e orientado para detalhes em SamplerCustomAdvanced (#36) usando um cronograma sigma ajustado para acabamento. Se você deixou a injeção de imagem habilitada, um segundo LTXVImgToVideoInplace (#14) ajuda o modelo a honrar a imagem estática em alta resolução sem perder o movimento já estabelecido. O resultado é uma sequência cinematográfica estável com dinâmicas naturais de olhos e boca.
Saída#
VAEDecode (#68) transforma o latente final de vídeo em quadros enquanto LTXVAudioVAEDecode (#23) reconstrói a faixa de áudio silenciosa. CreateVideo (#38) mescla quadros e áudio na taxa de quadros selecionada, e SaveVideo (#45) escreve um H.264 MP4 para revisão e compartilhamento imediatos. Use um prefixo de nome de arquivo descritivo por tomada para manter as iterações organizadas.
Conversão de número#
Um pequeno bloco utilitário calcula tamanhos em meia escala para construção latente para gerenciar VRAM e velocidade. Você geralmente não precisa tocar nessas configurações, mas elas garantem que a largura e altura a montante impulsionem tudo de forma consistente. Se você mudar a resolução base, essas se adaptam automaticamente.
Nós principais no workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#
PromptRelayEncode(#80). Centraliza um prompt global e prompts locais alinhados à linha do tempo. Use-o para roteirizar micro‑expressões e pequenas revelações de câmera ao longo da tomada. Mantenha os prompts locais curtos e específicos para que complementem em vez de lutar contra a aparência global.LTXVImgToVideoInplace(#22, #14). Injeta a imagem estática em latentes de baixa e alta resolução. Aumentestrengthquando você quiser que o final adira fortemente ao quadro de referência; reduza para mais liberdade. A entradabypassestá conectada ao interruptor Texto‑para‑Vídeo para que você possa desabilitar a injeção de imagem de forma limpa para execuções T2V.LTXVScheduler(#47). Controla como os níveis de ruído evoluem durante a passagem de baixa resolução, o que afeta diretamente a intensidade e suavidade do movimento. Use-o para domar tomadas excessivamente ativas ou para adicionar um impulso sutil quando as coisas parecerem estáticas. Ajustes aqui são mais perceptíveis em rostos, cabelos e energia de câmera semelhante a handheld.LTXVLatentUpsampler(#13). Realiza upscaling latente x2 com o upscaler espacial do LTX, preservando pistas de movimento aprendidas na primeira passagem. Use-o para adicionar textura nítida e definição de bordas antes do refinamento de alta resolução sem redefinir o tempo.CFGGuider(#42, #8). Equilibra quão fortemente o modelo segue seus prompts versus seus conhecimentos aprendidos. Se rostos se desviarem ou o estilo enfraquecer, aumente a orientação; se os detalhes parecerem forçados ou plásticos, diminua. Combine mudanças com uma rápida olhada no prompt negativo para manter o realismo.KSamplerSelect(#17, #6). Permite escolher o algoritmo de amostragem por estágio. Prefira um amostrador robusto e expressivo para a passagem de baixa resolução e uma opção rápida e amigável para detalhes para a passagem de acabamento. Mantenha a escolha consistente em iterações ao comparar aparências.
Extras opcionais#
- Para comportamento deliberado de câmera, você pode adicionar um LoRA de controle de câmera como Dolly‑Left da família LTX à sua cadeia de carregamento de LoRA quando quiser um movimento lateral consistente. Model page
- Mantenha a largura e a altura divisíveis por 32 para evitar desalinhamento em operações latentes e manter a eficiência de VRAM.
- Use verbos curtos e ativos em prompts locais para coreografar batidas, por exemplo, aperte o aperto, desvie o olhar, suavize o sorriso.
- Se você tiver como alvo tamanhos de saída muito altos, considere trocar
VAEDecodeporVAEDecodeTiled(#43) para decodificar quadros de forma mais eficiente em termos de memória. - Quando rostos importam mais, itere ajustando apenas o texto do prompt e
CFGGuiderantes de mudar o amostrador ou a resolução. Isso mantém as comparações significativas e revela a melhor redação para o workflow LTX 2.3 Sulphur imagem para vídeo.
Agradecimentos#
Este workflow implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos sinceramente ao RunningHub pela referência do workflow, Lightricks pela família LTX 2.3 (modelo, upscaler espacial e LoRA de controle de câmera), e Comfy-Org pelo codificador de texto LTX por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- RunningHub/RunningHub workflow reference
- Docs / Release Notes: runninghub.ai post
- Lightricks/LTX 2.3 model source
- Hugging Face: Lightricks/LTX-2.3-fp8
- Lightricks/LTX 2.3 spatial upscaler source
- Hugging Face: Lightricks/LTX-2.3
- Lightricks/LTX camera-control LoRA source
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Comfy-Org/LTX text encoder source
- Hugging Face: Comfy-Org/ltx-2
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

