LTX 2.3 Sulphur imagem para vídeo workflow em ComfyUI

ComfyUI LTX 2.3 Sulphur image to video workflow Workflow

LTX 2.3 Sulphur image to video workflow in ComfyUI | Cinematic Motion Creator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Sulphur image to video workflow Examples

LTX 2.3 Sulphur imagem para vídeo workflow: imagem para vídeo cinematográfico com movimento controlável#

Este workflow LTX 2.3 Sulphur imagem para vídeo transforma uma única imagem estática em uma tomada cinematográfica pronta para publicação, com micro‑expressões naturais, movimento de personagem crível e continuidade atmosférica estável. É construído para tomadas narrativas onde você deseja controle sobre a sensação da câmera, humor e dinâmica de cena sem se perder em detalhes de configuração.

O workflow executa um pipeline de difusão em duas etapas em torno do LTX‑2.3: uma passagem de baixa resolução para estabelecer movimento e tempo, seguida de um upscale latente e uma passagem de refinamento de alta resolução para detalhe final. Um estilo Sulphur LoRA orienta a aparência e tons de pele, enquanto a segmentação de prompt suporta batidas evolutivas ao longo da tomada. Alterne um único interruptor para executar imagem‑para‑vídeo clássico ou puro texto‑para‑vídeo conforme necessário.

Modelos principais no workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#

Lightricks LTX‑2.3‑22B dev FP8. O checkpoint base de difusão de vídeo que impulsiona a geração e decodificação enquanto mantém o uso de memória prático. Model card
LTX‑2.3 Spatial Upscaler x2. Um modelo de super‑resolução latente usado entre as passagens para preservar o movimento enquanto adiciona fidelidade espacial. Model page
Gemma 3 12B instruction‑tuned text encoder packaged for LTX‑2. Permite condicionamento rico e fundamentado para prompts globais e segmentados. Repository
Sulphur style LoRA e LTX‑2.3 distilled LoRA 1.1. LoRAs emparelhados que estabilizam o realismo facial e o tom cinematográfico enquanto mantêm o controle do prompt.

Como usar o workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#

Fluxo geral: defina as dimensões e o comprimento da tomada, prepare sua imagem estática, defina um prompt global mais batidas de prompt local opcionais e, em seguida, renderize. A etapa de baixa resolução constrói movimento e tempo, o upscaler latente levanta o detalhe, e a etapa de alta resolução finaliza textura e iluminação antes de decodificar para MP4.

Configurações de Vídeo#

Escolha seu Width, Height, Length (quadros) e Frame Rate alvo. As dimensões são definidas para serem divisíveis por tamanhos de grade de difusão comuns para evitar artefatos. Um único booleano, Switch to Text to Video? (#28), controla se a imagem estática é injetada ou ignorada. Mantenha a proporção consistente com a imagem de entrada para o enquadramento mais limpo, especialmente para rostos e mãos.

Pré-processamento de Imagem#

Sua imagem estática de origem é carregada, redimensionada e levemente comprimida para prontidão de difusão usando ImageResizeKJv2 (#75) e LTXVPreprocess (#76). Uma versão escalada é alimentada para a passagem de baixa resolução para movimento estável, enquanto a versão de maior detalhe está disponível para a passagem de alta resolução. Use esta seção para alinhar enquadramento e espaço superior antes da geração. Ajustes sutis de pré-corte aqui compensam em linhas de visão mais consistentes e continuidade de fundo.

Latente Vazio#

EmptyLTXVLatentVideo (#21) e LTXVEmptyLatentAudio (#33) constroem latentes de vídeo e áudio sincronizados usando suas configurações de tomada. Eles são mesclados por LTXVConcatAVLatent (#32) para estabelecer um esqueleto de linha do tempo que os nós a jusante irão refinar. O ramo de áudio cria uma faixa silenciosa e válida para que o MP4 final toque de forma confiável em qualquer lugar. Esses latentes também ancoram segmentos de prompt para que mudanças de movimento ocorram onde você espera.

Prompt#

Escreva sua descrição de tomada em PromptRelayEncode (#80). Use um prompt global conciso para a aparência geral, depois adicione linhas específicas de batida como prompts locais, separadas pelo caractere |, para evoluir micro-ações ao longo do clipe. O codificador de texto LTX de LTXAVTextEncoderLoader (#5) lida com semântica, enquanto CLIPTextEncode (#41) fornece um prompt negativo fortemente orientado para realismo. LTXVConditioning (#31) mistura condicionamento positivo e negativo e os sincroniza com a taxa de quadros.

Modelo#

CheckpointLoaderSimple (#44) carrega o LTX‑2.3 base. PathchSageAttentionKJ (#67) otimiza a atenção para imagens grandes. Uma curta cadeia LoRA aplica o estilo Sulphur e um LoRA de estabilidade destilada antes de cada estágio de amostragem. Este design equilibra a consistência de aparência com a capacidade de resposta ao prompt, para que a identidade do personagem e a iluminação permaneçam coerentes entre as passagens.

Gerar Baixa Resolução#

Esta primeira passagem de difusão estabelece o movimento. LTXVImgToVideoInplace (#22) injeta sua imagem estática pré-processada na linha do tempo; se Switch to Text to Video? estiver habilitado, sua entrada bypass desativa a injeção de imagem para T2V puro. LTXVScheduler (#47) molda o cronograma sigma para controlar a amplitude do movimento e a suavidade temporal. SamplerCustomAdvanced (#9), impulsionado por CFGGuider (#42) e KSamplerSelect (#17), sintetiza um latente A/V coerente de baixa resolução. LTXVSeparateAVLatent (#35) então divide os caminhos de vídeo e áudio e encaminha informações de enquadramento para LTXVCropGuides (#10) para composição consciente de guia.

Upscale Latente#

LTXVLatentUpsampler (#13) com o LTX‑2.3 Spatial Upscaler eleva o detalhe espacial no espaço latente enquanto preserva o movimento aprendido na primeira passagem. O upscaling aqui evita reinventar o tempo e reduz o tremor frequentemente visto com regeneração de segunda passagem ingênua. Ele entrega um latente mais nítido e consistente em movimento para a fase de refinamento final.

Gerar Alta Resolução#

A fase refinada recombina o latente de vídeo upscaled e o latente de áudio via LTXVConcatAVLatent (#3). CFGGuider (#8) e KSamplerSelect (#6) orientam um amostrador rápido e orientado para detalhes em SamplerCustomAdvanced (#36) usando um cronograma sigma ajustado para acabamento. Se você deixou a injeção de imagem habilitada, um segundo LTXVImgToVideoInplace (#14) ajuda o modelo a honrar a imagem estática em alta resolução sem perder o movimento já estabelecido. O resultado é uma sequência cinematográfica estável com dinâmicas naturais de olhos e boca.

Saída#

VAEDecode (#68) transforma o latente final de vídeo em quadros enquanto LTXVAudioVAEDecode (#23) reconstrói a faixa de áudio silenciosa. CreateVideo (#38) mescla quadros e áudio na taxa de quadros selecionada, e SaveVideo (#45) escreve um H.264 MP4 para revisão e compartilhamento imediatos. Use um prefixo de nome de arquivo descritivo por tomada para manter as iterações organizadas.

Conversão de número#

Um pequeno bloco utilitário calcula tamanhos em meia escala para construção latente para gerenciar VRAM e velocidade. Você geralmente não precisa tocar nessas configurações, mas elas garantem que a largura e altura a montante impulsionem tudo de forma consistente. Se você mudar a resolução base, essas se adaptam automaticamente.

Nós principais no workflow LTX 2.3 Sulphur imagem para vídeo do Comfyui#

PromptRelayEncode (#80). Centraliza um prompt global e prompts locais alinhados à linha do tempo. Use-o para roteirizar micro‑expressões e pequenas revelações de câmera ao longo da tomada. Mantenha os prompts locais curtos e específicos para que complementem em vez de lutar contra a aparência global.
LTXVImgToVideoInplace (#22, #14). Injeta a imagem estática em latentes de baixa e alta resolução. Aumente strength quando você quiser que o final adira fortemente ao quadro de referência; reduza para mais liberdade. A entrada bypass está conectada ao interruptor Texto‑para‑Vídeo para que você possa desabilitar a injeção de imagem de forma limpa para execuções T2V.
LTXVScheduler (#47). Controla como os níveis de ruído evoluem durante a passagem de baixa resolução, o que afeta diretamente a intensidade e suavidade do movimento. Use-o para domar tomadas excessivamente ativas ou para adicionar um impulso sutil quando as coisas parecerem estáticas. Ajustes aqui são mais perceptíveis em rostos, cabelos e energia de câmera semelhante a handheld.
LTXVLatentUpsampler (#13). Realiza upscaling latente x2 com o upscaler espacial do LTX, preservando pistas de movimento aprendidas na primeira passagem. Use-o para adicionar textura nítida e definição de bordas antes do refinamento de alta resolução sem redefinir o tempo.
CFGGuider (#42, #8). Equilibra quão fortemente o modelo segue seus prompts versus seus conhecimentos aprendidos. Se rostos se desviarem ou o estilo enfraquecer, aumente a orientação; se os detalhes parecerem forçados ou plásticos, diminua. Combine mudanças com uma rápida olhada no prompt negativo para manter o realismo.
KSamplerSelect (#17, #6). Permite escolher o algoritmo de amostragem por estágio. Prefira um amostrador robusto e expressivo para a passagem de baixa resolução e uma opção rápida e amigável para detalhes para a passagem de acabamento. Mantenha a escolha consistente em iterações ao comparar aparências.

Extras opcionais#

Para comportamento deliberado de câmera, você pode adicionar um LoRA de controle de câmera como Dolly‑Left da família LTX à sua cadeia de carregamento de LoRA quando quiser um movimento lateral consistente. Model page
Mantenha a largura e a altura divisíveis por 32 para evitar desalinhamento em operações latentes e manter a eficiência de VRAM.
Use verbos curtos e ativos em prompts locais para coreografar batidas, por exemplo, aperte o aperto, desvie o olhar, suavize o sorriso.
Se você tiver como alvo tamanhos de saída muito altos, considere trocar VAEDecode por VAEDecodeTiled (#43) para decodificar quadros de forma mais eficiente em termos de memória.
Quando rostos importam mais, itere ajustando apenas o texto do prompt e CFGGuider antes de mudar o amostrador ou a resolução. Isso mantém as comparações significativas e revela a melhor redação para o workflow LTX 2.3 Sulphur imagem para vídeo.

Agradecimentos#

Este workflow implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos sinceramente ao RunningHub pela referência do workflow, Lightricks pela família LTX 2.3 (modelo, upscaler espacial e LoRA de controle de câmera), e Comfy-Org pelo codificador de texto LTX por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.

Recursos#

RunningHub/RunningHub workflow reference
- Docs / Release Notes: runninghub.ai post
Lightricks/LTX 2.3 model source
- Hugging Face: Lightricks/LTX-2.3-fp8
Lightricks/LTX 2.3 spatial upscaler source
- Hugging Face: Lightricks/LTX-2.3
Lightricks/LTX camera-control LoRA source
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
Comfy-Org/LTX text encoder source
- Hugging Face: Comfy-Org/ltx-2

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

LTX 2.3 Imagem para Vídeo | Criador de Movimento Cinematográfico

Transforme imagens em vídeos realistas e cinematográficos com movimento suave e consistente.

SteadyDancer | Gerador Realista de Imagem-para-Vídeo

Transforma retratos em vídeos de movimento suave e realista instantaneamente.

Z-Depth Maps | Animações no estilo Houdini

Crie animações deslumbrantes no estilo Houdini com Z-Depth Maps usando apenas imagem 2D.

Wan2.2 Fun Inp | Gerador de Vídeos Cinematográficos

De 2 imagens a vídeos deslumbrantes com transições suaves e controláveis.

Hunyuan Imagem para Vídeo | Criador de Movimento Deslumbrante

Crie filmes magníficos a partir de imagens estáticas através de movimento cinematográfico e efeitos personalizáveis.

HiDream O1 Image ComfyUI Image Editing Workflow | Ferramenta de Refinamento Inteligente

Edite fotos de forma inteligente enquanto mantém o estilo original intacto.

Wan Alpha | Gerador de Vídeo Transparente

Magia do Alpha: vídeos instantâneos com fundo transparente para VFX e design.

Fluxo de Trabalho TripoSplat 3D Gaussian Splats | Imagem para 3D

Transforme uma imagem em 3D Gaussian Splats com TripoSplat.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

LTX 2.3 Sulphur imagem para vídeo workflow | Gerador Cinemático