LTX 2.3 Sulphur T2V workflow: prompt-para-cinema com microexpressões, humor e câmera guiada#
O fluxo de trabalho LTX 2.3 Sulphur T2V transforma prompts bem escritos em clipes cinematográficos que enfatizam microexpressões críveis, detalhes de cena atmosféricos e movimento orientado por histórias. Ele combina uma passagem de geração LTX 2.3 destilada com orientação de estilo Sulphur, orientação opcional de controle de câmera e um caminho de decodificação em mosaico estável para resultados confiáveis de texto para vídeo.
Construído para criadores que desejam batidas de atuação fundamentadas e movimento de câmera controlável, este setup ComfyUI equilibra fidelidade narrativa com estabilidade temporal. Você pode executar texto puro para vídeo ou começar a partir de uma imagem estática, depois decodificar o latente da primeira passagem estável em uma sequência limpa e amigável ao editor com uma faixa de áudio temporária para fácil edição.
Modelos chave no fluxo de trabalho Comfyui LTX 2.3 Sulphur T2V#
- Lightricks LTX-2.3 22B FP8 checkpoint. O modelo base de texto para vídeo que alimenta geração e decodificação. Model repository
- LTX-2.3 destilado LoRA. Um adaptador destilado que mantém a qualidade enquanto permite amostragem mais rápida e de menor etapa e movimento estável. Model family
- LTX-2.3 amplificador espacial x2. Incluído no gráfico para experimentação, enquanto o caminho de exportação padrão usa a decodificação da primeira passagem estável para resultados mais limpos nesta configuração. Upscaler
- LTX-2 19B LoRA Camera Control Dolly Left. Orientação opcional para movimento dolly-in estável e parallax suave quando sua cena exige. LoRA
- Codificador de texto LTX (Gemma 3 12B variantes). O tokenizador e modelo de incorporação que interpreta seu prompt e notas de batida. Text encoders
- LTX audio VAE. Embala uma trilha de áudio silenciosa para que o vídeo resultante carregue perfeitamente em NLEs. Model repository
- Sulphur LoRA (incluído). Um adaptador de estilo e batida de atuação curado para microexpressões expressivas, mas contidas e harmonia de cor cinematográfica.
Como usar o fluxo de trabalho Comfyui LTX 2.3 Sulphur T2V#
Este fluxo de trabalho tem como padrão um caminho de texto para vídeo de primeira passagem estável. Ele gera um vídeo latente coerente, separa as faixas de vídeo e áudio, decodifica o vídeo latente de primeira passagem com decodificação VAE em mosaico, depois embala os quadros e áudio silencioso em um arquivo de vídeo pronto para edição. Os nós de upscale latente e refinamento permanecem no gráfico para experimentação avançada, mas a saída padrão ignora esse ramo para confiabilidade.
Modelo#
O grupo de Modelos carrega o checkpoint LTX-2.3 FP8, o codificador de texto LTX, o áudio VAE e os adaptadores usados ao longo. As LoRAs destiladas e Sulphur são aplicadas ao modelo base para que a cena adira de perto às suas batidas e intenção facial. Se desejar movimento dolly, ative a LoRA de controle de câmera nos nós LoraLoader fornecidos. O caminho padrão alimenta o sampler primário através de CFGGuider (#42), enquanto o ramo de refinamento está disponível para experimentação manual.
Prompt#
Escreva sua cena no campo Prompt (#29) como linhas de batida curtas mais notas de câmera breves. O texto positivo é codificado por CLIPTextEncode (#30), enquanto uma lista negativa curada em CLIPTextEncode (#41) suprime brilho CGI, artefatos, tremores e cintilação intensa. Mantenha a direção de atuação concisa e específica para olhos, ombros e respiração para desbloquear as microexpressões para as quais este fluxo de trabalho é ajustado. A linguagem de câmera como "dolly-in manual lento" e "parallax suave" mapeia bem para o scheduler e a LoRA de câmera opcional.
Configurações de Vídeo#
Escolha a saída Width, Height, Frame Rate e Length no grupo de Configurações de Vídeo (#40, #25, #26, #27). Internamente, o fluxo de trabalho deriva um latente de meia resolução para a passagem de geração para melhorar a coerência temporal, depois decodifica esse latente estável diretamente. Use Switch to Text to Video? (#28) para executar T2V puro ou desative e alimente uma imagem inicial através do caminho de Pré-processamento de Imagem para I2V controlado. As dimensões devem permanecer em múltiplos comuns para decodificação rápida e amigável a mosaicos.
Latente Vazio#
EmptyLTXVLatentVideo (#21) cria um vídeo latente em branco de acordo com suas configurações, e LTXVEmptyLatentAudio (#33) cria um áudio latente correspondente para que a multiplexação do contêiner seja amigável ao editor. Se quiser começar a partir de uma imagem, LTXVImgToVideoInplace (#22) pode injetá-la na linha do tempo latente em uma strength controlável. Quando bypass está ativado, o nó gera uma iniciação puramente dirigida por texto.
Gerar Baixa Resolução#
Latentes de áudio e vídeo são mesclados por LTXVConcatAVLatent (#32) e cronometrados por LTXVScheduler (#47), que define um cronograma sigma consciente de vídeo para movimento suave e viagem de câmera. CFGGuider (#42) combina seu condicionamento positivo e negativo com a pilha de modelos, e SamplerCustomAdvanced (#9) executa a passagem de geração primária. LTXVSeparateAVLatent (#35) então divide o clipe de volta em latentes de vídeo e áudio; a saída padrão usa este vídeo latente estável para decodificação em mosaico.
Upscale Latente Opcional#
LTXVLatentUpsampler (#13) aplica o amplificador espacial LTX x2 de LatentUpscaleModelLoader (#39) enquanto mantém a estrutura temporal intacta. LTXVImgToVideoInplace (#14) reempacota o vídeo latente upscaled junto com a faixa de áudio existente. Este ramo permanece disponível se você quiser experimentar refinamento de maior resolução, mas não está conectado à saída final padrão.
Refinamento Opcional#
O ramo de refinamento usa CFGGuider (#8) e SamplerCustomAdvanced (#36) com um cronograma sigma curto e manual. É útil para usuários avançados que querem testar o caminho de alta resolução, mas a saída do fluxo de trabalho padrão ignora este ramo porque a decodificação em mosaico da primeira passagem estável oferece resultados mais limpos na configuração RunComfy fornecida.
Saída#
VAEDecodeTiled (#43) decodifica o vídeo latente estável de LTXVSeparateAVLatent (#35), e LTXVAudioVAEDecode (#23) produz uma faixa silenciosa que mantém os editores felizes. CreateVideo (#38) monta a sequência na taxa de quadros escolhida, e SaveVideo (#45) grava no disco. Você obtém um vídeo pronto para compartilhar com movimento estável, gradientes limpos e fluxo de câmera controlado.
Nós chave no fluxo de trabalho Comfyui LTX 2.3 Sulphur T2V#
LTXVScheduler (#47)#
Orquestra a sequência sigma consciente de vídeo para a primeira passagem. Seus controles de deslocamento influenciam o quão fortemente o movimento se acumula entre os quadros; deslocamentos mais altos enfatizam a viagem da câmera e o movimento mais rápido do sujeito, enquanto valores mais baixos favorecem enquadramentos mais estáveis. Se você ativar uma LoRA de controle de câmera, deslocamentos modestos combinam melhor para evitar deriva exagerada.
LTXVCropGuides (#10)#
Gera canais de condicionamento conscientes de corte a partir do seu texto para que regiões importantes, especialmente rostos, sejam resolvidas com maior fidelidade. Use-o para guiar microexpressões e detalhes dos olhos sem sobrecarregar o sampler global. Se close-ups parecerem suaves, aperte suas batidas de atuação e deixe Crop Guides fazer o ajuste fino.
LTXVImgToVideoInplace (#22, #14)#
Transforma uma imagem estática em um latente temporalmente consistente ou reempacota um latente upscaled para refinamento opcional. O controle strength define quanto da imagem de origem é preservado ao longo da linha do tempo; valores mais baixos permitem mais adaptação gerativa, valores mais altos mantêm enquadramento e identidade travados. Alterne bypass para alternar entre I2V e T2V puro.
LTXVLatentUpsampler (#13)#
Aplica o amplificador espacial LTX x2 in-latent para elevar textura e bordas para experimentos de refinamento opcional. O caminho de exportação padrão não depende deste nó, assim você pode comparar a saída estável da primeira passagem contra o ramo de refinamento sem alterar a cadeia de saída principal.
CFGGuider (#42, #8) e KSamplerSelect (#17, #6)#
Essas combinações definem quão estritamente o modelo segue seu texto e quão agressivamente ele amostra. Mantenha a orientação conservadora para realismo de vídeo; aumentá-la pode aumentar a aderência ao prompt, mas pode endurecer o movimento ou adicionar cintilação. A exportação padrão depende do sampler primário para movimento estável, enquanto o sampler secundário é reservado para testes de refinamento opcional.
Extras opcionais#
- Escreva de 3 a 6 batidas que descrevam intenção e linguagem corporal em vez de enredo; microexpressões emergem de dicas específicas como "olhos suavizam" ou "ombros relaxam."
- Mantenha a linguagem de câmera compacta: um verbo de movimento mais um sujeito, por exemplo "dolly-in lento no rosto dela" ou "parallax suave dos carros estacionados."
- Se quiser enquadramento estático, desative a LoRA de controle de câmera e reduza ligeiramente os deslocamentos do scheduler; para mais viagem, ative a LoRA e aumente o deslocamento modestamente.
- Use largura e altura que sejam múltiplos limpos de 32 para tiling e decodificação previsíveis.
- Para reprodutibilidade, bloqueie sementes em
RandomNoise(#2, #1); altere apenas uma semente ao explorar variações. - O prompt negativo já suprime artefatos CGI e cintilação; mantenha-o focado e deixe seu texto positivo carregar estilo e intenção.
Agradecimentos#
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos RunningHub pela referência do fluxo de trabalho, Lightricks pelo modelo LTX 2.3, LoRA destilada e amplificador espacial, e LoRA de controle de câmera, e Comfy-Org pelo codificador de texto LTX por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios vinculados abaixo.
Recursos#
- RunningHub/Workflow Reference
- Docs / Release Notes: Post
- Lightricks/LTX-2.3-fp8
- Hugging Face: Lightricks/LTX-2.3-fp8
- Lightricks/LTX-2.3
- Hugging Face: Lightricks/LTX-2.3
- Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Hugging Face: Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

