LTX 2.3 Sulphur 2 texto para vídeo em ComfyUI

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Fluxo de Trabalho

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation

Deseja executar este fluxo de trabalho?

Fluxos de trabalho totalmente operacionais
Sem nós ou modelos ausentes
Nenhuma configuração manual necessária
Apresenta visuais impressionantes

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Exemplos

Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 para animação de personagens cinematográfica#

Este pipeline ComfyUI transforma prompts de linguagem natural em vídeos curtos, cinematográficos e focados em personagens com áudio opcional, construído em torno dos componentes Lightricks LTX‑2.3 e Sulphur 2. Ele organiza a geração em baixa resolução para planejamento de movimento, aumenta a sequência latente e, em seguida, refina em alta resolução antes de decodificar para quadros e muxar uma trilha de áudio sincronizada.

O fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 é ideal para testes rápidos de animação de personagens, conceitos de movimento no estilo D‑Human e experimentos polidos de texto para vídeo. Não depende de entradas de imagem para vídeo ou retransmissões de prompt; tudo começa a partir do texto, com o condicionamento LTXV guiando tanto os latentes de vídeo quanto de áudio de ponta a ponta.

Modelos principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

Lightricks LTX‑2.3. Gerador central de texto para vídeo usado para síntese espaço-temporal e latentes multimodais AV. Veja o repositório oficial do modelo para pesos e notas sobre capacidades e limitações. Hugging Face: Lightricks/LTX-2.3
Lightricks LTX‑2.3 FP8 checkpoint. Variante eficiente em memória do LTX‑2.3 que acelera a inferência e permite clipes mais longos ou resoluções mais altas em GPUs limitadas. Hugging Face: Lightricks/LTX-2.3-fp8
Modelo base Sulphur 2. Fornece priors de estilo e detalhes de personagem via LoRA neste fluxo de trabalho, ajudando a alcançar rostos nítidos e tonalidade cinematográfica. Hugging Face: SulphurAI/Sulphur-2-base
LTX‑2.3 Spatial Upscaler x2 1.1. Upscaler de espaço latente que aumenta o detalhe espacial antes da passagem de refinamento em alta resolução. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
Codificador de texto LTX (Gemma 3 12B IT empacotado para LTX). Fornece o espaço de incorporação de texto correspondente ao condicionamento LTX‑2.3 para um seguimento fiel do prompt. Hugging Face: Comfy-Org/ltx-2
LTX Audio VAE. Decodifica o latente de áudio gerado juntamente com o vídeo para que o render final possa incluir uma trilha sonora sincronizada. Hugging Face: Lightricks/LTX-2.3

Como usar o fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

Lógica geral O pipeline é executado em três atos: geração em baixa resolução para estabelecer movimento e composição, upscaling latente para aumentar o detalhe espacial e uma passagem de refinamento em alta resolução que também gera o áudio final. Os latentes são decodificados em quadros e forma de onda, depois muxados em um contêiner MP4 pronto para entrega.

Configurações de Vídeo Use o grupo “Configurações de Vídeo” para definir largura, altura, taxa de quadros e duração. A contagem de quadros é calculada automaticamente a partir da sua duração e fps para que o tempo e a cadência permaneçam consistentes. Esses valores impulsionam a alocação e decodificação latente, portanto, defina-os primeiro para corresponder à sua proporção de aspecto e tempo de execução desejados. Ajustar o fps aqui também informa o condicionamento para que a suavidade do movimento e o alinhamento do áudio usem o mesmo relógio.

Prompt Em “Prompt”, carregue o codificador de texto LTX com LTXAVTextEncoderLoader (#316), depois escreva sua descrição positiva em CLIPTextEncode (#303) e quaisquer características indesejadas em CLIPTextEncode (#312). O nó LTXVConditioning (#304) mescla o condicionamento positivo e negativo e adiciona a taxa de quadros escolhida para que a orientação temporal corresponda ao seu fps. Trate o prompt positivo como um brief de filmagem: sujeito, câmera, iluminação, humor e dicas de estilo. Mantenha a lista negativa focada em artefatos que você vê regularmente e deseja remover.

Modelo O grupo “Modelo” carrega o checkpoint principal via CheckpointLoaderSimple (#315) e aplica um Sulphur 2 LoRA com LoraLoaderModelOnly (#285) para infundir textura cinematográfica e fidelidade de personagem. É aqui que você pode trocar checkpoints ou LoRAs para mudar o visual geral e os priors de movimento. A saída do modelo é direcionada tanto para os guias iniciais quanto para os de refinamento, para que o estilo e a identidade sejam consistentes em todas as passagens. Emparelhar LTX‑2.3 com Sulphur 2 gera contraste marcante e rostos detalhados que são bem lidos em movimento.

Conversão de número Expressões de utilidade convertem seu fps e segundos na contagem de quadros inteiros usada a jusante. Isso mantém as linhas do tempo de áudio e vídeo alinhadas sem cálculos manuais. Se você revisar o fps ou a duração mais tarde, o gráfico atualiza automaticamente os nós dependentes.

Latente Vazio “Latente Vazio” cria contêineres alinhados para geração: EmptyLTXVLatentVideo (#295) define o tamanho espacial e o comprimento do latente de vídeo, LTXVEmptyLatentAudio (#305) aloca o latente de áudio na mesma taxa de quadros, e LTXVConcatAVLatent (#321) os mescla em um único latente AV. Começar com latentes vazios garante que a passagem de difusão reflita totalmente seu prompt e condicionamento, em vez de qualquer conteúdo pré-existente.

Gerar Baixa Resolução A primeira etapa de amostragem estabelece movimento e composição a um custo menor. CFGGuider (#313), KSamplerSelect (#291) e ManualSigmas (#306) governam quão fortemente o prompt direciona a geração e o cronograma geral de ruído. SamplerCustomAdvanced (#283) então desruide o latente AV em um clipe coerente. O resultado é dividido por LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) refina a atenção espacial para que o enquadramento do sujeito que você deseja seja preservado durante o upscaling posterior.

Upscale Latente LTXVLatentUpsampler (#287) usa o upscaler x2 LTX‑2.3 para elevar o detalhe espacial enquanto permanece no espaço latente para velocidade e estabilidade. Alimentar o latente de vídeo upscaled para frente melhora a textura e a legibilidade antes do refinamento em alta resolução. Isso preserva o movimento que você gostou da primeira passagem enquanto abre espaço para bordas mais nítidas e materiais mais ricos.

Gerar Alta Resolução O latente de vídeo upscaled é reunido com o latente de áudio em LTXVConcatAVLatent (#278) e guiado novamente para qualidade final. CFGGuider (#282), KSamplerSelect (#280) e ManualSigmas (#281) dão a última palavra sobre a força do prompt, detalhe e coerência temporal, com SamplerCustomAdvanced (#308) produzindo o latente AV refinado. LTXVSeparateAVLatent (#309) entrega o vídeo para VAEDecodeTiled (#314) para decodificação de quadros amigável à memória e o áudio para LTXVAudioVAEDecode (#297) para reconstrução da forma de onda. CreateVideo (#310) muxa quadros e áudio no seu fps alvo, e SaveVideo (#75) grava um arquivo MP4/H.264.

Pré-processamento de Imagem Esta área direciona os modelos VAE base e upscaler para que a mosaicação e o upscaling latente funcionem dentro do seu orçamento de VRAM. Se você experimentar pressão de memória, prefira pesos FP8 LTX‑2.3 e mantenha a decodificação em mosaico habilitada para manter o rendimento e a qualidade.

Nós principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

LTXVConditioning (#304) Mescla o condicionamento de texto positivo e negativo e anexa a taxa de quadros de trabalho para que a orientação temporal corresponda ao seu render. Linguagem de cena forte e específica melhora a estrutura da filmagem; negativos concisos reduzem artefatos. Veja o cartão do modelo LTX‑2.3 para notas de condicionamento. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) Conduz suavemente a composição para manter o sujeito principal enquadrado conforme pretendido. Use-o para proteger o tamanho do rosto, a colocação do horizonte ou um sujeito centralizado antes do upscaling e refinamento. É especialmente útil para tomadas estilo diálogo e closes médios.

CFGGuider (#313, #282) Controla quão agressivamente o prompt influencia a trajetória de difusão em ambas as passagens. Use o primeiro guia para travar movimento e encenação, depois o segundo para adicionar nitidez sem se afastar da tomada estabelecida.

ManualSigmas (#306, #281) Define o cronograma de ruído. Carregar mais ruído na frente encoraja uma exploração de movimento maior; um cronograma mais suave enfatiza a consistência temporal. Mantenha os cronogramas de baixa e alta resolução complementares em vez de idênticos.

LTXVLatentUpsampler (#287) Executa upscaling latente x2 usando o upscaler oficial LTX para que você ganhe detalhe antes do sampler de refinamento. Trocar para outra variante de upscaler LTX‑2.3 pode mudar ligeiramente a nitidez e o grão. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) Decodifica clipes longos ou grandes em mosaicos gerenciáveis para evitar picos de VRAM. Se você mudar o tamanho espacial ou o comprimento do clipe, ajuste a mosaicação para equilibrar espaço de memória e velocidade de decodificação.

LoraLoaderModelOnly (#285) Aplica o Sulphur 2 LoRA ao caminho do modelo base para que a fidelidade de personagem e as dicas de estilo se transfiram para ambas as etapas de amostragem. Use isso para trocar visuais rapidamente enquanto mantém a mesma base LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base

Extras Opcionais#

Controle de semente: defina valores fixos em ambos os nós RandomNoise para que as tomadas sejam reproduzíveis; mude uma semente para explorar alternativas.
Prompting: escreva prompts como direções de filmagem (sujeito, câmera, iluminação, humor). Mantenha a lista negativa focada e curta.
Desempenho: se a VRAM for limitada, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação em mosaico habilitada.
Saída: o gráfico grava MP4/H.264; mude o contêiner ou codec em SaveVideo se você precisar de fluxos de trabalho proxy ProRes.

Este fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 oferece um caminho limpo e de ponta a ponta do prompt ao vídeo polido com áudio sincronizado, construído para iteração rápida em animação de personagens cinematográfica.

Agradecimentos#

Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos RunningHub pelo Sulphur2 Basic Workflow for Video Production, SulphurAI pelo modelo Sulphur-2-base, Lightricks pelos modelos LTX-2.3 e LTX-2.3-fp8, e Comfy-Org pelo codificador de texto LTX-2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios listados abaixo.

Recursos#

RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Release Notes: Sulphur2 Basic Workflow for Video Production
SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2

Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

LTX 2.3 Sulphur 2 Prompt Relay Workflow | Criador de Vídeo Cinematográfico

Transforma imagens estáticas em vídeos cinematográficos controlados por movimento instantaneamente.

LTX-2 ControlNet | Gerador de Vídeo de Precisão

Controle preciso, sincronização perfeita, criação de vídeo de IA super clara.

LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

Transforme quadros estáticos em transições de vídeo e som suaves rapidamente.

LTX 2.3 Movie Builder Workflow | Gerador de Filmes com IA

Transforme prompts em histórias cinematográficas completas com total controle criativo.

LTX 2.3 Imagem para Vídeo | Criador de Movimento Cinematográfico

Transforme imagens em vídeos realistas e cinematográficos com movimento suave e consistente.

LTX 2.3 ID-LoRA | Gerador de Avatar Falante

Cria avatares falantes realistas com voz e visuais sincronizados.

Substituição de Personagem em Vídeo (MoCha) | Ferramenta de Troca Realista

Troque personagens de vídeo rapidamente com controle realista de movimento e iluminação.

Z Image ControlNet | Gerador de Imagens de Precisão

Controle total sobre poses de imagem, bordas e layouts de profundidade.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 | Gerador Cinematográfico