Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 para animação de personagens cinematográfica#
Este pipeline ComfyUI transforma prompts de linguagem natural em vídeos curtos, cinematográficos e focados em personagens com áudio opcional, construído em torno dos componentes Lightricks LTX‑2.3 e Sulphur 2. Ele organiza a geração em baixa resolução para planejamento de movimento, aumenta a sequência latente e, em seguida, refina em alta resolução antes de decodificar para quadros e muxar uma trilha de áudio sincronizada.
O fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 é ideal para testes rápidos de animação de personagens, conceitos de movimento no estilo D‑Human e experimentos polidos de texto para vídeo. Não depende de entradas de imagem para vídeo ou retransmissões de prompt; tudo começa a partir do texto, com o condicionamento LTXV guiando tanto os latentes de vídeo quanto de áudio de ponta a ponta.
Modelos principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
- Lightricks LTX‑2.3. Gerador central de texto para vídeo usado para síntese espaço-temporal e latentes multimodais AV. Veja o repositório oficial do modelo para pesos e notas sobre capacidades e limitações. Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 checkpoint. Variante eficiente em memória do LTX‑2.3 que acelera a inferência e permite clipes mais longos ou resoluções mais altas em GPUs limitadas. Hugging Face: Lightricks/LTX-2.3-fp8
- Modelo base Sulphur 2. Fornece priors de estilo e detalhes de personagem via LoRA neste fluxo de trabalho, ajudando a alcançar rostos nítidos e tonalidade cinematográfica. Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 Spatial Upscaler x2 1.1. Upscaler de espaço latente que aumenta o detalhe espacial antes da passagem de refinamento em alta resolução. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- Codificador de texto LTX (Gemma 3 12B IT empacotado para LTX). Fornece o espaço de incorporação de texto correspondente ao condicionamento LTX‑2.3 para um seguimento fiel do prompt. Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE. Decodifica o latente de áudio gerado juntamente com o vídeo para que o render final possa incluir uma trilha sonora sincronizada. Hugging Face: Lightricks/LTX-2.3
Como usar o fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
Lógica geral O pipeline é executado em três atos: geração em baixa resolução para estabelecer movimento e composição, upscaling latente para aumentar o detalhe espacial e uma passagem de refinamento em alta resolução que também gera o áudio final. Os latentes são decodificados em quadros e forma de onda, depois muxados em um contêiner MP4 pronto para entrega.
Configurações de Vídeo Use o grupo “Configurações de Vídeo” para definir largura, altura, taxa de quadros e duração. A contagem de quadros é calculada automaticamente a partir da sua duração e fps para que o tempo e a cadência permaneçam consistentes. Esses valores impulsionam a alocação e decodificação latente, portanto, defina-os primeiro para corresponder à sua proporção de aspecto e tempo de execução desejados. Ajustar o fps aqui também informa o condicionamento para que a suavidade do movimento e o alinhamento do áudio usem o mesmo relógio.
Prompt Em “Prompt”, carregue o codificador de texto LTX com LTXAVTextEncoderLoader (#316), depois escreva sua descrição positiva em CLIPTextEncode (#303) e quaisquer características indesejadas em CLIPTextEncode (#312). O nó LTXVConditioning (#304) mescla o condicionamento positivo e negativo e adiciona a taxa de quadros escolhida para que a orientação temporal corresponda ao seu fps. Trate o prompt positivo como um brief de filmagem: sujeito, câmera, iluminação, humor e dicas de estilo. Mantenha a lista negativa focada em artefatos que você vê regularmente e deseja remover.
Modelo O grupo “Modelo” carrega o checkpoint principal via CheckpointLoaderSimple (#315) e aplica um Sulphur 2 LoRA com LoraLoaderModelOnly (#285) para infundir textura cinematográfica e fidelidade de personagem. É aqui que você pode trocar checkpoints ou LoRAs para mudar o visual geral e os priors de movimento. A saída do modelo é direcionada tanto para os guias iniciais quanto para os de refinamento, para que o estilo e a identidade sejam consistentes em todas as passagens. Emparelhar LTX‑2.3 com Sulphur 2 gera contraste marcante e rostos detalhados que são bem lidos em movimento.
Conversão de número Expressões de utilidade convertem seu fps e segundos na contagem de quadros inteiros usada a jusante. Isso mantém as linhas do tempo de áudio e vídeo alinhadas sem cálculos manuais. Se você revisar o fps ou a duração mais tarde, o gráfico atualiza automaticamente os nós dependentes.
Latente Vazio “Latente Vazio” cria contêineres alinhados para geração: EmptyLTXVLatentVideo (#295) define o tamanho espacial e o comprimento do latente de vídeo, LTXVEmptyLatentAudio (#305) aloca o latente de áudio na mesma taxa de quadros, e LTXVConcatAVLatent (#321) os mescla em um único latente AV. Começar com latentes vazios garante que a passagem de difusão reflita totalmente seu prompt e condicionamento, em vez de qualquer conteúdo pré-existente.
Gerar Baixa Resolução A primeira etapa de amostragem estabelece movimento e composição a um custo menor. CFGGuider (#313), KSamplerSelect (#291) e ManualSigmas (#306) governam quão fortemente o prompt direciona a geração e o cronograma geral de ruído. SamplerCustomAdvanced (#283) então desruide o latente AV em um clipe coerente. O resultado é dividido por LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) refina a atenção espacial para que o enquadramento do sujeito que você deseja seja preservado durante o upscaling posterior.
Upscale Latente LTXVLatentUpsampler (#287) usa o upscaler x2 LTX‑2.3 para elevar o detalhe espacial enquanto permanece no espaço latente para velocidade e estabilidade. Alimentar o latente de vídeo upscaled para frente melhora a textura e a legibilidade antes do refinamento em alta resolução. Isso preserva o movimento que você gostou da primeira passagem enquanto abre espaço para bordas mais nítidas e materiais mais ricos.
Gerar Alta Resolução O latente de vídeo upscaled é reunido com o latente de áudio em LTXVConcatAVLatent (#278) e guiado novamente para qualidade final. CFGGuider (#282), KSamplerSelect (#280) e ManualSigmas (#281) dão a última palavra sobre a força do prompt, detalhe e coerência temporal, com SamplerCustomAdvanced (#308) produzindo o latente AV refinado. LTXVSeparateAVLatent (#309) entrega o vídeo para VAEDecodeTiled (#314) para decodificação de quadros amigável à memória e o áudio para LTXVAudioVAEDecode (#297) para reconstrução da forma de onda. CreateVideo (#310) muxa quadros e áudio no seu fps alvo, e SaveVideo (#75) grava um arquivo MP4/H.264.
Pré-processamento de Imagem Esta área direciona os modelos VAE base e upscaler para que a mosaicação e o upscaling latente funcionem dentro do seu orçamento de VRAM. Se você experimentar pressão de memória, prefira pesos FP8 LTX‑2.3 e mantenha a decodificação em mosaico habilitada para manter o rendimento e a qualidade.
Nós principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
LTXVConditioning (#304) Mescla o condicionamento de texto positivo e negativo e anexa a taxa de quadros de trabalho para que a orientação temporal corresponda ao seu render. Linguagem de cena forte e específica melhora a estrutura da filmagem; negativos concisos reduzem artefatos. Veja o cartão do modelo LTX‑2.3 para notas de condicionamento. Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) Conduz suavemente a composição para manter o sujeito principal enquadrado conforme pretendido. Use-o para proteger o tamanho do rosto, a colocação do horizonte ou um sujeito centralizado antes do upscaling e refinamento. É especialmente útil para tomadas estilo diálogo e closes médios.
CFGGuider (#313, #282) Controla quão agressivamente o prompt influencia a trajetória de difusão em ambas as passagens. Use o primeiro guia para travar movimento e encenação, depois o segundo para adicionar nitidez sem se afastar da tomada estabelecida.
ManualSigmas (#306, #281) Define o cronograma de ruído. Carregar mais ruído na frente encoraja uma exploração de movimento maior; um cronograma mais suave enfatiza a consistência temporal. Mantenha os cronogramas de baixa e alta resolução complementares em vez de idênticos.
LTXVLatentUpsampler (#287) Executa upscaling latente x2 usando o upscaler oficial LTX para que você ganhe detalhe antes do sampler de refinamento. Trocar para outra variante de upscaler LTX‑2.3 pode mudar ligeiramente a nitidez e o grão. Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) Decodifica clipes longos ou grandes em mosaicos gerenciáveis para evitar picos de VRAM. Se você mudar o tamanho espacial ou o comprimento do clipe, ajuste a mosaicação para equilibrar espaço de memória e velocidade de decodificação.
LoraLoaderModelOnly (#285) Aplica o Sulphur 2 LoRA ao caminho do modelo base para que a fidelidade de personagem e as dicas de estilo se transfiram para ambas as etapas de amostragem. Use isso para trocar visuais rapidamente enquanto mantém a mesma base LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base
Extras Opcionais#
- Controle de semente: defina valores fixos em ambos os nós
RandomNoisepara que as tomadas sejam reproduzíveis; mude uma semente para explorar alternativas. - Prompting: escreva prompts como direções de filmagem (sujeito, câmera, iluminação, humor). Mantenha a lista negativa focada e curta.
- Desempenho: se a VRAM for limitada, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação em mosaico habilitada.
- Saída: o gráfico grava MP4/H.264; mude o contêiner ou codec em
SaveVideose você precisar de fluxos de trabalho proxy ProRes.
Este fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 oferece um caminho limpo e de ponta a ponta do prompt ao vídeo polido com áudio sincronizado, construído para iteração rápida em animação de personagens cinematográfica.
Agradecimentos#
Este fluxo de trabalho implementa e constrói sobre os seguintes trabalhos e recursos. Agradecemos RunningHub pelo Sulphur2 Basic Workflow for Video Production, SulphurAI pelo modelo Sulphur-2-base, Lightricks pelos modelos LTX-2.3 e LTX-2.3-fp8, e Comfy-Org pelo codificador de texto LTX-2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios listados abaixo.
Recursos#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Release Notes: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Nota: O uso dos modelos, conjuntos de dados e códigos referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

