Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 para animação cinematográfica de personagens#
Este pipeline ComfyUI transforma prompts de linguagem natural em vídeos curtos, cinematográficos, focados em personagens com áudio opcional, construído em torno dos componentes Lightricks LTX‑2.3 e Sulphur 2. Ele organiza a geração em baixa resolução para planejamento de movimento, escala a sequência latente, e depois refina em alta resolução antes de decodificar para quadros e multiplexar uma trilha sonora sincronizada.
O fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 é ideal para testes rápidos de animação de personagens, conceitos de movimento estilo D‑Human e experimentos polidos de texto para vídeo. Não depende de entradas de imagem para vídeo ou retransmissões de prompt; tudo começa a partir do texto, com o condicionamento LTXV guiando tanto os latentes de vídeo quanto de áudio de ponta a ponta.
Modelos principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
- Lightricks LTX‑2.3. Gerador de texto para vídeo principal usado para síntese espaço-temporal e latentes AV multimodais. Veja o repositório oficial do modelo para pesos e notas sobre capacidades e limitações. Hugging Face: Lightricks/LTX-2.3
- Lightricks LTX‑2.3 FP8 checkpoint. Variante de memória eficiente do LTX‑2.3 que acelera a inferência e permite clipes mais longos ou resoluções mais altas em GPUs limitadas. Hugging Face: Lightricks/LTX-2.3-fp8
- Modelo base Sulphur 2. Fornece antecedentes de estilo e detalhes de personagem via LoRA neste fluxo de trabalho, ajudando a alcançar rostos nítidos e tonalidade cinematográfica. Hugging Face: SulphurAI/Sulphur-2-base
- LTX‑2.3 Spatial Upscaler x2 1.1. Ampliador de espaço latente que aumenta o detalhe espacial antes da passagem de refinamento de alta resolução. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
- Codificador de texto LTX (Gemma 3 12B IT embalado para LTX). Fornece o espaço de incorporação de texto correspondente ao condicionamento LTX‑2.3 para seguir fielmente o prompt. Hugging Face: Comfy-Org/ltx-2
- LTX Audio VAE. Decodifica o latente de áudio gerado junto com o vídeo para que a renderização final possa incluir uma trilha sonora sincronizada. Hugging Face: Lightricks/LTX-2.3
Como usar o fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
Lógica geral O pipeline funciona em três atos: geração de baixa resolução para estabelecer movimento e composição, ampliação latente para aumentar o detalhe espacial, e uma passagem de refinamento de alta resolução que também produz o áudio final. Os latentes são decodificados para quadros e formas de onda, depois multiplexados em um contêiner MP4 pronto para entrega.
Configurações de Vídeo Use o grupo "Configurações de Vídeo" para definir largura, altura, taxa de quadros e duração. A contagem de quadros é calculada automaticamente a partir da sua duração e fps para que o tempo e a cadência permaneçam consistentes. Esses valores impulsionam a alocação e decodificação latente, portanto, defina-os primeiro para corresponder à sua proporção de aspecto e tempo de execução desejados. Ajustar o fps aqui também informa o condicionamento para que a suavidade do movimento e o alinhamento do áudio usem o mesmo relógio.
Prompt Em "Prompt", carregue o codificador de texto LTX com LTXAVTextEncoderLoader (#316), depois escreva sua descrição positiva em CLIPTextEncode (#303) e quaisquer características indesejadas em CLIPTextEncode (#312). O nó LTXVConditioning (#304) mescla o condicionamento positivo e negativo e adiciona a taxa de quadros escolhida para que a orientação temporal corresponda ao seu fps. Trate o prompt positivo como um resumo de cena: sujeito, câmera, iluminação, humor e dicas de estilo. Mantenha a lista negativa focada em artefatos que você vê regularmente e deseja remover.
Modelo O grupo "Modelo" carrega o checkpoint principal via CheckpointLoaderSimple (#315) e aplica um Sulphur 2 LoRA com LoraLoaderModelOnly (#285) para infundir textura cinematográfica e fidelidade de personagem. É aqui que você pode trocar checkpoints ou LoRAs para alterar o visual geral e os antecedentes de movimento. A saída do modelo é direcionada tanto para os guias iniciais quanto de refinamento para que o estilo e a identidade sejam consistentes em todas as passagens. Emparelhar LTX‑2.3 com Sulphur 2 produz contraste marcante e rostos detalhados que se destacam em movimento.
Conversão de número Expressões utilitárias convertem seu fps e segundos na contagem de quadros inteiros usada a jusante. Isso mantém as linhas do tempo de áudio e vídeo alinhadas sem matemática manual. Se você revisar fps ou duração mais tarde, o gráfico atualiza automaticamente os nós dependentes.
Latente Vazio "Latente Vazio" cria contêineres alinhados para geração: EmptyLTXVLatentVideo (#295) define o tamanho espacial e a duração do latente de vídeo, LTXVEmptyLatentAudio (#305) aloca o latente de áudio na mesma taxa de quadros, e LTXVConcatAVLatent (#321) os mescla em um único latente AV. Começar com latentes vazios garante que a passagem de difusão reflita totalmente seu prompt e condicionamento em vez de qualquer conteúdo preexistente.
Gerar Baixa Resolução A primeira etapa de amostragem estabelece movimento e composição a um custo menor. CFGGuider (#313), KSamplerSelect (#291), e ManualSigmas (#306) governam quão fortemente o prompt orienta a geração e o cronograma geral de ruído. SamplerCustomAdvanced (#283) então denoise o latente AV em um clipe coerente. O resultado é dividido por LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) refina a atenção espacial para que o enquadramento do sujeito que você deseja seja preservado durante a ampliação posterior.
Ampliação Latente LTXVLatentUpsampler (#287) usa o ampliador x2 LTX‑2.3 para elevar o detalhe espacial enquanto permanece no espaço latente para velocidade e estabilidade. Alimentar o latente de vídeo ampliado para frente melhora a textura e a legibilidade antes do refinamento de alta resolução. Isso preserva o movimento que você gostou da primeira passagem enquanto abre espaço para bordas mais nítidas e materiais mais ricos.
Gerar Alta Resolução O latente de vídeo ampliado é reunido com o latente de áudio em LTXVConcatAVLatent (#278) e guiado novamente para qualidade final. CFGGuider (#282), KSamplerSelect (#280), e ManualSigmas (#281) dão a palavra final sobre a força do prompt, detalhe, e coerência temporal, com SamplerCustomAdvanced (#308) produzindo o latente AV refinado. LTXVSeparateAVLatent (#309) entrega o vídeo para VAEDecodeTiled (#314) para decodificação de quadros amigável à memória e o áudio para LTXVAudioVAEDecode (#297) para reconstrução de forma de onda. CreateVideo (#310) multiplexa quadros e áudio na sua taxa de fps alvo, e SaveVideo (#75) grava um arquivo MP4/H.264.
Pré-processamento de Imagem Esta área roteia os modelos base VAE e ampliadores para que a telagem e a ampliação latente funcionem dentro do seu orçamento de VRAM. Se você experimentar pressão de memória, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação telada habilitada para manter o rendimento e a qualidade.
Nós principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#
LTXVConditioning (#304) Mescla o condicionamento de texto positivo e negativo e anexa a taxa de quadros de trabalho para que a orientação temporal corresponda ao seu render. Linguagem de cena forte e específica melhora a estrutura do tiro; negativos concisos reduzem os artefatos. Veja o cartão de modelo LTX‑2.3 para notas de condicionamento. Hugging Face: Lightricks/LTX-2.3
LTXVCropGuides (#284) Orienta suavemente a composição para manter o sujeito principal enquadrado conforme pretendido. Use-o para proteger o tamanho do rosto, a colocação do horizonte, ou um sujeito centralizado antes de ampliação e refinamento. É especialmente útil para tomadas de estilo de diálogo e close-ups médios.
CFGGuider (#313, #282) Controla quão agressivamente o prompt influencia a trajetória de difusão em ambas as passagens. Use o primeiro guia para travar movimento e encenação, depois o segundo para adicionar nitidez sem se afastar do tiro estabelecido.
ManualSigmas (#306, #281) Define o cronograma de ruído. Carregar mais ruído na frente incentiva uma exploração de movimento maior; um cronograma mais suave enfatiza a consistência temporal. Mantenha os cronogramas de baixa e alta resolução complementares em vez de idênticos.
LTXVLatentUpsampler (#287) Realiza ampliação latente x2 usando o ampliador oficial LTX para ganhar detalhe antes do amostrador de refinamento. Trocar para outra variante de ampliador LTX‑2.3 pode mudar ligeiramente a nitidez e o grão. Hugging Face: Lightricks/LTX-2.3
VAEDecodeTiled (#314) Decodifica clipes longos ou grandes em telhas gerenciáveis para evitar picos de VRAM. Se você mudar o tamanho espacial ou o comprimento do clipe, ajuste a telagem para equilibrar a margem de memória e a velocidade de decodificação.
LoraLoaderModelOnly (#285) Aplica o Sulphur 2 LoRA ao caminho do modelo base para que a fidelidade do personagem e as dicas de estilo sejam transferidas para ambas as etapas de amostragem. Use isso para trocar visuais rapidamente enquanto mantém a mesma base LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base
Extras opcionais#
- Controle de semente: defina valores fixos em ambos os nós
RandomNoisepara que as tomadas sejam reprodutíveis; mude uma semente para explorar alternativas. - Prompting: escreva prompts como direções de cena (sujeito, câmera, iluminação, humor). Mantenha a lista negativa focada e curta.
- Desempenho: se o VRAM for limitado, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação telada habilitada.
- Saída: o gráfico grava MP4/H.264; mude o contêiner ou codec em
SaveVideose você precisar de fluxos de trabalho de proxy ProRes.
Este fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 oferece um caminho limpo, de ponta a ponta, do prompt ao vídeo polido com áudio sincronizado, construído para iteração rápida em animação cinematográfica de personagens.
Agradecimentos#
Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos enormemente ao RunningHub pelo Workflow Básico Sulphur2 para Produção de Vídeo, SulphurAI pelo modelo Sulphur-2-base, Lightricks pelos modelos LTX-2.3 e LTX-2.3-fp8, e Comfy-Org pelo codificador de texto LTX-2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios listados abaixo.
Recursos#
- RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Notas de Lançamento: Sulphur2 Basic Workflow for Video Production
- SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
- Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2
Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

