Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no ComfyUI

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Workflow

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Examples

Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 para animação cinematográfica de personagens#

Este pipeline ComfyUI transforma prompts de linguagem natural em vídeos curtos, cinematográficos, focados em personagens com áudio opcional, construído em torno dos componentes Lightricks LTX‑2.3 e Sulphur 2. Ele organiza a geração em baixa resolução para planejamento de movimento, escala a sequência latente, e depois refina em alta resolução antes de decodificar para quadros e multiplexar uma trilha sonora sincronizada.

O fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 é ideal para testes rápidos de animação de personagens, conceitos de movimento estilo D‑Human e experimentos polidos de texto para vídeo. Não depende de entradas de imagem para vídeo ou retransmissões de prompt; tudo começa a partir do texto, com o condicionamento LTXV guiando tanto os latentes de vídeo quanto de áudio de ponta a ponta.

Modelos principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

Lightricks LTX‑2.3. Gerador de texto para vídeo principal usado para síntese espaço-temporal e latentes AV multimodais. Veja o repositório oficial do modelo para pesos e notas sobre capacidades e limitações. Hugging Face: Lightricks/LTX-2.3
Lightricks LTX‑2.3 FP8 checkpoint. Variante de memória eficiente do LTX‑2.3 que acelera a inferência e permite clipes mais longos ou resoluções mais altas em GPUs limitadas. Hugging Face: Lightricks/LTX-2.3-fp8
Modelo base Sulphur 2. Fornece antecedentes de estilo e detalhes de personagem via LoRA neste fluxo de trabalho, ajudando a alcançar rostos nítidos e tonalidade cinematográfica. Hugging Face: SulphurAI/Sulphur-2-base
LTX‑2.3 Spatial Upscaler x2 1.1. Ampliador de espaço latente que aumenta o detalhe espacial antes da passagem de refinamento de alta resolução. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
Codificador de texto LTX (Gemma 3 12B IT embalado para LTX). Fornece o espaço de incorporação de texto correspondente ao condicionamento LTX‑2.3 para seguir fielmente o prompt. Hugging Face: Comfy-Org/ltx-2
LTX Audio VAE. Decodifica o latente de áudio gerado junto com o vídeo para que a renderização final possa incluir uma trilha sonora sincronizada. Hugging Face: Lightricks/LTX-2.3

Como usar o fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

Lógica geral O pipeline funciona em três atos: geração de baixa resolução para estabelecer movimento e composição, ampliação latente para aumentar o detalhe espacial, e uma passagem de refinamento de alta resolução que também produz o áudio final. Os latentes são decodificados para quadros e formas de onda, depois multiplexados em um contêiner MP4 pronto para entrega.

Configurações de Vídeo Use o grupo "Configurações de Vídeo" para definir largura, altura, taxa de quadros e duração. A contagem de quadros é calculada automaticamente a partir da sua duração e fps para que o tempo e a cadência permaneçam consistentes. Esses valores impulsionam a alocação e decodificação latente, portanto, defina-os primeiro para corresponder à sua proporção de aspecto e tempo de execução desejados. Ajustar o fps aqui também informa o condicionamento para que a suavidade do movimento e o alinhamento do áudio usem o mesmo relógio.

Prompt Em "Prompt", carregue o codificador de texto LTX com LTXAVTextEncoderLoader (#316), depois escreva sua descrição positiva em CLIPTextEncode (#303) e quaisquer características indesejadas em CLIPTextEncode (#312). O nó LTXVConditioning (#304) mescla o condicionamento positivo e negativo e adiciona a taxa de quadros escolhida para que a orientação temporal corresponda ao seu fps. Trate o prompt positivo como um resumo de cena: sujeito, câmera, iluminação, humor e dicas de estilo. Mantenha a lista negativa focada em artefatos que você vê regularmente e deseja remover.

Modelo O grupo "Modelo" carrega o checkpoint principal via CheckpointLoaderSimple (#315) e aplica um Sulphur 2 LoRA com LoraLoaderModelOnly (#285) para infundir textura cinematográfica e fidelidade de personagem. É aqui que você pode trocar checkpoints ou LoRAs para alterar o visual geral e os antecedentes de movimento. A saída do modelo é direcionada tanto para os guias iniciais quanto de refinamento para que o estilo e a identidade sejam consistentes em todas as passagens. Emparelhar LTX‑2.3 com Sulphur 2 produz contraste marcante e rostos detalhados que se destacam em movimento.

Conversão de número Expressões utilitárias convertem seu fps e segundos na contagem de quadros inteiros usada a jusante. Isso mantém as linhas do tempo de áudio e vídeo alinhadas sem matemática manual. Se você revisar fps ou duração mais tarde, o gráfico atualiza automaticamente os nós dependentes.

Latente Vazio "Latente Vazio" cria contêineres alinhados para geração: EmptyLTXVLatentVideo (#295) define o tamanho espacial e a duração do latente de vídeo, LTXVEmptyLatentAudio (#305) aloca o latente de áudio na mesma taxa de quadros, e LTXVConcatAVLatent (#321) os mescla em um único latente AV. Começar com latentes vazios garante que a passagem de difusão reflita totalmente seu prompt e condicionamento em vez de qualquer conteúdo preexistente.

Gerar Baixa Resolução A primeira etapa de amostragem estabelece movimento e composição a um custo menor. CFGGuider (#313), KSamplerSelect (#291), e ManualSigmas (#306) governam quão fortemente o prompt orienta a geração e o cronograma geral de ruído. SamplerCustomAdvanced (#283) então denoise o latente AV em um clipe coerente. O resultado é dividido por LTXVSeparateAVLatent (#307), e LTXVCropGuides (#284) refina a atenção espacial para que o enquadramento do sujeito que você deseja seja preservado durante a ampliação posterior.

Ampliação Latente LTXVLatentUpsampler (#287) usa o ampliador x2 LTX‑2.3 para elevar o detalhe espacial enquanto permanece no espaço latente para velocidade e estabilidade. Alimentar o latente de vídeo ampliado para frente melhora a textura e a legibilidade antes do refinamento de alta resolução. Isso preserva o movimento que você gostou da primeira passagem enquanto abre espaço para bordas mais nítidas e materiais mais ricos.

Gerar Alta Resolução O latente de vídeo ampliado é reunido com o latente de áudio em LTXVConcatAVLatent (#278) e guiado novamente para qualidade final. CFGGuider (#282), KSamplerSelect (#280), e ManualSigmas (#281) dão a palavra final sobre a força do prompt, detalhe, e coerência temporal, com SamplerCustomAdvanced (#308) produzindo o latente AV refinado. LTXVSeparateAVLatent (#309) entrega o vídeo para VAEDecodeTiled (#314) para decodificação de quadros amigável à memória e o áudio para LTXVAudioVAEDecode (#297) para reconstrução de forma de onda. CreateVideo (#310) multiplexa quadros e áudio na sua taxa de fps alvo, e SaveVideo (#75) grava um arquivo MP4/H.264.

Pré-processamento de Imagem Esta área roteia os modelos base VAE e ampliadores para que a telagem e a ampliação latente funcionem dentro do seu orçamento de VRAM. Se você experimentar pressão de memória, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação telada habilitada para manter o rendimento e a qualidade.

Nós principais no fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 no Comfyui#

LTXVConditioning (#304) Mescla o condicionamento de texto positivo e negativo e anexa a taxa de quadros de trabalho para que a orientação temporal corresponda ao seu render. Linguagem de cena forte e específica melhora a estrutura do tiro; negativos concisos reduzem os artefatos. Veja o cartão de modelo LTX‑2.3 para notas de condicionamento. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) Orienta suavemente a composição para manter o sujeito principal enquadrado conforme pretendido. Use-o para proteger o tamanho do rosto, a colocação do horizonte, ou um sujeito centralizado antes de ampliação e refinamento. É especialmente útil para tomadas de estilo de diálogo e close-ups médios.

CFGGuider (#313, #282) Controla quão agressivamente o prompt influencia a trajetória de difusão em ambas as passagens. Use o primeiro guia para travar movimento e encenação, depois o segundo para adicionar nitidez sem se afastar do tiro estabelecido.

ManualSigmas (#306, #281) Define o cronograma de ruído. Carregar mais ruído na frente incentiva uma exploração de movimento maior; um cronograma mais suave enfatiza a consistência temporal. Mantenha os cronogramas de baixa e alta resolução complementares em vez de idênticos.

LTXVLatentUpsampler (#287) Realiza ampliação latente x2 usando o ampliador oficial LTX para ganhar detalhe antes do amostrador de refinamento. Trocar para outra variante de ampliador LTX‑2.3 pode mudar ligeiramente a nitidez e o grão. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) Decodifica clipes longos ou grandes em telhas gerenciáveis para evitar picos de VRAM. Se você mudar o tamanho espacial ou o comprimento do clipe, ajuste a telagem para equilibrar a margem de memória e a velocidade de decodificação.

LoraLoaderModelOnly (#285) Aplica o Sulphur 2 LoRA ao caminho do modelo base para que a fidelidade do personagem e as dicas de estilo sejam transferidas para ambas as etapas de amostragem. Use isso para trocar visuais rapidamente enquanto mantém a mesma base LTX‑2.3. Hugging Face: SulphurAI/Sulphur-2-base

Extras opcionais#

Controle de semente: defina valores fixos em ambos os nós RandomNoise para que as tomadas sejam reprodutíveis; mude uma semente para explorar alternativas.
Prompting: escreva prompts como direções de cena (sujeito, câmera, iluminação, humor). Mantenha a lista negativa focada e curta.
Desempenho: se o VRAM for limitado, prefira os pesos FP8 LTX‑2.3 e mantenha a decodificação telada habilitada.
Saída: o gráfico grava MP4/H.264; mude o contêiner ou codec em SaveVideo se você precisar de fluxos de trabalho de proxy ProRes.

Este fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 oferece um caminho limpo, de ponta a ponta, do prompt ao vídeo polido com áudio sincronizado, construído para iteração rápida em animação cinematográfica de personagens.

Agradecimentos#

Este fluxo de trabalho implementa e se baseia nos seguintes trabalhos e recursos. Agradecemos enormemente ao RunningHub pelo Workflow Básico Sulphur2 para Produção de Vídeo, SulphurAI pelo modelo Sulphur-2-base, Lightricks pelos modelos LTX-2.3 e LTX-2.3-fp8, e Comfy-Org pelo codificador de texto LTX-2 por suas contribuições e manutenção. Para detalhes autoritativos, consulte a documentação original e os repositórios listados abaixo.

Recursos#

RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Notas de Lançamento: Sulphur2 Basic Workflow for Video Production
SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2

Nota: O uso dos modelos, conjuntos de dados e código referenciados está sujeito às respectivas licenças e termos fornecidos por seus autores e mantenedores.

Want More ComfyUI Workflows?

LTX 2.3 Sulphur 2 Prompt Relay Workflow | Criador de Vídeo Cinematográfico

Transforma imagens estáticas em vídeos cinematográficos controlados por movimento instantaneamente.

LTX-2 ControlNet | Gerador de Vídeo de Precisão

Controle preciso, sincronização perfeita, criação de vídeo de IA super clara.

LTX-2 First Last Frame | Gerador de Vídeo de Quadros-Chave

Transforme quadros estáticos em transições de vídeo e som suaves rapidamente.

LTX 2.3 Movie Builder Workflow | Gerador de Filmes com IA

Transforme prompts em histórias cinematográficas completas com total controle criativo.

LTX 2.3 Imagem para Vídeo | Criador de Movimento Cinematográfico

Transforme imagens em vídeos realistas e cinematográficos com movimento suave e consistente.

Substituição de Personagem & Pose & Fundo V3 | Wan2.2 Animate + SAM3.1 + SDPose

Troque personagens, poses e cenas rapidamente com total controle criativo.

ICEdit | Edição de Imagens com IA Rápida com Nunchaku

ICEdit+Nunchaku: Uma solução para edição de imagens com IA ultra-rápida e precisa.

FramePack Wrapper | Geração de Vídeo Longo Eficiente

Crie vídeos estáveis, com mais de 60s, usando recursos mínimos de nuvem.

Suporte

Recursos

Legal

RunComfy

RunComfy é a principal ComfyUI plataforma, oferecendo ComfyUI online ambiente e serviços, juntamente com fluxos de trabalho do ComfyUI apresentando visuais impressionantes. RunComfy também oferece AI Models, permitindo que artistas utilizem as mais recentes ferramentas de AI para criar arte incrível.

Fluxo de trabalho de texto para vídeo LTX 2.3 Sulphur 2 | Gerador Cinematográfico