Guia de Treinamento LoRA LTX-2 com Ostris AI Toolkit

LTX-2 é um modelo base Diffusion Transformer (DiT) de pesos abertos projetado para gerar vídeo e áudio sincronizados dentro de um único modelo. Diferente dos modelos de vídeo "silenciosos", ele é construído como um sistema conjunto de áudio-vídeo para que movimento e som possam se alinhar no tempo. Na versão oficial, a família de checkpoints principal é de classe 19B (com uma variante "dev" treinável, múltiplas variantes quantizadas e uma variante destilada acelerada).

Este guia foca no Treinamento LoRA LTX-2 usando Ostris AI Toolkit. O objetivo é torná-lo produtivo rapidamente: para que o LTX-2 é bom, quais dados preparar, quais configurações do AI Toolkit importam e quais são "seguras" para uma primeira execução.

Se você não quer instalar o AI Toolkit localmente, pode executá-lo no navegador nas GPUs cloud da RunComfy (H100 / H200).

▶ Comece aqui: RunComfy cloud AI Toolkit

Índice

1. Por que o LTX-2 se comporta diferente de outros alvos de vídeo LoRA
2. Para que os LoRAs LTX-2 são melhores
3. Preparação do dataset para Treinamento LoRA LTX-2
4. Como o Ostris AI Toolkit entende o treinamento
5. Passo a passo: Como treinar LoRA LTX-2 no AI Toolkit
6. Expectativas de tempo no Treinamento LoRA LTX-2
7. Problemas comuns no Treinamento LoRA LTX-2 (e como corrigir)
8. Treinamento LoRA LTX-2: FAQ Rápido
9. Usando seu LoRA LTX-2 após o treinamento
10. Saiba mais: Outros guias de treinamento LoRA do AI Toolkit

1. Por que o LTX-2 se comporta diferente de outros alvos de vídeo LoRA

Algumas especificidades do LTX-2 moldam diretamente como você deve abordar o Treinamento LoRA LTX-2:

Áudio-vídeo é nativo: O LTX-2 é construído para gerar áudio e visuais sincronizados em um modelo (não é um complemento). Isso é ótimo para "takes finalizados" (diálogo, ambiente, foley), mas também significa que o finetuning consciente de áudio depende de se seu trainer realmente atualiza o caminho de áudio e os componentes cross-modais (muitos stacks de treinamento de terceiros começam com finetuning apenas de vídeo).
É grande (checkpoints de classe 19B): Você sentirá isso na VRAM, tempo por step e no fato de que "ranks pequenos" frequentemente subajustam. A lista oficial de checkpoints inclui:

ltx-2-19b-dev (treinável em bf16),
variantes dev quantizadas (fp8 / nvfp4),
e ltx-2-19b-distilled (inferência acelerada, 8 steps, CFG=1).

Restrições rígidas de forma: Largura/altura devem ser divisíveis por 32, e a contagem de frames deve ser divisível por 8 + 1 (ou seja, 8n+1: 1, 9, 17, 25, …, 121, …). Se sua entrada não corresponde, você tipicamente precisa fazer padding (comumente com -1) e então recortar de volta para o tamanho/contagem de frames alvo.

2. Para que os LoRAs LTX-2 são melhores

Na prática, ao realizar o LTX-2 19B treinamento LoRA, estas são as direções mais valiosas:

LoRAs de Personagem / identidade: rosto consistente, figurino, props, look de "personagem de marca" e identidade estável através de movimentos de câmera.
LoRAs de Estilo: direção de arte (linguagem de iluminação, estilo de renderização, lentes, atmosfera de film stock), enquanto mantém os sujeitos flexíveis.
LoRAs de Movimento / coreografia: um padrão de movimento específico (estilo de ciclo de caminhada, sabor de dança, locomoção de criatura), ou "como o mundo se move" (tremor de câmera na mão, timing de animação).
LoRAs de Comportamento de câmera: dolly-in/out, sensação de guindaste/jib, linguagem de câmera orbital, estabilizado vs câmera na mão.
(Avançado) LoRAs de Áudio: paleta de ambiente consistente, estilo de foley ou características semelhantes a voz—apenas se seu stack de treinamento suporta finetuning do branch de áudio.

Se você só tem imagens (não vídeo), ainda pode treinar identidade/estilo efetivamente, mas não deve esperar que aprenda padrões de movimento temporal de frames individuais.

3. Preparação do dataset para Treinamento LoRA LTX-2

3.1 Escolher o "orçamento" certo de comprimento de clip + resolução

O custo do Treinar LoRA LTX2 escala tanto com o tamanho espacial quanto com a contagem de frames. Para um primeiro LoRA, mantenha simples:

Starter de Identidade / estilo:

Resolução: 512–768-ish (dependendo da sua GPU)
Frames: 49 ou 81 (clips mais curtos treinam mais rápido; ainda suficiente para consistência temporal)

Starter de Movimento / câmera:

Resolução: 512 (ou 768 se você tiver margem)
Frames: 121 (bom para aprender movimento; ~5 segundos a 24 fps)

Lembre-se da restrição: frames devem ser 8n+1.

3.2 Datasets de vídeo vs imagem (ambos são válidos)

Muitos assumem que o Treinamento LoRA LTX-2 requer datasets apenas de vídeo. Na realidade, a maioria dos stacks de treinamento práticos pode trabalhar com ambos:

Datasets apenas de imagem (tratam cada amostra como um "clip de 1 frame"), ou
Datasets de vídeo (clips curtos coerentes).

Se você está usando o AI Toolkit, geralmente é mais simples manter cada entrada de dataset homogênea (todas imagens ou todos vídeos) e usar entradas de dataset separadas se precisar misturar modalidades.

Para imagens: frames = 1 satisfaz 8n+1.
Para vídeos: use clips curtos e coerentes; evite segmentos longos multi-cena.

Isso é importante para trabalho de personagem: você pode inicializar identidade a partir de imagens, depois refinar movimento com clips curtos.

3.3 Quantos dados você precisa (escala realista)?

Não há um "mínimo oficial" único, mas estes intervalos são pontos de partida realistas para o ltx-2-19b LoRA:

LoRAs baseados em imagem (identidade / props / estilo): comece com ~20–50 imagens limpas e variadas. Se você quer robustez mais forte através de iluminação, lentes e composições, ~50–150 imagens curadas geralmente ajuda mais do que repetir quase-duplicatas.
LoRAs baseados em vídeo (movimento / câmera / consistência temporal): mire em ~20–60 clips curtos e coerentes (takes de ação única) ao invés de alguns vídeos longos. Para objetivos mais amplos ou mais ricos em movimento, escalar para ~50–150 clips curtos (ou aproximadamente ~10–30 minutos de filmagem "boa") tende a produzir resultados notavelmente mais estáveis.

3.4 A qualidade das captions importa mais do que você pensa

O LTX-2 responde bem a captions mais longas e descritivas, especialmente se você quer resultados controláveis. Se seus clips incluem fala ou sinais sonoros chave, inclua-os nas captions (ou trechos de transcrição) quando seu stack de treinamento suportar.

Dicas práticas de caption:

Para LoRAs de identidade: inclua tokens de identidade consistentes (e varie todo o resto: iluminação, figurino, fundo, lente).
Para LoRAs de estilo: mantenha os descritores de estilo consistentes e varie sujeitos/ações.
Para LoRAs de movimento: descreva a ação precisamente (tempo, mecânica corporal, movimento de câmera).

3.5 A regularização é sua ferramenta "anti-bleed" (use quando o LoRA é estreito)

Se você está treinando um conceito estreito (um personagem, um produto), é fácil sobreajustar e obter "tudo parece com meu dataset". No AI Toolkit, Differential Output Preservation (DOP) é projetado para reduzir esse tipo de deriva, e combina naturalmente com um dataset de "regularização".

Um set de reg simples:

Clips/imagens genéricos em enquadramento similar ao seu dataset principal
Captions que correspondem ao domínio geral (mas não seu token de identidade único)

4. Como o Ostris AI Toolkit entende o treinamento

O AI Toolkit é essencialmente um motor de treinamento consistente envolto em uma UI: você escolhe uma família de modelo, anexa datasets, define um alvo LoRA + rank e ajusta otimização + sampling. Os painéis da UI mapeiam claramente para a configuração de treinamento subjacente: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

O que isso significa para você: você não precisa de scripts específicos de modelo para o básico, o mesmo modelo mental (rank/steps/LR/caching/regularização) se aplica, mas o tamanho e natureza de vídeo do LTX-2 tornam algumas configurações mais "sensíveis" (rank, otimizações de VRAM, frames).

Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit para que os painéis da UI e parâmetros principais façam sentido antes de ajustar especificidades do LTX-2:

Visão geral do treinamento LoRA do AI Toolkit

Se você está decidindo onde executar:

AI Toolkit local: melhor se você já tem uma GPU compatível e quer controle total sobre seu ambiente.
RunComfy cloud AI Toolkit: melhor se você quer pular a configuração, treinar em GPUs de alta VRAM e iterar mais rápido com menos problemas de "não roda na minha máquina"—especialmente útil para os checkpoints maiores do LTX-2 e cargas de trabalho de vídeo. ▶ Abra RunComfy cloud AI Toolkit

5. Passo a passo: Como treinar LoRA LTX-2 no AI Toolkit

5.1 Crie seu dataset no AI Toolkit

No painel Datasets / seção Dataset do job:

Target Dataset: seu dataset enviado
Default Caption: deixe em branco a menos que precise de um sufixo global
Caption Dropout Rate: comece em torno de 0.05 (ajuda na generalização)
Cache Latents: ON se você pode dispensar espaço em disco (grande ganho de velocidade em repetições, mas caches de latents de vídeo crescem rápido)
Num Frames:

1 para datasets apenas de imagem
49 / 81 / 121 para vídeo, dependendo do seu objetivo

Resolutions: comece com 512 + 768 habilitados; evite 1024+ até ter provado seu setup

Se você está fazendo um LoRA de identidade estreito, adicione uma segunda entrada de dataset e marque como Is Regularization (e mantenha seu peso menor ou igual, dependendo de quão agressiva você quer a preservação).

5.2 Novo Training Job → Model

Na seção Model:

Model Architecture: LTX-2 (se disponível no seu build)
Name or Path: o Hugging Face model id para o modelo base (ex. Lightricks/LTX-2)
Seleção de checkpoint: escolha o checkpoint dev para o LTX-2 trainer LoRA:

ltx-2-19b-dev é o modelo completo e é treinável em bf16.
O checkpoint distilled é principalmente para inferência rápida (8 steps, CFG=1) e não é o ponto de partida padrão para treinamento LoRA a menos que você especificamente queira adaptar o comportamento destilado.

5.3 Quantização + opções de VRAM

O LTX-2 é grande, então você frequentemente usará quantização/offload:

Se você está em VRAM classe H100/H200, pode frequentemente rodar bf16 mais confortavelmente.
Se você está em GPUs de 24–48 GB, quantização e modos "Low VRAM" se tornam essenciais.

Duas notas práticas:

O próprio LTX-2 vem com variantes quantizadas oficiais (fp8 / nvfp4) do modelo completo; se você pode treinar a partir desses pesos depende da sua implementação do trainer.
Separadamente, otimizadores de 8 bits (ex. AdamW8bit) são comumente usados para tornar o treinamento prático em hardware de consumidor.

5.4 Target = LoRA + Rank

Aqui é onde o Treinamento LoRA LTX-2 difere de modelos menores.

Target Type: LoRA
Linear Rank: comece em 32

Muitos trainers de LoRA LTX-2 reportam que rank 32 é um mínimo prático para resultados sólidos.
Se você tem margem de VRAM e quer mais capacidade (estilo complexo, multi-conceito), teste 64.

5.5 Hiperparâmetros de treinamento (uma primeira execução sólida)

Comece com valores que não vão explodir:

Batch Size: 1 (vídeo quase sempre termina aqui)
Gradient Accumulation: 2–4 se você quer um batch efetivo mais estável (e pode se dar ao tempo)
Steps:

2.000–3.000 para uma primeira passada
vá mais longo se você tem um dataset maior ou estilo sutil

Optimizer: AdamW8bit (escolha comum para eficiência de VRAM)
Learning Rate: 0.0001 para começar, 0.00005 se você vê sobreajuste ou "burn-in" de identidade muito rápido
Weight Decay: ~0.0001
Timestep Type / Bias: mantenha os defaults a menos que você saiba por que está mudando
DOP / Blank Prompt Preservation: habilite DOP se você vê bleed de estilo ou perda de versatilidade base.

5.6 Sampling durante o treinamento (não pule isso)

O sampling é seu sistema de alerta antecipado para o Treinamento LoRA LTX-2. Use-o.

Sample Every: 250 steps (boa cadência)
Sampler / Scheduler: comece com o que seu preset do LTX-2 usa por padrão, e só experimente depois de ter uma baseline.
Guidance + steps dependem de qual checkpoint você está sampleando:

Para execuções dev, um ponto de partida comum é guidance ~4 com 25–30 steps de sampling.
Para distilled, o comportamento publicado é 8 steps, CFG=1, então sample com guidance = 1 e steps = 8 (ou você terá confusão de "por que isso parece pior?").

Width/Height/Frames: combine com seu bucket de treinamento (ou um alvo representativo)

Escreva prompts de amostra que correspondam ao seu uso real:

Inclua sua palavra trigger (para LoRAs de identidade).
Inclua descritores de câmera/movimento se esses importam.
Mantenha um prompt "chato" que revela sobreajuste (iluminação simples, ação simples).

6. Expectativas de tempo no Treinamento LoRA LTX-2

Não há um número universal, trate o tempo de execução como uma estimativa prática que pode variar com frames/resolução, escolhas de offload/quantização e com que frequência você faz sampling.

Um modelo mental realista:

Frames são frequentemente a maior alavanca: 121 → 81 → 49 pode ser a diferença entre "isso treina" e "isso rasteja / OOMs."
Overhead de sampling pode rivalizar com o tempo de treinamento se você faz sampling de vídeos grandes frequentemente.

Como ponto de referência aproximado: em um H100, com um dataset de vídeo pequeno (~20 clips, 3–5s cada), batch=1, rank=32 e gradient checkpointing habilitado, é comum ver segundos de um dígito por step de treinamento em um bucket de resolução 768-ish com um bucket de frames de comprimento médio (ex., 49–81 frames). Seu tempo exato por step variará muito com I/O, caching e se você está fazendo pré-processamento consciente de áudio.

Também faça orçamento para sampling: uma prévia de "3 prompts × 25 steps × 121 frames @ 1024×768" pode facilmente levar minutos cada vez que roda. Se você faz sampling a cada 250 steps, esse overhead pode se acumular rapidamente através de uma execução de 2.000 steps.

7. Problemas comuns no Treinamento LoRA LTX-2 (e como corrigir)

Contagens de frames erradas: se seu dataset usa 120 frames ao invés de 121, você terá erros ou mismatch silencioso. Mantenha contagens de frames 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
Tamanhos errados: largura/altura devem ser divisíveis por 32. Se você está usando um pipeline que não faz auto-pad, redimensione/bucket adequadamente.
Rank muito baixo: sintomas são "treina mas nada muda," ou força de identidade/estilo fraca mesmo em escala LoRA 1.0. Tente rank 32.
Sobreajuste / LoRA bleed: seu sujeito aparece em prompts não relacionados. Habilite DOP e adicione um dataset de reg.
Captions muito curtas: aderência ao prompt colapsa. Expanda captions (o quê, onde, câmera, movimento, humor; mais sinais de áudio/transcrição se relevante).
Confusão de sampling destilado: se você está sampleando o checkpoint destilado com 25+ steps ou CFG>1, você não está testando como pretendido. Use 8 steps, CFG=1 para prévias destiladas.
VRAM OOM: reduza frames primeiro (121 → 81 → 49), depois reduza resolução (768 → 512), depois ative offload/quantização/caching.

8. Treinamento LoRA LTX-2: FAQ Rápido

Posso treinar um LoRA LTX-2 apenas de imagens?

Sim, use um dataset apenas de imagem e defina a contagem de frames para 1. Ótimo para identidade e estilo. Não tão bom para aprender movimento.

Checkpoint dev vs destilado para treinamento LoRA?

Comece com ltx-2-19b-dev para o Treinamento LoRA LTX-2; é explicitamente descrito como flexível/treinável em bf16. Checkpoints destilados são principalmente para inferência rápida (8 steps, CFG=1).

Qual rank devo usar?

Comece em 32. É onde muitos trainers LTX-2 iniciais estão chegando para "realmente aprende."

Por que minhas amostras parecem tremidas ou inconsistentes?

Geralmente uma mistura de: clips muito longos para sua VRAM (forçando offload agressivo), captions não descrevendo movimento/câmera, ou configurações de sampling que não correspondem ao checkpoint (especialmente sampleando destilado como se fosse dev). Reduza frames, ajuste captions e alinhe guidance/steps ao checkpoint que você está sampleando.

9. Usando seu LoRA LTX-2 após o treinamento

Uma vez que o treinamento está completo, você pode usar seu LoRA LTX-2 de duas formas simples:

Run LoRA – abra a página Run LoRA do LTX-2. Nesta página de inferência do modelo base, você pode selecionar um asset de LoRA que treinou no RunComfy ou importar um arquivo LoRA treinado no AI Toolkit, e então rodar a inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit da sua config de treino, então o que você viu durante o training é o que você obtém na inferência — esse alinhamento training/inference ajuda a manter resultados consistentes com os seus samples de treino.
Workflows ComfyUI – inicie uma instância de ComfyUI, monte seu workflow, conecte seu LoRA e ajuste o peso do LoRA e outras configurações para controle mais detalhado.

10. Saiba mais: Outros guias de treinamento LoRA do AI Toolkit

Se você quer comparar workflows, datasets e tradeoffs de parâmetros entre famílias de modelos, estes guias são bons pontos de referência:

Treinamento LoRA LTX-2 com Ostris AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample