AI Toolkit LoRA Training Guides

Treinamento LoRA Wan 2.2 T2V 14B Text-to-Video com Ostris AI Toolkit

Este artigo mostra como treinar LoRAs Wan 2.2 T2V 14B (text-to-video) com o Ostris AI Toolkit, de GPUs consumer de 24GB até servidores cloud H100/H200. Ele explica os experts high-noise e low-noise do Wan, como montar datasets T2V para personagem, estilo e movimento, e como ajustar Multi-stage, Timestep Type/Bias, quantização ARA 4-bit e contagem de frames para sequências longas e estáveis.

Train Diffusion Models with Ostris AI Toolkit

Role horizontalmente para ver o formulário completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo permite gerar clips ricos de 5 segundos com movimento forte, detalhes e controle de câmera a partir de prompts de texto simples. Ao final deste guia, você será capaz de:

  • Treinar Wan 2.2 T2V 14B LoRAs com AI Toolkit para personagens consistentes, estilos marcantes e comportamentos de movimento/câmera.
  • Escolher entre treinamento local em uma GPU NVIDIA 24GB+ (com quantização ARA 4 bits) e treinamento na nuvem em GPUs H100/H200, e entender o que cada nível pode lidar realisticamente.
  • Entender como os especialistas de alto ruído e baixo ruído do Wan interagem com Multi-stage, Timestep Type/Bias, Num Frames e resolução, para controlar onde o LoRA injeta mudanças.
  • Configurar AI Toolkit painel por painel (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, SAVE, TRAINING, DATASETS, SAMPLE) para adaptar a mesma receita a diferentes objetivos de LoRA e hardware.
Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA AI Toolkit antes de mergulhar neste guia.

Índice


1. Visão geral do Wan 2.2 T2V 14B para treinamento LoRA

Wan 2.2 é uma família de modelos abertos de texto/vídeo com três variantes principais: um modelo de texto/imagem para vídeo de 5B e dois modelos 14B (T2V e I2V). (Wan 2.2 GitHub). Este guia foca no modelo 14B texto para vídeo Wan2.2‑T2V‑A14B.

Design de transformer duplo "alto ruído / baixo ruído"

Internamente, Wan 2.2 14B usa um backbone Mixture-of-Experts texto para vídeo para o Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo:

  • Alto ruído: transformer de ~14B parâmetros que lida com a parte muito ruidosa do início do denoising (composição grosseira, movimento global, câmera).
  • Baixo ruído: transformer de ~14B parâmetros que refina frames relativamente limpos perto do fim (detalhes, textura, identidade).

Juntos, o modelo tem cerca de 27B parâmetros, mas a cada passo de difusão apenas um especialista (≈14B parâmetros) está ativo. Os timesteps são divididos em torno de t ≈ 875 de 1000 no schedule de ruído: aproximadamente 1000→875 vão para o especialista de alto ruído e 875→0 vão para o especialista de baixo ruído, com deslocamento interno para manter cobertura balanceada ao longo da trajetória.

Para aprender como treinar LoRA no Wan 2.2, isso significa:

  • Você geralmente vai querer treinar ambos os especialistas para que seu LoRA funcione em toda a cadeia de denoising – tanto composição/movimento quanto detalhes/identidade.
  • Em GPUs menores é caro manter ambos os transformers em VRAM e trocá-los a cada passo, por isso o AI Toolkit expõe um painel Multi-stage e opções de Low VRAM + quantização ARA + "Switch Every N steps" para trocar velocidade por VRAM.

2. Onde treinar Wan 2.2 T2V LoRAs (local vs nuvem)

Você pode seguir este tutorial em dois ambientes; a interface do AI Toolkit é a mesma.

Opção A – AI Toolkit local (sua própria GPU)

  • Instale o AI Toolkit do GitHub repositório AI Toolkit e execute a interface web. Isso é melhor se você está confortável com CUDA/drivers e já tem uma GPU NVIDIA 24GB+ (RTX 4090 / 5090 / A6000, etc.).
  • Como Wan 2.2 14B é pesado, Macs e GPUs abaixo de 24GB geralmente são adequados apenas para pequenos LoRAs apenas de imagem em resolução 512 (Num Frames = 1). Para treinamento sério de Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo, você realmente precisa de 24GB+ e quantização agressiva.

Opção B – AI Toolkit na nuvem no RunComfy (H100 / H200)

  • Abra o AI Toolkit na nuvem no RunComfy e faça login. Você entra direto na interface do AI Toolkit com todas as dependências pré-instaladas.
  • Para o Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo, escolha uma máquina H100 (80GB) ou H200 (141GB) quando iniciar o job para poder treinar vídeos longos em resolução mais alta.

Benefícios de usar a nuvem:

  • Zero configuração – CUDA, drivers e pesos do modelo já estão configurados.
  • VRAM enorme – você pode executar LoRAs de 33–81 frames em resolução 768–1024 com tamanhos de batch razoáveis sem lutar contra erros OOM.
  • Workspace persistente – seus datasets, jobs e checkpoints de LoRA vivem na sua conta RunComfy, para você retomar ou iterar depois.

3. Expectativas de hardware e VRAM para Wan 2.2 T2V LoRAs

Wan 2.2 14B é muito mais pesado que modelos de imagem ou Wan 2.1:

  • Workflows T2V oficiais em 1024×1024 e 81 frames podem causar OOM mesmo em GPUs consumer high-end se você não quantizar.
  • Treinamento LoRA de sequência longa em 1024² / 81 frames pode levar muitas horas mesmo em placas servidor de 48–96GB, especialmente em 2–4k passos.
  • A configuração de exemplo oficial do AI Toolkit para este modelo (train_lora_wan22_14b_24gb.yaml) é ajustada para GPUs de 24GB e usa quantização ARA 4 bits com Num Frames = 1 (apenas imagem) como padrão seguro.

Um modelo mental razoável por nível de VRAM para Fine-tuning LoRA Wan 2.2 T2V:

Nível GPUs exemplo O que é confortável
24GB "consumer" 4090 / 5090 / A6000 LoRAs apenas imagem (Num Frames = 1) em 512–768 px, usando ARA 4 bits e Low VRAM = ON. LoRAs de vídeo curtos (33–41 frames @ 512) são possíveis mas lentos.
48–64GB "prosumer" dual 4090, algumas GPUs servidor LoRAs de vídeo 33–41 frames em 768–1024 px com ARA 4 bits e offloading mínimo. Bom equilíbrio de velocidade, capacidade e qualidade.
80–141GB "nuvem" H100 / H200 no RunComfy Treinamento de 81 frames em 1024², Batch Size 1–2, pouco ou nenhum offloading, usando float8 ou ARA 4 bits. Ideal para LoRAs de vídeo de sequência longa sérios.

4. Construindo um dataset Wan 2.2 T2V LoRA

Wan T2V LoRAs podem ser treinados em:

  • Imagens – tratadas como "vídeos" de 1 frame (Num Frames = 1).
  • Clips de vídeo – a verdadeira força do modelo T2V; você geralmente trabalhará com clips curtos de 3–8s.

4.1 Decida que tipo de LoRA você está treinando

Pense em termos de três famílias amplas e projete seu dataset de acordo:

  1. LoRA de personagem (rosto / corpo / roupa)

    Objetivo: manter as habilidades gerais do Wan mas injetar uma nova pessoa, avatar ou roupa que você pode endereçar via trigger. Use 10–30 imagens de alta qualidade ou clips curtos da mesma pessoa, com poses, fundos e iluminação variados. Evite filtros pesados ou estilização que lute contra o modelo base. Inclua um token trigger único nas legendas (ex. "zxq-person"), mais uma descrição rica de roupa, iluminação e enquadramento para que o LoRA aprenda o conceito de forma limpa.

  2. LoRA de estilo (look & feel)

    Objetivo: manter o conteúdo flexível mas impor um estilo visual (filme, look anime, pictórico, etc.). Use 10–40 imagens ou clips que compartilham o mesmo look – cores consistentes, contraste, sensação de câmera – mas com assuntos e cenas diversos. As legendas devem enfatizar palavras de estilo, ex. "pintura a óleo, impasto grosso, iluminação laranja quente, alto contraste" em vez de enumerar objetos exatos.

  3. LoRA de movimento / câmera

    Objetivo: ensinar ao Wan comportamentos temporais (órbitas, pans, dollies, loops tipo sprite, etc.). Use 10–30 clips curtos (~5s) que mostram o movimento alvo, idealmente o mesmo tipo de movimento através de diferentes assuntos e ambientes. As legendas devem mencionar explicitamente a palavra-chave de movimento, como "órbita 180 ao redor do assunto", "animação de ataque de rolagem lateral", ou "zoom dolly lento em direção ao personagem" para que o modelo saiba qual comportamento você se importa.


4.2 Resolução e proporção de aspecto

Wan 2.2 14B T2V é construído para frames classe quadrada 1024×1024. Exemplos oficiais usam 1024² ou variantes próximas, com bucketing interno para resoluções mais baixas.

Para o Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo:

  • Em GPUs de 24GB, prefira buckets de resolução 512 ou 768 e desmarque 1024 no painel DATASETS para economizar VRAM.
  • Em GPUs de 48GB+ ou H100/H200, você pode habilitar buckets 768 e 1024 para obter resultados mais nítidos, especialmente para LoRAs de personagem e estilo.

O AI Toolkit vai reduzir a escala e classificar seus vídeos nas resoluções selecionadas; você principalmente precisa garantir que seus clips fonte são de alta qualidade e não estão em letterbox com grandes barras pretas.


4.3 Duração do clip de vídeo e Num Frames

Wan 2.2 foi pré-treinado em aproximadamente clips de 5 segundos a 16 FPS, dando cerca de 81 frames por sequência de treinamento (seguindo um padrão 4k+1).

O campo Num Frames do AI Toolkit no painel DATASETS controla quantos frames são amostrados de cada vídeo:

  • Para imagens, defina Num Frames = 1 – cada imagem é tratada como um vídeo de 1 frame.
  • Para vídeos, boas escolhas são:
    • 81 – "fidelidade completa"; corresponde ao pré-treinamento mas é muito faminto de VRAM.
    • 41 – cerca de metade dos frames e aproximadamente metade do VRAM/tempo; um bom meio termo para GPUs maiores.
    • 33 – uma opção agressiva e amigável à VRAM para treinamento local de 24GB combinado com resolução de 512 px.

Frames são amostrados uniformemente ao longo de cada clip, então você não precisa que cada vídeo tenha exatamente 5 segundos. O que importa é que o movimento útil ocupe o clip: corte intros/outros longos estáticos para que quase todo frame amostrado contenha sinal significativo de movimento ou identidade.

Contagens de frames são tipicamente escolhidas para seguir o padrão "4n+1" específico do Wan (ex. 9, 13, 17, 21, 33, 41, 81). Manter esses valores tende a produzir comportamento temporal mais estável porque corresponde ao windowing interno do modelo.


4.4 Estratégia de legendas

Legendas por clip importam mais para LoRAs de vídeo do que para LoRAs de imagem simples, especialmente para movimento e estilo.

  • Para LoRAs de imagem / personagem, mire em 10–30 imagens ou clips curtos, cada um com uma legenda que inclui seu trigger mais uma descrição, por exemplo:

    "retrato de [trigger], plano médio, iluminação de estúdio, vestindo jaqueta de couro, lente 35mm".

    No momento do treinamento o AI Toolkit vai substituir [trigger] pela Trigger Word real do painel JOB se você usar esse padrão.

  • Para LoRAs de movimento, certifique-se de que a palavra de movimento aparece e é consistente entre clips, ex.:

    "órbita 180 ao redor de um castelo medieval",

    "animação de ataque de rolagem lateral de um ursinho de pelúcia brandindo uma espada".

Por enquanto, simplesmente garanta que cada imagem ou clip tenha uma boa legenda .txt por arquivo ou que você definirá uma Default Caption útil no painel DATASETS. Na seção TRAINING decidiremos se executar em modo baseado em legenda (usando essas legendas diretamente) ou em modo apenas Trigger Word em configurações de alta VRAM.


5. Passo a passo: treinar um Wan 2.2 T2V 14B LoRA no AI Toolkit

Nesta seção percorremos painel por painel a interface do AI Toolkit para um LoRA de vídeo no Wan 2.2 T2V 14B.

Suposições base para este passo a passo:

  • Você está treinando um LoRA de vídeo (Num Frames = 33) em resolução de 512 ou 768.
  • Você está em uma GPU de 24–32GB ou executando uma configuração equivalente no RunComfy com truques de Low VRAM.
  • Seu dataset é uma pasta de dataset Wan T2V com vídeos + legendas.

Depois adicionaremos notas para H100/H200 e níveis de VRAM mais altos.


5.1 Painel JOB – metadados básicos do job

Defina os metadados de alto nível para poder encontrar seu job depois:

  • Job Name – um nome conciso como wan22_t2v_char_zxq_v1 ou wan22_t2v_style_neon_v1. Inclua modelo, tarefa e um identificador curto.
  • Output Directory – onde o AI Toolkit vai escrever checkpoints e logs, ex. ./output/wan22_t2v_char_zxq_v1.
  • GPU ID – em uma instalação local isso aponta para sua GPU física. No AI Toolkit na nuvem RunComfy você pode deixar como padrão; o tipo de máquina real (H100/H200) é escolhido depois na Training Queue.
  • Trigger Word (opcional) – se você planeja usar um workflow de trigger word, defina para seu token (por exemplo zxqperson). Nas legendas você pode escrever [trigger] e o AI Toolkit vai substituir pela sua Trigger Word no momento do carregamento. Mantenha curto e único para não colidir com tokens existentes.

5.2 Painel MODEL – modelo base Wan 2.2 T2V

Configure o modelo base e opções relacionadas à VRAM para o ComfyUI Wan 2.2 texto para vídeo LoRA:

  • Model Architecture – escolha Wan 2.2 T2V 14B (ou rótulo equivalente no seu build).
  • Name or Path – o id do modelo Hugging Face (repo id) para o checkpoint base, por exemplo: ai-toolkit/Wan2.2-T2V-A14B-Diffusers-bf16.

    Na maioria dos builds do AI Toolkit, selecionar Wan 2.2 T2V 14B vai auto-preencher esse valor; deixe como está a menos que tenha uma razão para mudar.

    Se você sobrescrever, use o formato de repo id do Hugging Face: org-or-user/model-name (opcionalmente org-or-user/model-name@revision).

  • Low VRAM – em GPUs de 24–32GB, defina Low VRAM = ON para que o AI Toolkit possa usar estratégias extras de checkpointing/offload que tornam o treinamento possível. Em H100/H200 ou 48GB+ você pode definir Low VRAM = OFF para velocidade máxima.
  • Layer Offloading – se seu build expõe isso, você pode deixar OFF em 24GB+ a menos que ainda esteja tendo OOM. Em configurações extremamente apertadas pode transmitir algumas camadas para RAM da CPU, ao custo de passos notavelmente mais lentos.

5.3 Painel QUANTIZATION – ARA 4 bits + text encoder float8

Quantização é o que torna o Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo prático em hardware consumer.

  • Transformer – defina para 4bit with ARA. Esta é uma quantização de 4 bits com um Accuracy Recovery Adapter; uso de VRAM está perto do 4 bits puro, mas a qualidade está muito mais perto do bf16.
  • Text Encoder – defina para float8 (ou qfloat8). Isso reduz VRAM e computação para o text encoder com impacto negligenciável na qualidade de treinamento do LoRA.

Em GPUs de 24–32GB, esta combinação é a razão principal pela qual treinamento de LoRA de vídeo é possível.

Em H100/H200 / GPUs de 48GB+:

  • Você pode manter 4bit with ARA e gastar VRAM extra em resolução mais alta, mais frames, ou rank de LoRA mais alto, o que frequentemente dá melhor retorno.
  • Se você preferir uma pilha mais simples, pode mudar o Transformer para uma opção float8 pura enquanto mantém o Text Encoder em float8. Voltar completamente para bf16 em todo lugar geralmente não é necessário.

5.4 Painel MULTISTAGE – treinar especialistas de alto e baixo ruído

Este painel expõe a arquitetura de especialista duplo (transformer de alto ruído vs baixo ruído) e como os passos de treinamento são divididos entre eles.

  • Stages to Train – para a maioria dos LoRAs, defina High Noise = ON e Low Noise = ON. Isso significa que ambos os especialistas são atualizados durante o treinamento para que o LoRA afete tanto composição/movimento inicial quanto detalhes/identidade tardios.
  • Switch Every – em GPUs de 24–32GB com Low VRAM = ON, defina Switch Every = 10. Isso diz ao AI Toolkit quantos passos passar em um especialista antes de mudar para o outro. Por exemplo, com Steps = 3000:
    • Passos 1–10 → especialista de alto ruído
    • Passos 11–20 → especialista de baixo ruído
    • …repetir até o fim do treinamento.

Por que isso importa:

  • Com Low VRAM = ON, o AI Toolkit tipicamente mantém apenas um especialista na memória GPU de cada vez. Quando muda, descarrega um transformer de ~14B parâmetros e carrega o outro.
  • Se você definir Switch Every = 1, força uma carga/descarga de pesos enormes a cada passo, o que é extremamente lento.
  • Com Switch Every = 10, você ainda obtém aproximadamente cobertura 50/50 de alto/baixo ruído, mas só muda a cada 10 passos em vez de cada passo, o que é muito mais eficiente.

Dicas por tipo de LoRA:

  • Para LoRAs de vídeo de personagem ou estilo, mantenha ambos High Noise e Low Noise ON; tanto composição quanto detalhes importam.
  • Para LoRAs de movimento / câmera, alto ruído é crucial para movimento global. Comece com ambas as etapas ON e depois experimente mais tarde com treinamento apenas de alto ruído se quiser comportamento muito direcionado.

Em H100/H200:

  • Você pode definir Switch Every = 1, já que ambos os especialistas podem permanecer residentes em VRAM e o overhead de troca é negligenciável.

5.5 Painel TARGET – rank e capacidade do LoRA

Este painel controla que tipo de adaptador você treina e quanta capacidade ele tem.

  • Target Type – defina para LoRA.
  • Linear Rank – um bom padrão é 16 para Wan 2.2 T2V:
    • Rank 16 mantém o LoRA pequeno e rápido de treinar.
    • Geralmente é suficiente para LoRAs de personagem, estilo e movimento em resolução 512–768.

Se você tem um dataset muito diverso (muitos assuntos, estilos ou movimentos) e VRAM suficiente:

  • Você pode aumentar Linear Rank para 32 para dar ao LoRA mais poder expressivo.
  • Evite ir além de 64 a menos que saiba que precisa de tanta capacidade; ranks muito altos podem overfitar e tornar o LoRA mais difícil de controlar.

Em H100/H200, começar em Rank 16 e subir para 32 para LoRAs complexos tudo-em-um é uma faixa razoável.


5.6 Painel SAVE – agenda de checkpoints

Configure com que frequência salvar checkpoints de LoRA durante o treinamento:

  • Data Type – defina para BF16. Isso corresponde a como Wan 2.2 geralmente é executado e é estável para pesos de LoRA.
  • Save Every – defina para 250 passos. Para uma execução de 3000 passos isso produz 12 checkpoints distribuídos pelo treinamento.
  • Max Step Saves to Keep – defina para 4 ou 6 para não perder checkpoints iniciais que podem realmente parecer melhores que o final.

Na prática você raramente acaba usando o último checkpoint; muitos usuários preferem algo na faixa de 2000–3000 passos após comparar amostras.

Em H100/H200:

  • Se você executar muito tempo (ex. 5000–6000 passos para um dataset grande), mantenha Save Every = 250 e aumente Max Step Saves to Keep, ou defina Save Every = 500 para limitar o número de checkpoints.

5.7 Painel TRAINING – hiperparâmetros core e modo do text encoder

Agora definimos os hiperparâmetros de treinamento core, depois escolhemos como lidar com o text encoder e regularização opcional.

5.7.1 Configurações de treinamento core

Para um LoRA de vídeo de propósito geral no Wan 2.2 T2V:

  • Batch Size – em 24–32GB, defina Batch Size = 1. Para T2V isso já consome muita VRAM. Em H100/H200 você pode empurrar para 2 se tiver margem suficiente.
  • Gradient Accumulation – comece com 1. Se VRAM está apertada mas você quer um batch efetivo maior, pode definir para 2–4; tamanho de batch efetivo é Batch Size × Gradient Accumulation.
  • Steps – faixas típicas:
    • LoRA de movimento pequeno e focado com ~10–20 clips: 1500–2500 passos.
    • LoRA de personagem ou estilo com 20–50 clips: 2000–3000 passos.
    • Datasets muito grandes podem ir mais alto, mas frequentemente é melhor melhorar a qualidade dos dados do que simplesmente adicionar mais passos.
  • Optimizer – defina Optimizer = AdamW8Bit. Adam de 8 bits reduz VRAM significativamente enquanto se comporta de forma similar ao AdamW padrão.
  • Learning Rate – defina Learning Rate = 0.0001 como um padrão forte. Se o treinamento parecer instável ou as amostras oscilarem selvagemente entre passos, abaixe para 0.00005. Se o treinamento parecer estagnar cedo, considere aumentar os passos em vez de empurrar o Learning Rate mais alto.
  • Loss Type – mantenha Mean Squared Error (MSE). Isso corresponde à loss de treinamento original do Wan e é a escolha padrão.

Wan 2.2 usa um flow-matching noise scheduler, que o AI Toolkit lida internamente. No painel SAMPLE você também deve usar um sampler compatível com FlowMatch para que os previews correspondam à configuração de treinamento.


5.7.2 Timestep Type e Timestep Bias – onde o LoRA foca

Esses dois campos controlam quais timesteps são enfatizados durante o treinamento e como as atualizações são distribuídas pela cadeia de difusão.

  • Timestep Type – controla a distribuição de timesteps:
    • Linear – amostra timesteps uniformemente pelo schedule; um padrão neutro e seguro.
    • Sigmoid / outros padrões formados – enviesam o treinamento em direção a ruído médio/baixo; às vezes útil para personagens e estilos detalhados.
    • Shift / Weighted – enfatizam mais regiões específicas do schedule de ruído, frequentemente combinados com Timestep Bias.
  • Timestep Bias – diz ao AI Toolkit qual parte da trajetória enfatizar:
    • Balanced – atualizações se espalham aproximadamente igualmente entre alto e baixo ruído.
    • Favor High Noise – enviesam em direção a passos iniciais ruidosos, enfatizando composição, layout e movimento global.
    • Favor Low Noise – enviesam em direção a passos tardios limpos, enfatizando identidade, textura e micro-detalhes.

Combinações recomendadas para o Fine-tuning LoRA Wan 2.2 T2V:

  • LoRA de movimento / câmera – defina Timestep Type = Linear e Timestep Bias = Balanced como padrão seguro.

    Se você quer um LoRA de movimento puro que realmente trave trajetórias de câmera, pode empurrar isso para Timestep Bias = Favor High Noise, já que o especialista de alto ruído é onde Wan 2.2 decide layout e movimento.

  • LoRA de estilo – defina Timestep Type = Linear ou Shift e Timestep Bias = Favor High Noise.

    Estilo, color grading e "film stock" vivem principalmente na parte de alto ruído / inicial da trajetória, então favorecer alto ruído permite ao LoRA reescrever o tom global enquanto deixa detalhes de estágio tardio principalmente para o modelo base.

  • LoRA de personagem – defina Timestep Type = Sigmoid (ou Linear) e Timestep Bias = Balanced.

    Identidade e semelhança dependem mais do especialista de baixo ruído, mas você ainda quer alguma influência na composição e iluminação. Para LoRAs muito focados em identidade você pode experimentar favorecendo ligeiramente os passos de baixo ruído, mas Balanced é o padrão mais seguro.


5.7.3 EMA (Exponential Moving Average)

  • Use EMA – para LoRAs, EMA é opcional e adiciona overhead extra. A maioria dos usuários deixa isso OFF para LoRAs Wan 2.2 e reserva EMA para treinamento de modelo completo. É seguro ignorar EMA a menos que você saiba que quer ensemble de pesos mais suaves.

5.7.4 Otimizações do Text Encoder – modo legenda vs trigger-word

Essas chaves controlam se o text encoder permanece carregado e se os embeddings são cacheados.

  • Unload TE – se definido ON, o AI Toolkit vai remover o text encoder da VRAM entre passos e depender de embeddings estáticos (ex. um Trigger Word), efetivamente desligando o captioning dinâmico durante o treinamento. Isso economiza VRAM mas significa que as legendas não serão re-codificadas a cada passo.
  • Cache Text Embeddings – quando definido ON, o AI Toolkit executa o text encoder uma vez por legenda, cacheia os embeddings, e então libera com segurança o text encoder da VRAM. Isso é altamente recomendado para treinamento baseado em legenda em VRAM restrita, pois evita re-codificar a cada passo mas ainda usa suas legendas por clip.

Padrões típicos:

  • Para treinamento baseado em legenda de 24–32GB, defina Cache Text Embeddings = ON e deixe Unload TE = OFF. Isso dá treinamento eficiente com informação completa de legenda.
  • Para treinamento apenas de Trigger Word em VRAM muito alta (H100/H200), você pode definir Unload TE = ON e depender de um único token trigger em vez de legendas completas.

5.7.5 Differential Output Preservation (DOP)

Differential Output Preservation é uma regularização opcional que encoraja o LoRA a se comportar como uma edição residual pura do modelo base:

  • O AI Toolkit renderiza duas previsões:
    • uma com o modelo base (sem LoRA), e
    • uma com o LoRA habilitado.
  • Penaliza diferenças entre essas saídas exceto onde você explicitamente quer mudança (via sua Trigger Word e legendas).

Campos chave:

  • Differential Output Preservation – chave principal.
  • DOP Loss Multiplier – força da loss de regularização.
  • DOP Preservation Class – um token de classe como person, scene, ou landscape que descreve o que deve ser preservado.

Uso:

  • Para LoRAs de estilo e personagem, DOP pode ajudar a manter intacto o excelente realismo base do Wan enquanto o LoRA adiciona uma modificação controlada. Uma receita simples:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person para LoRAs de personagem, ou scene / landscape para LoRAs de estilo amplos se disponível.
  • Para LoRAs de movimento / câmera, você geralmente não precisa de DOP; a mudança de comportamento já está localizada, e DOP aproximadamente dobra a computação.

Nota importante de compatibilidade:

  • DOP funciona reescrevendo prompts a cada passo (trocando sua Trigger Word com a Preservation Class em um dos ramos). Por causa disso, DOP requer que o text encoder re-codifique prompts a cada passo, e não é compatível com Cache Text Embeddings.
  • Se você ligar DOP ON:
    • você deve definir uma Trigger Word no painel JOB,
    • e deve manter Cache Text Embeddings = OFF para que o text encoder permaneça ativo e possa re-codificar os prompts modificados a cada passo.

Em H100/H200, o custo de computação extra do DOP geralmente é aceitável para LoRAs de personagem e estilo de alta qualidade.


5.8 Painel ADVANCED – Differential Guidance (opcional)

Se seu build expõe um painel ADVANCED com:

  • Do Differential Guidance
  • Differential Guidance Scale

você pode tratá-lo como um truque adicional específico do AI-Toolkit:

  • Ligar Do Differential Guidance = ON com Scale = 3 diz ao modelo para focar mais na diferença entre previsões base e modificadas por LoRA, similar em espírito ao DOP mas implementado como um termo de guidance.
  • Isso pode fazer edições direcionadas (ex. "estilo de contorno neon" ou "comportamento de câmera órbita") convergirem mais rápido sem aumentar o Learning Rate.
  • Se as amostras parecerem instáveis ou muito nítidas cedo no treinamento, você pode baixar a escala para 2. Se o aprendizado parecer muito lento, pode experimentar com 4.

A maioria dos usuários pode deixar isso OFF com segurança para seus primeiros LoRAs Wan 2.2 e experimentar uma vez confortáveis.


5.9 Painel DATASETS – conectando seu dataset Wan T2V

Cada bloco de Dataset corresponde a uma entrada na lista interna datasets:.

Para um único dataset Wan T2V:

  • Target Dataset – selecione sua pasta de dataset Wan T2V (ex. wan_orbit_clips ou wan_char_zxq_clips) contendo seus vídeos e legendas.
  • LoRA Weight – defina para 1 a menos que misture múltiplos datasets e queira rebalanceá-los.
  • Default Caption – usada apenas quando clips individuais não têm legenda .txt. Por exemplo:
    • Personagem/estilo: "retrato de zxqperson, zxqstyle, iluminação cinematográfica".
    • Movimento: "órbita 360 ao redor do assunto, zxq_orbit".
  • Caption Dropout Rate – um valor como 0.05 descarta legendas para 5% das amostras para que o modelo também preste atenção aos visuais em vez de overfitar frases.

    Se você depende muito de Cache Text Embeddings, seja conservador aqui; caption dropout é mais efetivo quando o text encoder está ativo e as legendas podem variar.

  • Settings → Cache Latents – para LoRAs de vídeo isso geralmente está OFF porque cachear latents do VAE para muitos frames é pesado em disco e RAM. Mantenha seus vídeos fonte de alta qualidade em vez disso.
  • Settings → Is Regularization – deixe OFF a menos que tenha um dataset de regularização dedicado.
  • Flipping (Flip X / Flip Y) – para a maioria dos LoRAs de vídeo mantenha ambos OFF:
    • flips horizontais podem quebrar a semântica de movimento esquerda/direita e assimetria do personagem,
    • flips verticais raramente são apropriados para filmagem do mundo real.
  • Resolutions – habilite as resoluções nas quais você quer que o AI Toolkit faça bucketing:
    • Em 24–32GB, habilite 512, opcionalmente 768 se VRAM permitir, e desabilite 1024+.
    • Em H100/H200, você pode habilitar 768 e 1024 para corresponder ao ponto de operação preferido do modelo.
  • Num Frames – defina Num Frames = 33 para a receita base de LoRA de vídeo 24–32GB.

    33 segue a regra 4n+1 (4·8+1), aproximadamente corta pela metade o custo vs treinamento completo de 81 frames enquanto ainda dá um padrão temporal claro.

O AI Toolkit vai amostrar 33 frames uniformemente ao longo da duração de cada clip; você só precisa cortar clips para que o movimento que você se importa abranja a maior parte do clip.

Em H100/H200, você pode empurrar Num Frames para 41 ou 81, e combinar isso com buckets de 768–1024 px e Rank 16–32 para LoRAs de sequência longa muito fortes.


5.10 Painel SAMPLE – previsualizando seu LoRA

O painel SAMPLE é para gerar vídeos de previsualização durante ou após o treinamento.

Configurações úteis:

  • Num Frames – combine isso aproximadamente com o valor de treinamento (ex. 33 ou 41) para que o comportamento seja previsível.
  • Sampler / Scheduler – use um sampler compatível com FlowMatch que se alinha com o schedule de ruído do modelo.
  • Prompt / Negative Prompt – use a mesma Trigger Word e conceitos nos quais você treinou para poder julgar rapidamente se o LoRA está fazendo a coisa certa.
  • Guidance Scale – durante previsualizações de treinamento, valores moderados (ex. 2–4) estão bem; lembre que você pode usar valores diferentes nos seus workflows de inferência normais depois.

Gere amostras em múltiplos checkpoints (ex. a cada 250–500 passos) e mantenha as que visualmente equilibram força e estabilidade.


6. Configurações de treinamento Wan 2.2 T2V 14B LoRA

Esta seção resume receitas práticas para os três tipos principais de LoRA.

6.1 LoRA de vídeo de personagem (identidade / avatar)

Objetivo: preservar o rosto, corpo e identidade geral de um personagem através de muitos prompts e cenas.

Dataset:

  • 10–30 clips curtos ou imagens do personagem, com poses, fundos e iluminação variados.
  • As legendas incluem uma Trigger Word e classe, por exemplo:

    "retrato de [trigger], mulher jovem, roupa casual, iluminação de estúdio".

Configurações chave para como treinar LoRA no Wan 2.2:

  • Num Frames – 33 em 24GB; 41 ou 81 em H100/H200.
  • Resolutions – 512 ou 768; adicione 1024 em alta VRAM.
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (nuvem).
  • Timestep Type / Bias – Linear (ou Sigmoid) com Balanced bias, para capturar tanto composição quanto detalhe de identidade de baixo ruído.
  • Linear Rank – 16 (24GB) ou 16–32 (H100/H200) para identidade mais nuançada.
  • DOP – opcionalmente habilitar para LoRAs de personagem quando você quiser preservar realismo base:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = person
    • Cache Text Embeddings = OFF (requerido para DOP funcionar)
  • Steps – 2000–3000, verificando amostras a cada 250–500 passos.

6.2 LoRA de vídeo de estilo (look de filme / anime / color grading)

Objetivo: impor um estilo visual forte enquanto mantém o conteúdo flexível.

Dataset:

  • 10–40 imagens ou clips que compartilham o mesmo estilo através de diferentes assuntos e cenas.
  • As legendas descrevem o look (ex. film stock, pinceladas, paleta) em vez dos objetos exatos.

Configurações chave para o Wan 2.2 T2V 14B Treinamento LoRA texto para vídeo:

  • Num Frames – 33–41 para a maioria dos casos de uso; 81 em GPUs grandes para clips de 5s.
  • Resolutions – 512–768 em 24GB; 768–1024 em alta VRAM.
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (nuvem).
  • Timestep Type / Bias – Linear ou Shift com Timestep Bias = Favor High Noise, para que o LoRA possa reescrever cor global e contraste onde a composição ainda está fluida.
  • Linear Rank – 16 para estilos simples; 16–32 para looks complexos, cinematográficos.
  • DOP – recomendado para LoRAs de estilo quando você quiser preservar realismo base:
    • Differential Output Preservation = ON
    • DOP Loss Multiplier = 1
    • DOP Preservation Class = scene / landscape ou similar
    • Cache Text Embeddings = OFF
  • Steps – 1500–2500, parando quando o estilo parecer forte mas não sobrecarregado.

6.3 LoRA de movimento / câmera (órbitas, pans, movimentos dolly)

Objetivo: aprender novos movimentos de câmera ou padrões de movimento que você pode aplicar a muitos assuntos.

Dataset:

  • 10–30 clips de 3–8s, cada um mostrando o movimento alvo.
  • Mantenha o movimento consistente (ex. todos são órbita 180 ou todos são rolagem lateral), mas varie assuntos e cenas.
  • As legendas declaram explicitamente a palavra-chave de movimento ("órbita 180 ao redor do assunto", "animação de ataque de rolagem lateral").

Configurações chave para o ComfyUI Wan 2.2 texto para vídeo LoRA:

  • Num Frames – 33 em 24GB, 41–81 em GPUs maiores.
  • Resolutions – 512 (e 768 se VRAM permitir).
  • Multi-stage – High Noise = ON, Low Noise = ON, Switch Every = 10 (local) ou 1 (nuvem).
  • Timestep Type / Bias – Linear com Timestep Bias = Balanced, para que tanto composição inicial quanto refinamento posterior vejam atualizações; movimento inerentemente depende de alto ruído.
  • Linear Rank – Rank 16 geralmente é suficiente; movimento é mais sobre comportamento do que detalhes pequenos.
  • DOP – geralmente manter OFF; movimento já está localizado e DOP dobra forward passes.
  • Steps – 1500–2500; assista previsualizações para garantir que o movimento generaliza além dos seus clips de treinamento.

7. Exportar e usar seu Wan T2V LoRA

Uma vez que o treinamento está completo, você pode usar seu Wan 2.2 T2V 14B LoRA de duas formas simples:

  • Model playground – abra o Wan 2.2 T2V 14B LoRA playground e cole a URL do seu LoRA treinado para ver rapidamente como ele se comporta no modelo base.
  • Workflows ComfyUI – inicie uma instância ComfyUI e construa seu próprio workflow, adicione seu LoRA e ajuste o peso do LoRA e outras configurações para controle mais detalhado.

Mais guias de treinamento LoRA do AI Toolkit

Ready to start training?