Wan 2.2 I2V 14B treinamento LoRA imagem para vídeo transforma uma única imagem em clipes de 5 segundos com movimento controlável, movimentos de câmera e consistência temporal. Ao final deste guia, você será capaz de:
- Projetar datasets Wan I2V LoRA para casos de uso de movimento, estilo e personagem (e saber quantos clipes você realmente precisa).
- Entender como os especialistas duais high-noise / low-noise do Wan, configurações de timestep, Num Frames e resolução interagem durante o treinamento.
- Configurar os painéis do AI Toolkit (JOB, MODEL, QUANTIZATION, MULTISTAGE, TARGET, TRAINING, DATASETS, SAMPLE) para execuções estáveis em 24GB e configurações cloud maiores H100/H200.
Este artigo faz parte da série de treinamento LoRA do AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA do AI Toolkit antes de mergulhar neste guia.
Índice
- 1. O que torna o Wan 2.2 I2V 14B especial?
- 2. Onde executar WAN 2.2 - Treinamento LORA i2v
- 3. Design de dataset para Wan I2V LoRAs
- 4. Especificidades do Wan 2.2 I2V que você precisa entender
- 5. Como treinar LoRA no WAN 2.2 passo a passo com AI Toolkit
- 6. AI Toolkit treinamento LoRA Wan 2.2 I2V: configurações para movimento, estilo e personagem
- 7. Solução de problemas comuns de Wan I2V LoRA
- 8. Exportar e usar sua Wan I2V LoRA
1. O que torna o Wan 2.2 I2V 14B especial?
Wan 2.2 I2V 14B ("A14B") é a variante de imagem para vídeo do Wan 2.2. Arquitetonicamente, é um transformer dual Mixture-of-Experts (MoE). Existem dois transformers separados de 14B parâmetros. O transformer high-noise lida com os primeiros timesteps muito ruidosos e é responsável pela composição global, trajetória de movimento e movimento de câmera. O transformer low-noise lida com os timesteps finais limpos e é responsável por detalhes finos, identidade e textura.
No momento da inferência, o pipeline divide os timesteps em torno de um limite em aproximadamente 875/1000 do schedule de ruído e os direciona para o transformer high-noise ou low-noise. Na prática, cada especialista lida com aproximadamente metade do processo de denoising. Wan 2.2 I2V gera até 81 frames a 16 FPS, que são aproximadamente 5 segundos de vídeo.
Para o Wan 2.2 I2V 14B treinamento LoRA imagem para vídeo, isso tem três consequências principais. Você pode escolher treinar um ou ambos os estágios. Você pode direcionar o treinamento para composição e movimento (high noise) ou para identidade e detalhe (low noise). E como você processa sequências de frames, contagem de frames, resolução, VRAM e configurações de quantização/offloading importam muito mais do que para um modelo apenas de imagem.
O AI Toolkit expõe esses controles principalmente através dos painéis MULTISTAGE, TRAINING, TARGET e DATASETS.
2. Onde executar WAN 2.2 - Treinamento LORA i2v
Você pode executar este workflow de treinamento LoRA Wan 2.2 I2V no cloud AI Toolkit no RunComfy ou em uma instalação local do AI Toolkit. A interface e os painéis são os mesmos; apenas o hardware muda.
2.1 RunComfy Cloud AI Toolkit (recomendado para primeiras execuções)
Se você não quer gerenciar CUDA, drivers ou downloads de modelos grandes, use o cloud AI Toolkit no RunComfy:
Nessa página você obtém a interface do AI Toolkit pré-instalada no navegador. Você pode fazer upload de datasets, configurar jobs exatamente como neste guia e executar o treinamento em uma GPU H100 (80 GB) ou H200 (141 GB). Esta é a forma mais fácil de reproduzir o tutorial de forma confiável sem tocar na configuração local.
2.2 AI Toolkit Local
Se você preferir executar localmente: instale o repositório do AI Toolkit seguindo o README (Python + PyTorch para treinamento e Node para a interface), depois execute a interface (npm run build_and_start em ui/). Abra http://localhost:8675 e você verá os mesmos painéis das capturas de tela e descrições aqui.
3. Design de dataset para Wan I2V LoRAs
Wan 2.2 I2V é treinado em pares de clipe de vídeo + legenda. Cada amostra de treinamento é uma sequência de frames mais texto. No AI Toolkit você não precisa cortar manualmente cada clipe para o mesmo comprimento. Em vez disso, você configura Num Frames no painel DATASETS e o carregador de dados amostrará uniformemente esse número de frames de cada vídeo, lidando automaticamente com clipes de diferentes durações.
3.1 Decida que tipo de LoRA você está treinando
Como você define os hiperparâmetros depende muito do seu objetivo:
- LoRA de movimento/câmera foca em padrões como "orbita 360 ao redor do sujeito", "dolly zoom lento", "tremido de câmera na mão" ou beats de ação específicos.
- LoRA de estilo faz os vídeos parecerem com um filme específico, estilo de anime ou visual pictórico, enquanto mantém o movimento base e a composição de cena do Wan.
- LoRA de personagem tenta preservar um personagem ou rosto específico de forma consistente através de muitas cenas e movimentos.
Wan 2.2 I2V pode fazer todos os três. LoRAs de movimento dependem mais do estágio high-noise, enquanto LoRAs de estilo e personagem dependem mais do estágio low-noise mais visuais muito consistentes.
3.2 Clipes de vídeo e corte
Use clipes de vídeo reais (.mp4, .mov, etc.), não GIFs. O comprimento do clipe pode variar (por exemplo 5–30 segundos). O AI Toolkit amostrará uniformemente frames de treinamento ao longo de cada clipe de acordo com sua configuração de Num Frames.
A única coisa que você deve sempre fazer manualmente é cortar e aparar cada clipe para que o movimento que você se importa comece rapidamente e não haja muito "parado" no início ou no fim. Para LoRAs de movimento em particular, você quer que o movimento ocupe quase todo o clipe — por exemplo, a órbita completa, o movimento de dolly completo ou o gesto completo.
3.3 Quantos clipes você precisa?
Como regra geral aproximada:
- Uma LoRA de movimento simples que ensina um único tipo de movimento de câmera geralmente treina bem com 10–30 clipes curtos (~3–8s) onde o movimento alvo é muito claro e ocupa a maior parte do frame.
- Uma LoRA de estilo tipicamente precisa de 10–40 imagens ou clipes que cobrem diferentes cenas, iluminação e sujeitos, mas todos compartilham o mesmo visual e tratamento de cor.
- Uma LoRA de personagem em I2V se comporta mais como uma LoRA de imagem. No mínimo, mire em 10–30 clipes curtos do mesmo personagem, com poses, escalas, ângulos e fundos variados; se você conseguir chegar confortavelmente a 20–40 clipes, a semelhança e robustez geralmente melhoram.
3.4 Legendas para clipes I2V
Cada arquivo de vídeo pode opcionalmente ter uma legenda .txt com o mesmo nome base (por exemplo castle_orbit.mp4 e castle_orbit.txt). O AI Toolkit também suporta uma Default Caption que é usada quando um clipe não tem legenda dedicada.
Bons padrões de legenda:
- Para uma LoRA de movimento, codifique o movimento explicitamente no texto, por exemplo:
orbit 360 around the subject,orbit 180 around the subjectouslow dolly in toward the character. - Para uma LoRA de estilo, descreva o visual, não o conteúdo da cena, por exemplo:
grainy 16mm film look, high contrast, warm tint. - Para uma LoRA de personagem, inclua uma palavra gatilho mais uma classe, por exemplo:
frung, young woman, casual clothing(ondefrungé seu token gatilho).
Você também pode combinar um Trigger Word definido no painel JOB com legendas que contêm [trigger]. O AI Toolkit substituirá [trigger] pela sua string de gatilho escolhida ao carregar o dataset para que você não precise codificar o nome do gatilho em cada legenda.
4. Especificidades do Wan 2.2 I2V que você precisa entender
4.1 Transformers High-noise vs Low-noise
Os dois transformers do Wan se comportam aproximadamente assim:
O transformer high-noise opera em timesteps perto do início do processo de difusão (aproximadamente 1000 até ~875). Ele configura a composição global e formas grosseiras e decide onde os objetos vão, como a câmera se move e qual será a trajetória do movimento. É crítico para movimento e layout.
O transformer low-noise roda em timesteps de aproximadamente 875 até 0. Ele refina detalhes, texturas, semelhança facial e micro-movimentos. É crítico para identidade, textura e nitidez.
Na prática, treinar apenas o estágio high-noise pode ensinar novos tipos de movimento e composição, mas tende a sub-treinar detalhes. Treinar apenas o estágio low-noise tem dificuldade em mudar significativamente movimento ou layout. Para a maioria das LoRAs você deve treinar ambos os estágios e então direcionar a ênfase usando Timestep Bias no painel TRAINING.
4.2 Frames, FPS e velocidade
Wan 2.2 I2V 14B pode gerar até 81 frames a 16 FPS, que são 5 segundos. Na prática, contagens válidas de frames de vídeo seguem a regra "4n+1" (por exemplo 9, 13, 17, 21, 33, 41, 81…). Você pode pensar em comprimentos de vídeo nessa família; 1 frame também é suportado e efetivamente reduz I2V a um modo de frame único semelhante a imagem para AI Toolkit treinamento LoRA Wan 2.2 I2V.
No AI Toolkit existem dois controles Num Frames separados. Num Frames no painel DATASETS controla quantos frames por clipe são amostrados para treinamento. Num Frames no painel SAMPLE controla a duração dos seus vídeos de preview. Eles não precisam corresponder exatamente, mas mantê-los similares torna o comportamento mais fácil de entender.
Um bom ponto de partida para treinamento é 41 frames (cerca de 2,5 segundos). Em GPUs de 80–96 GB (classe H100) você pode ir até a configuração completa de 81 frames. Comprimentos mais curtos como 21 ou 33 frames podem ser usados para reduzir a carga de VRAM e tempo por passo em GPUs pequenas, ao custo de capturar menos contexto temporal.
4.3 Resolução e área de pixels
As demos oficiais do Wan tendem a manter a área efetiva em torno de 480×832 ≈ 400k pixels, e os espaços do Hugging Face ajustam dimensões para múltiplos de 16 ou 32.
Para o Wan 2.2 I2V 14B treinamento LoRA imagem para vídeo com AI Toolkit:
- Em uma GPU de 24 GB, use buckets de resolução como 512 e 768. Evite 1024×1024 a menos que você esteja muito agressivamente quantizado e/ou usando layer offloading; vídeo em 1024² mais 41–81 frames é pesado.
- Em GPUs de 48 GB+ ou H100/H200, você pode adicionar com segurança um bucket de 1024 e até usar resoluções cinematográficas widescreen centradas em valores como 1024×576, 1024×608 ou 1024×640.
O AI Toolkit automaticamente agrupará e redimensionará seus vídeos para as resoluções selecionadas ao carregar o dataset.
5. Como treinar LoRA no WAN 2.2 passo a passo com AI Toolkit
Assumimos que você tem pelo menos uma GPU de classe 24 GB, então as configurações abaixo são uma base segura. Se você tem uma placa maior ou está usando o cloud AI Toolkit no RunComfy, alguns painéis também incluem notas breves sobre como escalar as configurações.
5.1 Painel JOB
No painel JOB você define metadados básicos e, opcionalmente, um token gatilho.
- Training Name
Use qualquer nome descritivo; ele se torna o nome da pasta para checkpoints e samples. Exemplos:
wan_i2v_orbit_v1,wan_i2v_style_neon,wan_i2v_char_frung_v1. - GPU ID
Em uma instalação local isso aponta para sua GPU física. No RunComfy cloud AI Toolkit você pode deixar como padrão; o tipo de máquina real (H100/H200) é escolhido depois na Training Queue.
- Trigger Word (opcional)
Use um gatilho para LoRAs de personagem ou estilo onde você quer um token dedicado como
frungouwan_cam_orbit. Se as legendas do seu dataset contêm[trigger], o AI Toolkit substituirá o valor do seu Trigger Word nessas legendas automaticamente ao carregar.Para LoRAs de movimento puro, você frequentemente não precisa de uma palavra gatilho porque o comportamento já está codificado em frases como "orbit 360 around the subject". Para personagens e estilos, é fortemente recomendado usar um gatilho para ter um interruptor limpo de ligar/desligar para sua LoRA depois.
5.2 Painéis MODEL e QUANTIZATION
Esses painéis controlam qual checkpoint do modelo Wan é usado e quão agressivamente ele é quantizado.
Painel MODEL
- Model Architecture
Selecione
Wan 2.2 I2V (14B). - Name or Path
O id do modelo Hugging Face (id do repo) para o checkpoint base, por exemplo:
ai-toolkit/Wan2.2-I2V-A14B-Diffusers-bf16.Na maioria dos builds do AI Toolkit, selecionar
Wan 2.2 I2V (14B)auto-preencherá esse valor; deixe-o como está a menos que você tenha uma razão para mudá-lo. - Low VRAM
Ative Low VRAM ON para GPUs de consumidor de 24 GB ou qualquer placa que também esteja dirigindo seu display. Em placas de 48 GB+ (incluindo H100/H200), você frequentemente pode deixar OFF para velocidade desde que você mantenha sua carga de treinamento razoável (por exemplo buckets de 512/768 e ~41 frames). Se você ver OOMs intermitentes (frequentemente causados pelo maior bucket de resolução) ou você quer empurrar buckets de 1024 e/ou 81 frames, ative Low VRAM ON para estabilidade.
- Layer Offloading
Este toggle transmite partes do modelo para RAM da CPU em vez de manter todas as camadas residentes em VRAM. É necessário apenas se você está tentando rodar Wan I2V em uma GPU muito pequena (cerca de 10–12 GB VRAM) e tem muita RAM de sistema (64 GB+). Pode aproximadamente dobrar o tempo por passo mas pode trazer o pico de VRAM abaixo de ~9 GB. Para GPUs de 24 GB, comece com Layer Offloading OFF e só ligue se você ainda tiver erros de falta de memória.
Em GPUs grandes / RunComfy:
Em 48 GB+ ou em H100/H200, comece com Layer Offloading OFF. Mantenha Low VRAM OFF se você quer velocidade máxima, mas combine com buckets conservadores (512/768) e frames (≈41) primeiro. Se você empurrar 1024/81 e tiver picos de OOM, ative Low VRAM ON (ou remova 1024) para estabilizar a execução.
Painel QUANTIZATION
- Transformer
Em GPUs de 24–32 GB, defina Transformer para
4bit with ARA. Isso usa uma quantização de 4-bit junto com um Accuracy Recovery Adapter para que o uso de VRAM esteja perto do 4-bit simples enquanto a qualidade fica muito mais perto de bf16. - Text Encoder
Defina Text Encoder para
float8(ouqfloat8). Isso reduz VRAM e computação para o encoder de texto com impacto negligenciável na qualidade da LoRA do Wan 2.2 I2V.
Isso espelha as configurações de exemplo oficiais do AI Toolkit para LoRAs de vídeo Wan 2.2 e é a principal razão pela qual o treinamento é prático em placas de 24 GB. Se você encontrar problemas de estabilidade ou lentidão severa com ARA em uma configuração particular, você pode voltar para qfloat8 para o Transformer; usa mais VRAM mas se comporta muito similarmente em termos de qualidade.
Em GPUs grandes / RunComfy:
Em uma H100/H200 ou placa de workstation de 48–96 GB, você pode manter 4bit with ARA e gastar a VRAM extra em resolução mais alta, mais frames ou um rank de LoRA mais alto, ou mudar o Transformer para uma opção pura de float8 / qfloat8 para uma pilha mais simples. Voltar completamente para bf16 em todo lugar raramente é necessário para o WAN 2.2 - Treinamento LORA i2v.
5.3 Painel MULTISTAGE (high / low noise)
O painel MULTISTAGE permite que você decida qual(is) especialista(s) Wan treinar e com que frequência o treinador alterna entre eles.
- Stages to Train
Mantenha tanto High Noise quanto Low Noise em ON para a maioria das LoRAs. High noise controla composição e movimento; low noise controla detalhe e identidade.
- Switch Every
Este valor controla quantos passos você executa em um especialista antes de trocar para o outro. Com High Noise = ON, Low Noise = ON, Switch Every = 10 e Steps = 3000, o AI Toolkit treina:
- Passos 1–10 no transformer high-noise,
- Passos 11–20 no transformer low-noise,
- e repete essa alternância até o treinamento terminar.
Em GPUs grandes você pode usar Switch Every = 1 (alternar cada passo) apenas se ambos os especialistas ficarem residentes em VRAM (sem Low VRAM/offload/swap). Se Low VRAM ou qualquer offloading/swapping está envolvido, cada troca pode acionar load/unload caro, e Switch Every = 1 se torna extremamente lento. Nesse caso, prefira Switch Every = 10–50 para reduzir overhead de swap.
Para uma base de GPU de 24 GB, use:
- High Noise = ON
- Low Noise = ON
- Switch Every =
10-50
Em GPUs grandes / RunComfy:
Se ambos os especialistas ficam residentes (Low VRAM OFF, sem offloading), você pode definir Switch Every = 1 para alternância ligeiramente mais suave. Se você ver tempos de passo lentos ou swapping, use 10–50 em vez disso.
5.4 Painel TARGET (configurações de rede LoRA)
No painel TARGET você configura que tipo de adaptador está treinando e quão "largo" ele é.
- Target Type
Defina Target Type para
LoRA. - Linear Rank
Linear Rank controla a capacidade da LoRA por bloco. Rank mais alto aumenta a capacidade mas também o uso de VRAM e o risco de overfitting. Para Wan 2.2 I2V, os padrões práticos são:
- LoRAs de movimento e câmera: Rank 16 é geralmente suficiente porque elas modificam comportamento mais do que pequenos detalhes visuais.
- LoRAs de estilo: comece com Rank 16; vá para 32 apenas se o estilo é complexo e você tem margem de VRAM.
- LoRAs de personagem: comece com Rank 16 (mesmo em GPUs grandes). Vá para 32 apenas depois de confirmar que sua execução está estável (sem picos de OOM) e você especificamente precisa de mais capacidade para close-ups de rostos em alta resolução.
Em GPUs muito grandes, Rank 32 pode ajudar para estilos ricos e trabalho de personagem exigente, mas não é necessário para conseguir uma boa LoRA e pode tornar picos de OOM mais prováveis quando combinado com buckets grandes e muitos frames.
5.5 Painel SAVE
O painel SAVE controla com que frequência os checkpoints são escritos e em qual precisão.
- Data Type
Use
BF16ouFP16. Ambos estão ok para LoRAs. BF16 é ligeiramente mais estável numericamente em GPUs modernas. - Save Every
Defina Save Every para cerca de
250. Isso te dá um checkpoint a cada 250 passos. - Max Step Saves to Keep
Defina Max Step Saves to Keep entre
4e6. Isso mantém o uso de disco sob controle enquanto ainda deixa alguns checkpoints anteriores como fallback.
Você não precisa usar o último checkpoint. Muito frequentemente os melhores samples vêm de algum lugar em torno de 2000–4000 passos. A configuração do painel SAMPLE abaixo explica como julgar isso.
Se você desabilitar sampling durante o treinamento (recomendado abaixo para builds atuais de Wan I2V), mantenha alguns checkpoints (por exemplo a cada 250 passos) e avalie-os depois usando um workflow de inferência separado.
5.6 Painel TRAINING
O painel TRAINING contém a maioria dos controles importantes: batch size, learning rate, timesteps, loss e tratamento do encoder de texto.
Hiperparâmetros principais
Configure os ajustes principais de treinamento assim para uma LoRA de vídeo Wan I2V de 24 GB:
- Batch Size
Comece com
1. Modelos de vídeo são pesados, e 1 é realista mesmo em placas de 24 GB. Em H100/H200 você pode experimentar depois com batch sizes de2–4. - Gradient Accumulation
Deixe Gradient Accumulation em
1inicialmente. Batch size efetivo é batch size vezes gradient accumulation. Você pode aumentar para 2 ou 4 se VRAM está extremamente apertado e você quer um batch efetivo ligeiramente maior, mas os ganhos são modestos para vídeo. - Learning Rate
Comece com Learning Rate =
0.0001. Este é o padrão nos exemplos do AI Toolkit e é estável para LoRAs Wan. Se o treinamento parece ruidoso ou a LoRA ultrapassa rapidamente, você pode reduzir para 0.00005 no meio da execução e retomar do último checkpoint. - Steps – faixas típicas:
- LoRA de movimento pequena e focada com ~10–20 clipes: 1500–2500 passos.
- LoRA de personagem ou estilo com 20–50 clipes: 2000–3000 passos.
- Datasets muito grandes podem ir mais alto, mas geralmente é melhor melhorar a qualidade dos dados (legendas, diversidade) do que empurrar muito além de 3000–4000 passos.
- 1000 passos: ~12–18 horas
- 1500 passos: ~18–27 horas
- 2000 passos: ~24–36 horas
- 3000 passos: ~35–55 horas
- Weight Decay
Deixe Weight Decay em
0.0001a menos que você tenha uma razão específica para mudar; ele fornece regularização suave. - Loss Type
Mantenha Loss Type como
Mean Squared Error(MSE). Wan 2.2 usa um scheduler de ruído flow-matching, e MSE é o loss padrão para essa configuração.
Timesteps e scheduler
- Timestep Type
Para Wan 2.2 I2V,
Linearé o Timestep Type padrão e funciona bem para a maioria dos tipos de LoRA. Ele distribui atualizações uniformemente ao longo do schedule de flow-matching e funciona bem com a divisão entre os especialistas high-noise e low-noise. - Timestep Bias
Timestep Bias controla qual parte da trajetória você enfatiza:
- Balanced – atualizações são distribuídas entre timesteps high-noise e low-noise; este é o padrão seguro para todos os tipos de LoRA.
- Favor High Noise – foca mais nos primeiros passos ruidosos onde Wan decide layout global, movimento e cor.
- Favor Low Noise – foca mais nos passos finais limpos onde detalhes finos e identidade vivem.
- LoRAs de movimento/câmera – comece com Timestep Type = Linear, Timestep Bias = Balanced. Para LoRAs de movimento de câmera muito "puras" você pode experimentar com Favor High Noise para se apoiar mais no especialista high-noise.
- LoRAs de estilo – use Timestep Type = Linear (ou Shift) e Timestep Bias = Favor High Noise, para que a LoRA reescreva tom e cor globais enquanto o modelo base ainda lida com detalhes de estágio final.
- LoRAs de personagem – use Timestep Type = Sigmoid (ou Linear) e Timestep Bias = Balanced. Identidade e semelhança dependem mais dos passos low-noise, mas manter o bias Balanced deixa ambos os especialistas contribuírem; apenas se você especificamente quer foco extra em micro-detalhes você deve tentar um leve bias low-noise.
Por baixo dos panos, Wan 2.2 I2V usa um scheduler de ruído flow-matching. O AI Toolkit define o scheduler e sampler correspondente automaticamente para a arquitetura Wan 2.2, então você principalmente direciona o comportamento via Timestep Type, Timestep Bias e as configurações Multi-stage acima.
EMA (Exponential Moving Average)
- Use EMA
Para LoRAs, EMA é opcional e consome VRAM e tempo extra. A maioria dos usuários de LoRA Wan deixa Use EMA OFF e raramente é necessário a menos que você esteja fazendo finetunes de modelo completo.
Otimizações do Text Encoder
Na parte inferior do painel TRAINING estão as configurações de Text Encoder Optimizations. Elas controlam quão agressivamente o encoder de texto é descarregado ou cacheado.
- Unload TE
Este modo descarrega os pesos do encoder de texto para que eles não consumam mais VRAM entre os passos. Para LoRAs Wan 2.2 I2V você quase sempre depende de legendas ricas por clipe, então você deve manter Unload TE OFF no treinamento normal baseado em legendas. Apenas considere Unload TE se você está deliberadamente treinando uma LoRA muito estreita de "trigger-only / blank prompt" que não usa legendas do dataset.
- Cache Text Embeddings
Esta opção pré-computa embeddings de legendas uma vez e os reutiliza, evitando passes repetidos do encoder de texto. Ative Cache Text Embeddings ON apenas quando suas legendas são estáticas e você não está usando recursos que modificam ou randomizam o prompt a cada passo, como Differential Output Preservation, reescrita dinâmica de
[trigger]em legendas, ou qualquer coisa que dependa fortemente do comportamento de caption dropout. Nesse caso, o AI Toolkit codifica todas as legendas de treinamento uma vez, cacheia os embeddings em disco e pode remover o encoder de texto da VRAM.
Se você planeja usar DOP, Caption Dropout ou outros truques de prompt dinâmico, mantenha Cache Text Embeddings OFF para que o encoder de texto possa re-codificar o prompt real a cada batch. As seções Differential Output Preservation e Datasets explicam essas interações em mais detalhes.
Regularização – Differential Output Preservation (DOP)
A seção Regularization expõe Differential Output Preservation (DOP), que ajuda a LoRA a se comportar como uma edição residual em vez de sobrescrever o modelo base.
DOP compara a saída do modelo base (sem LoRA) com a saída habilitada por LoRA e adiciona uma penalidade quando a LoRA muda aspectos não relacionados ao seu conceito alvo. Ele tenta ensinar "o que muda quando o gatilho está presente" em vez de "retreinar o modelo inteiro".
Para LoRAs de movimento/câmera, você geralmente não precisa de DOP, porque o comportamento de movimento já é bastante localizado. Habilitar DOP aproximadamente dobra a computação adicionando passes forward extras.
Para LoRAs de estilo e personagem, DOP é frequentemente muito útil para manter intacto o forte realismo base do Wan. Uma boa configuração inicial é:
- Differential Output Preservation: ON
- DOP Loss Multiplier:
1 - DOP Preservation Class:
personpara LoRAs de personagem, ou uma classe apropriada comosceneoulandscapepara LoRAs de estilo se seu build fornece essas opções.
Nota importante de compatibilidade: Differential Output Preservation reescreve ou aumenta o texto do prompt a cada passo (por exemplo trocando sua palavra gatilho pela palavra de classe de preservação). Por isso, DOP não é compatível com Cache Text Embeddings. Se você ativar DOP ON, certifique-se de que Cache Text Embeddings está OFF para que o encoder de texto veja o prompt atualizado a cada batch.
5.7 Painel ADVANCED (Differential Guidance)
Se seu build do AI Toolkit expõe o painel ADVANCED para este modelo, ele pode incluir Do Differential Guidance e Differential Guidance Scale.
Differential Guidance computa predições "com LoRA" vs "sem LoRA" e empurra o treinamento em direção à diferença entre elas, similar em espírito ao DOP mas implementado no nível de guidance em vez de como um termo de loss separado.
Recomendações práticas:
- Ative Do Differential Guidance ON com uma Differential Guidance Scale em torno de
3para LoRAs de estilo de edição direcionada (por exemplo "fazer a câmera orbitar", "aplicar estilo neon") onde você quer que a LoRA se comporte como um modificador limpo. - Para LoRAs de estilo muito amplas e pesadas que reescrevem o visual inteiro, você pode tentar escalas mais baixas (1–2) ou deixar OFF se a LoRA parece muito fraca.
Se você está apertado em computação, você pode seguramente deixar Differential Guidance OFF para suas primeiras execuções e experimentar depois.
5.8 Painel DATASETS
Cada bloco de dataset no AI Toolkit mapeia para uma entrada na lista datasets:, mas na interface você simplesmente configura um ou mais cards de dataset.
Uma configuração típica de dataset único Wan I2V parece assim:
- Target Dataset
Escolha sua pasta de dataset de vídeo Wan I2V uploaded, por exemplo
wan_orbit_clips. - Default Caption
Esta legenda é usada quando um clipe não tem arquivo de legenda
.txt. Exemplos:LoRA de movimento:
orbit 360 around the subjectLoRA de estilo:
cinematic neon cyberpunk styleLoRA de personagem:
frung, person, portrait(ondefrungé seu token gatilho). - Caption Dropout Rate
Esta é a probabilidade de que a legenda seja descartada (substituída por uma legenda vazia) para uma amostra de treinamento. Para LoRAs Wan I2V, uma pequena quantidade de dropout encoraja o modelo a usar tanto contexto visual quanto texto. Uma faixa inicial típica é 0.05–0.10 (5–10%) quando o encoder de texto permanece carregado. Se você decidir habilitar Cache Text Embeddings no painel TRAINING, frequentemente é mais simples definir Caption Dropout Rate = 0 para evitar que um subconjunto de clipes permanentemente não tenha legenda.
- LoRA Weight
Geralmente definido como
1. Você só muda isso quando mistura múltiplos datasets e quer que um dataset conte mais ou menos no treinamento. - Settings → Cache Latents
Mantenha isso OFF para datasets de vídeo Wan I2V (Num Frames > 1). Muitos builds atuais do AI Toolkit não suportam cachear latents para datasets multi-frame e falharão durante a inicialização do dataloader com um erro como:
caching latents is not supported for multi-frame datasetsSe você intencionalmente definir Num Frames = 1 (treinamento tipo imagem), o cacheamento de latent pode funcionar e acelerar as coisas.
- Settings → Is Regularization
Deixe Is Regularization OFF para seu dataset principal. Se você adicionar um dataset de regularização separado depois, você definiria Is Regularization desse dataset como ON.
- Flipping
Flip X e Flip Y espelham frames horizontalmente ou verticalmente. Para a maioria das tarefas de vídeo você deve manter ambos OFF, especialmente para LoRAs de movimento onde flipping pode inverter semântica de movimento esquerda/direita ou para personagens com características assimétricas. Para LoRAs puramente de estilo você pode experimentar com Flip X para aumentar variação.
- Resolutions
Escolha um ou mais buckets de resolução. Em uma GPU de 24 GB você tipicamente habilita 512 e deixa 768 e 1024 desabilitados. Em 48 GB+ ou H100/H200, comece com 512 e 768 para estabilidade, depois adicione 1024 apenas se você tem margem de VRAM clara e sua execução está estável (treinamento por bucket pode disparar VRAM quando atinge o maior bucket). O AI Toolkit automaticamente atribuirá clipes ao bucket mais próximo e redimensionará conforme necessário.
- Num Frames
Defina Num Frames para o número de frames por clipe que você quer amostrar para treinamento. Um bom ponto de partida é
41. Em GPUs muito pequenas (10–12 GB) com quantização pesada e offloading, você pode reduzir isso para 21 ou até 9 apenas para fazer o treinamento funcionar, ao custo de contexto temporal mais curto.
Se você precisa de múltiplos datasets (por exemplo, um dataset principal de movimento mais um pequeno dataset de "estilo"), você pode adicionar todos no painel DATASETS e usar LoRA Weight mais o flag Is Regularization para controlar sua influência relativa.
5.9 Painel SAMPLE (previews de treinamento)
O painel SAMPLE não influencia diretamente o treinamento; ele controla como o AI Toolkit periodicamente gera vídeos de preview para que você possa escolher o melhor checkpoint.
Importante (requisito Wan I2V): O sampling Wan 2.2 I2V é imagem-para-vídeo. Cada sample deve incluir um par prompt + imagem de controle.
Se o sampling roda durante o treinamento (por exemplo disable_sampling: false, skip_first_sample: false, ou force_first_sample: true) e qualquer sample não tem ctrl_img, o passo de preview sampling pode falhar e parar o job cedo. Em muitos ambientes isso aparece como um erro confuso de mismatch de tensor como:
RuntimeError: The size of tensor a (36) must match the size of tensor b (16)
Correção: em samples, certifique-se de que cada prompt tem um ctrl_img correspondente (eles devem sempre aparecer como par). Não deixe linhas de sample apenas com prompt.
Configurações de sampling recomendadas (previews habilitados)
Se você quer previews durante o treinamento, use estas configurações:
- Sample Every
Defina Sample Every para
250. Isso corresponde à configuração Save Every para que cada checkpoint tenha um conjunto correspondente de vídeos de preview. - Sampler
Use um sampler compatível com o scheduler flow-matching do Wan, tipicamente mostrado como
FlowMatchou similar no seu build. - Width / Height
Em GPUs de 24 GB, use algo como
768 × 768ou um formato vertical como704 × 1280para samples. Evite vídeos de preview 1024×1024 a menos que você esteja confortável com sampling mais lento; o treinamento em si não requer previews 1024². - Guidance Scale
Comece com uma Guidance Scale em torno de
3.5–4, que corresponde a muitas configurações de demo do Wan 2.2. - Sample Steps
Defina Sample Steps para
25. Mais passos raramente mudam a qualidade do movimento dramaticamente e principalmente aumentam o tempo. - Seed / Walk Seed
Defina um Seed fixo como
42. Ative Walk Seed ON se você quer que cada preview tenha um seed diferente enquanto ainda está agrupado perto do original. - Num Frames
Defina Num Frames no painel SAMPLE igual ou próximo ao seu valor de treinamento. Se você treinou com 41 frames, sample com 41 também. Uma vez que a LoRA pareça boa, você pode testar generalização gerando clipes mais longos com 81 frames; treinar com 41 frequentemente generaliza surpreendentemente bem para inferência de 81 frames.
- FPS
Geralmente mantenha FPS = 16. Mudar FPS só afeta a velocidade de playback, não o movimento aprendido em si.
Para prompts, adicione 2–4 linhas de prompt que espelhem sua distribuição de treinamento. Para cada linha, anexe uma imagem de controle similar ao que você usará na inferência.
6. AI Toolkit treinamento LoRA Wan 2.2 I2V: configurações para movimento, estilo e personagem
Aqui estão receitas rápidas para tipos comuns de LoRA Wan 2.2 I2V. Trate estes como pontos de partida e ajuste baseado na avaliação de checkpoints (previews durante o treinamento podem estar desabilitados; veja o painel SAMPLE).
6.1 LoRA de movimento/câmera
Objetivo: ensinar ao Wan um novo movimento como orbit 360, orbit 180 ou um swing de câmera específico.
Use 10–30 clipes curtos (~3–8s) onde o movimento alvo é muito claro e ocupa a maior parte do clipe. Legendas devem descrever explicitamente o movimento, por exemplo orbit 180 around the subject ou orbit 360 around a futuristic city.
Diretrizes de painel:
- MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 se Low VRAM/offloading causa swapping lento).
- TARGET: Linear Rank = 16.
- TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear, Timestep Bias = Balanced, DOP OFF.
- DATASETS: Resolutions em 512/768, Num Frames = 33–41 (comece em 41; 81 é possível em H100/H200 mas espere ~2× tempo e maior VRAM), Caption Dropout Rate ≈ 0.05–0.1. Cacheamento de latent OFF para datasets multi-frame.
Treine com Save Every = 250. Previews de sampling: se você habilitar previews durante o treinamento, defina Sample Every = 250 e certifique-se de que cada entrada em samples inclui tanto prompt quanto ctrl_img (sampling Wan I2V requer a imagem de controle).
Ao avaliar checkpoints, foque em se o movimento alvo é estável através de diferentes prompts e cenas; se só funciona em quase-duplicados dos seus clipes de treinamento, prefira melhorar diversidade de dados ou aumentar ligeiramente os passos em vez de empurrar o bias para longe de Balanced.
6.2 LoRA de estilo (visual/grade de vídeo)
Objetivo: mudar o estilo visual enquanto respeita o movimento e composição base do Wan.
Use 10–40 imagens ou clipes que todos compartilham o mesmo visual mas cobrem cenas e sujeitos diversos, por exemplo grainy 16mm film look, high contrast, warm tint.
Diretrizes de painel:
- MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 se Low VRAM/offloading causa swapping lento).
- TARGET: Linear Rank = 16 para estilos simples; 16–32 para visuais complexos ou cinematográficos.
- TRAINING: Learning Rate = 0.0001, Steps ≈ 1500–2500, Timestep Type = Linear (ou Shift), Timestep Bias = Favor High Noise.
- Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class correspondendo ao seu sujeito dominante (frequentemente
personouscene), Cache Text Embeddings = OFF. - DATASETS: Resolutions 512/768 em 24 GB (e 512/768 em GPUs grandes, com 1024 opcional apenas depois de estabilidade), Num Frames = 33–41 em 24 GB (41–81 em H100/H200 se você pode pagar o tempo), Caption Dropout Rate em torno de 0.05 se Cache Text Embeddings está OFF. Cacheamento de latent OFF para datasets multi-frame.
Observe se o estilo se aplica consistentemente através de cenas e iluminação. Se começar a dominar o conteúdo ou fazer tudo parecer igual, tente diminuir o learning rate no meio da execução, voltar para um checkpoint anterior ou reduzir o rank da LoRA.
6.3 LoRA de personagem (semelhança em vídeo)
LoRAs de personagem em I2V são mais desafiadoras do que em modelos text-to-image, mas são viáveis.
Use 10–30 clipes curtos do mesmo personagem em poses, escalas, ângulos e fundos variados; legendas devem sempre incluir sua Trigger Word mais uma classe, por exemplo frung, young woman, casual clothing. Se você conseguir reunir 20–40 clipes, a robustez de identidade geralmente melhora, mas não é estritamente necessário para obter resultados usáveis.
Diretrizes de painel:
- MULTISTAGE: High Noise = ON, Low Noise = ON, Switch Every = 10 (ou 20–50 se Low VRAM/offloading causa swapping lento).
- TARGET: Linear Rank = 16 em 24 GB; 16–32 em GPUs de alto VRAM (use 32 quando você tem margem e se importa com close-ups de rostos em alta resolução).
- TRAINING: Learning Rate = 0.0001, Steps ≈ 2000–3000, Timestep Type = Sigmoid (ou Linear), Timestep Bias = Balanced.
- Regularization (DOP): Differential Output Preservation ON, DOP Loss Multiplier = 1, DOP Preservation Class =
person. - DATASETS: Comece com 512/768 (adicione 1024 apenas depois de estabilidade), Num Frames = 33–41 em 24 GB, ou 41–81 em H100/H200 (81 é significativamente mais lento). Cacheamento de latent OFF para datasets multi-frame.
A experiência da comunidade sugere que identidade e semelhança dependem mais do especialista low-noise, mas manter Timestep Bias = Balanced e usar um Timestep Type moldado (Sigmoid) geralmente dá um melhor trade-off entre semelhança e estabilidade geral do vídeo do que viesar fortemente para low noise.
7. Solução de problemas comuns de Wan I2V LoRA
The size of tensor a (36) must match the size of tensor b (16) at non-singleton dimension 1
Por que acontece: em WAN 2.2 14B I2V (arch: wan22_14b_i2v), o preview sampling durante o treinamento é imagem-para-vídeo e requer uma imagem de controle. Se qualquer entrada em samples tem um prompt mas não tem ctrl_img, o passo de preview sampling pode crashar e às vezes aparecer como o mismatch de tensor acima.
O que fazer: em samples, certifique-se de que cada prompt tem um ctrl_img correspondente (eles devem sempre aparecer como par). Não deixe linhas de sample apenas com prompt.
caching latents is not supported for multi-frame datasets
Isso acontece quando o cacheamento de latent está habilitado em um dataset de vídeo (Num Frames > 1).
Correção: No painel DATASETS, defina Cache Latents / Cache Latents to Disk = OFF para datasets de vídeo Wan I2V.
Movimento muito rápido comparado à fonte
Isso geralmente acontece se você treinou com menos frames por clipe do que sua configuração de inferência. Por exemplo, você pode ter treinado com 21 ou 41 frames mas está fazendo sampling com 81 frames com FPS fixo em 16. O mesmo movimento é "esticado" diferentemente.
Você pode corrigir isso diminuindo FPS no painel SAMPLE (apenas para playback), ou treinando e fazendo sampling com um Num Frames consistente como 41 para que o comportamento temporal seja mais previsível.
Câmera não se move ou composição mal muda
Se a câmera mal se move ou a composição parece com o modelo base:
Verifique se você está realmente treinando o estágio high-noise e que Timestep Bias não está definido muito fortemente para timesteps baixos. Certifique-se de que High Noise está ON no painel MULTISTAGE e Timestep Bias está Favor High para LoRAs de movimento. Também verifique se as legendas descrevem claramente o movimento desejado; Wan não pode aprender movimento que não está visível nem nomeado.
Detalhes e rostos parecem piores que o Wan base
Se sua LoRA remove detalhe ou piora rostos:
Tente aumentar Linear Rank ligeiramente (por exemplo de 16 para 32) e favorecer low noise no Timestep Bias para que mais sinal de treinamento caia em timesteps tardios onde identidade e detalhe vivem. Você também pode diminuir o learning rate e retomar de um checkpoint anterior.
LoRA faz overfit e só funciona em cenas parecidas com treinamento
Se a LoRA só parece correta em cenas muito similares aos dados de treinamento:
Reduza o número total de Steps (por exemplo de 5000 para 3000), aumente a diversidade do dataset e considere habilitar Differential Output Preservation se está atualmente desligado. Se DOP já está ON e o efeito ainda é muito estreito, diminua ligeiramente o rank da LoRA e/ou o learning rate.
Erros de VRAM out-of-memory
Se o treinamento frequentemente fica sem VRAM:
Reduza qualquer combinação de:
- buckets de resolução (remova 1024 e mantenha 512/768),
- Num Frames (por exemplo de 41 para 21),
- batch size (mantenha em 1 se não estiver já).
Ative Low VRAM ON, ative Layer Offloading ON se você só tem 10–12 GB VRAM e muita RAM de sistema, e certifique-se de que quantização está definida para float8 para tanto o transformer quanto o encoder de texto no painel QUANTIZATION. Se VRAM local ainda não é suficiente, considere rodar o mesmo job do AI Toolkit no cloud do RunComfy com uma GPU H100 ou H200, onde você pode manter as configurações muito mais simples.
Se você está vendo OOM mesmo em GPUs grandes (por exemplo H100), geralmente é um problema de pico de bucket:
- Remova o bucket 1024 até a execução estar estável, depois re-adicione depois.
- Reduza Num Frames (41 → 33 → 21).
- Mantenha Layer Offloading OFF a menos que você realmente precise (pode tornar execuções mais lentas e mais propensas a swap).
- Se swapping está envolvido, aumente MULTISTAGE Switch Every (10–50) para evitar overhead de unload/load por passo.
- Prefira quantização mais agressiva para memória: Transformer 4bit with ARA (ou qfloat8 se ARA está instável) e Text Encoder float8/qfloat8.
Treinamento é muito mais lento que esperado (dezenas de segundos por passo)
O treinamento de LoRA Wan 2.2 I2V é lento por natureza: cada passo processa muitos frames, e treinar ambos os especialistas significa que você frequentemente precisa de mais passos totais para dar a cada estágio atualizações suficientes.
Verificação de realidade (expectativas de tempo típicas): com 41 frames e buckets mistos de 512/768/1024, 3000 passos em uma H100 são geralmente dezenas de horas (frequentemente ~35–55 horas). Sampling com 81 frames é aproximadamente ~2× esse cálculo/tempo. Em GPUs menores (especialmente com quantização + offloading), ver dezenas de segundos por passo pode ser normal.
Se parece irrazoavelmente lento ou fica mais lento ao longo do tempo:
- Reduza Num Frames (41 → 33 → 21).
- Remova o bucket 1024 (fique com 512/768).
- Evite Layer Offloading a menos que você realmente precise.
- Se Low VRAM/offload/swapping está habilitado, não use Switch Every = 1; use 10–50.
- Se previews estão habilitados, mantenha o sampling infrequente (por exemplo Sample Every = 250) para que o sampling não interrompa o treinamento com muita frequência.
8. Exportar e usar sua Wan I2V LoRA
Uma vez que o treinamento está completo, você pode usar sua Wan 2.2 I2V 14B LoRA de duas formas simples:
- Model playground – abra o Wan 2.2 I2V 14B LoRA playground e cole a URL da sua LoRA treinada para ver rapidamente como ela se comporta em cima do modelo base.
- Workflows ComfyUI – inicie uma instância ComfyUI, construa um workflow, conecte sua LoRA e ajuste finamente seu peso e outras configurações para controle mais detalhado.
Mais guias de treinamento LoRA do AI Toolkit
- Wan 2.2 T2V 14B treinamento LoRA texto-para-vídeo
- FLUX.2 dev treinamento LoRA com AI Toolkit
- Z-Image Turbo treinamento LoRA com AI Toolkit (8-step Turbo)
- Qwen-Image-Edit-2511 treinamento LoRA com AI Toolkit (edição multi-imagem)
- Qwen-Image-Edit-2509 treinamento LoRA com AI Toolkit (edição multi-imagem)
- Qwen Image 2512 treinamento LoRA
- LTX-2 treinamento LoRA com AI Toolkit
Ready to start training?

