Esta página é uma visão geral de fine‑tuning de LoRA com o Ostris AI Toolkit. Para uma receita específica por modelo, vá direto para um destes guias:
- Treinamento LoRA de FLUX.2 Dev com AI Toolkit
- Treinamento LoRA de LTX-2 com AI Toolkit
- Treinamento LoRA de Z‑Image Turbo com AI Toolkit
- Treinamento LoRA de Qwen Image 2512 com AI Toolkit
- Treinamento LoRA de Qwen‑Image‑Edit‑2511 com AI Toolkit
- Treinamento LoRA de Qwen‑Image‑Edit‑2509 com AI Toolkit
- Treinamento LoRA de Wan 2.2 I2V 14B com AI Toolkit
- Treinamento LoRA de Wan 2.2 T2V 14B com AI Toolkit
Ao final deste guia, você deve:
- Entender as ideias centrais do treinamento LoRA (o que realmente está acontecendo quando você faz fine‑tuning).
- Saber como o AI Toolkit é organizado e o que cada painel controla.
- Entender o que fazem os principais parâmetros (learning rate, rank, steps, noise schedule, DOP, etc.) para ajustar de forma consciente.
- Conseguir treinar LoRAs na sua máquina ou no RunComfy Cloud AI Toolkit e depois reaproveitá-las no seu fluxo normal de geração.
Índice
- 1. O que é o Ostris AI Toolkit? (treinador LoRA para modelos de difusão)
- 2. Modelos suportados no Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
- 3. Instalar o Ostris AI Toolkit localmente e usar o RunComfy Cloud AI Toolkit
- 4. Visão geral da Web UI do Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)
- 5. Fundamentos do treinamento LoRA e hiperparâmetros principais no AI Toolkit
- 6. Mapeando conceitos de LoRA para parâmetros do AI Toolkit
- 7. Fluxo rápido: treine um LoRA utilizável no Ostris AI Toolkit
- 8. Troubleshooting do treinamento LoRA no AI Toolkit: erros comuns e correções
1. O que é o Ostris AI Toolkit? (treinador LoRA para modelos de difusão)
Ostris AI Toolkit é uma suíte de treinamento focada em modelos de difusão para imagens e vídeos. Ele não cobre modelos de linguagem nem de áudio; tudo que ele suporta é um modelo de difusão estilo DDPM (por exemplo SD 1.5 ou SDXL) ou um diffusion‑transformer moderno como Flux, Wan, Qwen‑Image, Z‑Image ou OmniGen2. O toolkit é construído em torno de adaptadores do tipo LoRA: na prática, quando você faz fine‑tuning com AI Toolkit, você não está re‑treinando a rede inteira, e sim treinando pequenas LoRAs (ou adaptadores leves similares) sobre um modelo base congelado.
Principais recursos do Ostris AI Toolkit para treinamento de LoRA
O AI Toolkit fornece um motor de treinamento e um sistema de configuração comum para todas as famílias suportadas. Cada modelo (Flux, Z‑Image Turbo, Wan 2.2, Qwen‑Image, SDXL, etc.) tem seu preset, mas todos se encaixam na mesma estrutura: carregamento do modelo, quantização, definição do adaptador LoRA/LoKr, hiperparâmetros de treino, tratamento do dataset e regras de sampling. Por isso a Web UI é consistente, seja para treinar uma LoRA de Flux, uma LoRA de Z‑Image Turbo ou uma LoRA de vídeo de Wan.
Além do motor, o AI Toolkit vem com CLI e Web UI completa. A CLI roda jobs a partir de YAML; a Web UI é uma camada gráfica sobre esses YAMLs. Na UI, “AI Toolkit” geralmente significa a tela de New Job: você escolhe a família do modelo, o tipo de LoRA e o rank, define learning rate e steps, conecta um ou mais datasets e define com que frequência gerar samples. Há painéis dedicados (Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample), então raramente você precisa mexer no YAML. O fluxo é o mesmo localmente ou no RunComfy Cloud AI Toolkit.
Ferramentas integradas para treinamento de LoRA no Ostris AI Toolkit
O AI Toolkit traz uma série de recursos “batteries‑included”:
- Quantização e modos de baixa VRAM – quantização configurável do transformer (8/6/4 bits e 3‑bit com recovery adapters) + offloading, para treinar modelos grandes (Flux/Wan) em GPUs de 24–48GB, controlando trade‑offs de qualidade/velocidade.
- Adaptadores LoRA / LoKr – suporte a LoRA padrão e LoKr (mais compacto, mas nem sempre universalmente compatível), selecionável via
Target Type. - Differential Output Preservation (DOP) – loss de regularização que compara saída do modelo base vs com LoRA em imagens de regularização e penaliza mudanças indesejadas, reduzindo “bleeding”.
- Differential Guidance para modelos turbo – opção muito usada em Z‑Image Turbo para focar o update no “que deve mudar” vs base, ajudando adaptação em modelos few‑step/turbo.
- Treino multi‑stage por ruído – etapas de alto/baixo ruído para equilibrar estrutura e detalhe.
- Cache de latentes e embeddings de texto –
Cache LatentseCache Text Embeddingstrocam disco por velocidade/VRAM. - EMA – média móvel exponencial opcional para estabilizar convergência em datasets pequenos.
2. Modelos suportados no Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
O AI Toolkit atualmente suporta:
- Modelos de IMAGEM – imagem única (Flux, Z‑Image Turbo, Qwen‑Image, SD, etc.).
- Modelos de INSTRUÇÃO / EDIÇÃO – edição/instruction following (Qwen‑Image‑Edit, Flux Kontext, HiDream E1).
- Modelos de VÍDEO – text‑to‑video e image‑to‑video (série Wan 2.x).
2. Modelos suportados no Ostris AI Toolkit (Flux, Wan, Z‑Image, Qwen‑Image, SDXL)
O AI Toolkit atualmente suporta:
- Modelos de IMAGEM – imagem única (Flux, Z‑Image Turbo, Qwen‑Image, SD, etc.).
- Modelos de INSTRUÇÃO / EDIÇÃO – edição/instruction following (Qwen‑Image‑Edit, Flux Kontext, HiDream E1).
- Modelos de VÍDEO – text‑to‑video e image‑to‑video (série Wan 2.x).
| Categoria | Família de modelo na UI do AI Toolkit | Requisitos / recomendações de VRAM |
|---|---|---|
| IMAGEM | FLUX.1 / FLUX.2 | VRAM: 24GB+ mínimo. Recomendado: 48GB+ para ranks (32–64) e 1024+ buckets. Notas: quantização + Low VRAM pode viabilizar 24GB; SSD ajuda no cache. |
| INSTRUÇÃO | FLUX.1‑Kontext‑dev | VRAM: 24GB+ base. Recomendado: 48GB+ ao subir resolução/conditioning/rank. |
| IMAGEM | Qwen‑Image, Qwen Image 2512 | VRAM: 24GB+ recomendado. Conforto: 32GB+. |
| INSTRUÇÃO | Qwen‑Image‑Edit, Qwen‑Image‑Edit‑2509, Qwen‑Image‑Edit‑2511 | VRAM: 32GB+ recomendado. Regra: 1024px ~27–28.5GB; 768px ~25–26GB; 24GB costuma sofrer. |
| IMAGEM | Z‑Image Turbo | VRAM: pensado para 16–24GB. Notas: rank 8–16 e buckets 512/768/1024. |
| VÍDEO | Wan 2.2 (14B), Wan 2.2 T2V (14B), Wan 2.2 I2V (14B) | VRAM: 24GB base com ajustes cuidadosos. Recomendado: 48GB+ para conforto/velocidade. |
| VÍDEO | LTX-2 | VRAM: 24–48GB com quantização/offload. Recomendado: 48GB+. |
| VÍDEO | Wan 2.2 T12V (5B) | VRAM: 16–24GB conforme resolução/frames. |
| VÍDEO | Wan 2.1 (1.3B / 14B) | VRAM: varia por variante; 14B geralmente quer 24GB+. |
| VÍDEO | Wan 2.1 I2V (14B‑480P / 14B‑720P) | VRAM: 24GB+ base; 720P costuma preferir 48GB+. |
| IMAGEM | SD 1.5, SDXL | VRAM: SD 1.5 ~8GB+; SDXL ~12–16GB+. |
| IMAGEM | OmniGen2 | VRAM: depende; 24GB é base segura para 1024. |
| IMAGEM | Chroma | VRAM: depende; trate como modelos modernos (24GB base; 48GB+ conforto). |
| IMAGEM | Lumina2 | VRAM: depende; trate como modelos modernos (24GB base; 48GB+ conforto). |
| IMAGEM | HiDream | VRAM: alto; 48GB+ recomendado para 1024+. |
| INSTRUÇÃO | HiDream E1 | VRAM: alto; 48GB+ recomendado. |
| IMAGEM | Flex.1 / Flex.2 | VRAM: mais leve; 12–16GB pode funcionar dependendo do setup. |
3. Instalar o Ostris AI Toolkit localmente e usar o RunComfy Cloud AI Toolkit
3.1 Instalação local (Linux/Windows)
Veja o README oficial no GitHub.
No Linux:
git clone https://github.com/ostris/ai-toolkit.git
cd ai-toolkit
python3 -m venv venv
source venv/bin/activate
# PyTorch com CUDA (ajuste versões se necessário)
pip3 install --no-cache-dir torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 \
--index-url https://download.pytorch.org/whl/cu126
pip3 install -r requirements.txt
Para iniciar a Web UI:
cd ui
npm run build_and_start
A UI fica em http://localhost:8675. Em máquina remota, defina AI_TOOLKIT_AUTH para proteger o acesso.
3.2 Usar o RunComfy Cloud AI Toolkit (sem instalação local)
No modo cloud:
- Tudo roda na nuvem; você só abre o navegador.
- Você pode usar GPUs grandes (80GB/141GB VRAM).
- Datasets/configs/checkpoints ficam no workspace persistente do RunComfy.
Abra aqui: RunComfy Cloud AI Toolkit
4. Visão geral da Web UI do Ostris AI Toolkit (Dashboard, Datasets, New LoRA Job)
4.1 Dashboard e Training Queue
O Dashboard mostra status. A Training Queue é onde você:
- acompanha estado do job (queued/running/finished/failed),
- abre logs, para/encerra jobs,
- baixa checkpoints e samples.
4.2 Gerenciador de datasets
Em Datasets, você cria datasets nomeados para anexar a jobs, incluindo datasets principais e, se necessário, datasets de regularização para DOP.
4.3 New Job: tela principal de configuração
O New Job reúne painéis de Job/Model/Quantization/Target/Save/Training/Regularization/Datasets/Sample.
5. Fundamentos do treinamento LoRA e hiperparâmetros principais no AI Toolkit
LoRA adiciona um update de baixo rank aos pesos congelados (W_new = W + alpha A B).
Rank controla capacidade; learning rate/steps controlam intensidade e duração; dataset/captions controlam “o que” o LoRA aprende.
6. Mapeando conceitos de LoRA para parâmetros do AI Toolkit
Pontos práticos:
- JOB:
Trigger Wordpode ser injetado sem editar arquivos. - MODEL: modelos gated exigem
HF_TOKEN. - QUANTIZATION: 6‑bit no transformer é um bom ponto de partida em 24GB para Flux/Wan.
- TARGET: comece com rank 16; suba só se necessário.
- SAVE: alinhe
Save EveryeSample Every. - TRAINING:
AdamW8Bité padrão forte; ajuste learning rate conforme under/overfitting. - Text Encoder:
Cache Text Embeddingssó quando captions não mudam por step (sem DOP/dinâmica). - DOP: requer dataset com
Is Regularizatione captions sem trigger.
7. Fluxo rápido: treine um LoRA utilizável no Ostris AI Toolkit
1) Prepare dados limpos e variados, com trigger token único.
2) Crie o dataset (cheque contagem/captions/resoluções).
3) No job, foque em: trigger, rank, steps, learning rate, buckets.
4) Use prompts de sample para: ativação, generalização, leak test.
5) Ajuste uma coisa por vez.
8. Troubleshooting do treinamento LoRA no AI Toolkit: erros comuns e correções
- Dataset vazio: conferir Datasets e
Target Dataset. - Erro HF: aceitar licença (se gated) +
HF_TOKENno.env. - CUDA OOM: reduzir buckets/rank, usar Low VRAM/quantização, reduzir sampling/batch.
- Overfitting/leak: escolher checkpoint mais cedo, reduzir steps/rank, aumentar weight decay, ativar DOP com dataset de regularização.
Ready to start training?

