AI Toolkit LoRA Training Guides

Treinamento LoRA Z‑Image Base com Ostris AI Toolkit

Este guia mostra como treinar uma LoRA de alta qualidade para Z‑Image Base no Ostris AI Toolkit, ajustando dataset, rank/LR/steps e o sampling estilo Base (30–50 steps + CFG) para resultados estáveis.

Train Diffusion Models with Ostris AI Toolkit

Role horizontalmente para ver o formulário completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Treinamento LoRA Z‑Image (Base) com Ostris AI Toolkit

Z‑Image (Base) é o checkpoint Z‑Image completo (não o Turbo de 8 passos). Ele foi projetado para text‑to‑image de alta qualidade com CFG + prompts negativos e mais passos de amostragem, e também é a melhor escolha se o seu objetivo é um LoRA limpo e totalmente controlável (personagem, estilo, produto, conceitos com muita tipografia).

Ao final deste guia de Treinamento LoRA Z‑Image, você vai conseguir:

  • Fazer um Treinamento LoRA Z‑Image no AI Toolkit do Ostris (local ou cloud).
  • Escolher padrões que realmente batem com o comportamento de inferência do Z‑Image Base (steps + CFG + resolução).
  • Evitar os erros mais comuns no Treinamento LoRA Z‑Image Base (config de Turbo, “o LoRA não faz nada”, mismatch Base↔Turbo).
  • Exportar checkpoints que você pode usar imediatamente na sua UI de inferência.
Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do AI Toolkit LoRA training antes de seguir este Treinamento LoRA Z‑Image:
https://www.runcomfy.com/pt/trainer/ai-toolkit/getting-started

Índice


1. Visão geral do Z‑Image: o que ele faz (e como difere do Turbo)

1.1 O que “Z‑Image Base” significa

“Z‑Image Base” se refere ao checkpoint Z‑Image não destilado. Na prática:

  • Ele espera mais passos de amostragem (pense em ~30–50, não 8).
  • Ele usa CFG e prompts negativos de forma eficaz.
  • É o melhor alvo para fine‑tuning LoRA (keyword alternativa 1 vez) quando você quer máximo controle e qualidade no Treinamento LoRA Z‑Image.

1.2 Base vs Turbo (a implicação mais importante para treinamento)

Um erro frequente no Treinamento LoRA Z‑Image é treinar (ou avaliar) o Base como se fosse Turbo.

  • Configurações de Turbo (8 steps, pouco/nenhum CFG) fazem o output do Base parecer “cru” e podem fazer você achar que seu LoRA “não está funcionando”.
  • Configurações de Base (30–50 steps + CFG normal) são a forma correta de julgar checkpoints.

Regra de bolso:

Se você treinou um LoRA para Base, avalie no Base com amostragem estilo Base.


2. Opções de ambiente: AI Toolkit local vs AI Toolkit cloud no RunComfy

Você pode fazer este Treinamento LoRA Z‑Image de duas formas:

  • AI Toolkit local (sua própria GPU)

    Instale o AI Toolkit a partir do repositório no GitHub e execute a Web UI. O Treinamento LoRA Z‑Image local é ideal se você tem uma GPU NVIDIA, está confortável gerenciando CUDA/drivers e quer um setup persistente para iterar seus LoRAs.

    https://github.com/ostris/ai-toolkit

  • AI Toolkit cloud no RunComfy (H100 / H200)

    O AI Toolkit roda no navegador em GPUs grandes:

    • Sem instalação (só abrir a UI)
    • VRAM grande para buckets de resolução alta (1280 / 1536)
    • Workspace persistente para datasets, configs e execuções anteriores

O workflow do Treinamento LoRA Z‑Image é o mesmo nos dois ambientes; só muda onde a GPU está.


3. Requisitos de hardware e VRAM para o Treinamento LoRA Z‑Image Base

O Z‑Image pode rodar em GPUs relativamente modestas para inferência, mas o Treinamento LoRA Z‑Image ainda escala fortemente com:

  • Bucket de resolução (768 vs 1024 vs 1536)
  • Quantização (float8)
  • Rank do LoRA
  • Configurações de amostragem durante o treino (resolução do preview + steps do preview)

Um jeito prático de pensar no Treinamento LoRA Z‑Image:

  • 12–16GB VRAM: dá para fazer em 512/768 com ajustes cuidadosos
  • 24GB VRAM: confortável para Treinamento LoRA em 1024
  • 48GB+ VRAM: caminho mais fácil para buckets 1280/1536 e iteração mais rápida
Se seu objetivo é tipografia pesada ou fidelidade de produto, planeje resolução mais alta e aceite que a VRAM sobe rapidamente.

4. Montando um dataset para Treinamento LoRA Z‑Image Base

Z‑Image Base não é “especial” em formatos de dataset — mas ele é sensível a como você avalia a qualidade. Então o seu dataset para Treinamento LoRA Z‑Image deve ser desenhado para bater com o comportamento que você quer na inferência (CFG + mais steps).

4.1 Escolha seu objetivo (e o formato do dataset)

  • Personagem / semelhança: 15–50 imagens

    Misture close‑ups + meio corpo + variações de luz.

  • Estilo: 30–200 imagens

    Maximize a variedade de assuntos para o modelo aprender “cues de estilo”, não uma cena.

  • Produto / conceito: 20–80 imagens

    Enquadramento consistente e captions claras para características definidoras (materiais, texto do rótulo, formato).

4.2 Captions + trigger (mantenha simples)

  • Use um trigger se você quer um botão “liga/desliga” limpo (recomendado para personagem/produto no Treinamento LoRA Z‑Image).
  • Mantenha as captions curtas e consistentes. Captions longas aumentam o vínculo acidental (cabelo/fundo vira “parte do trigger”).

Templates rápidos

  • Personagem:

    [trigger]

    ou photo of [trigger], portrait, natural lighting

  • Estilo:

    in a [style] illustration style, soft shading, muted palette

  • Produto:

    product photo of [trigger], studio lighting, clean background


5. Passo a passo: Treinamento LoRA Z‑Image no AI Toolkit

Esta seção foi escrita para coincidir com os painéis da UI do AI Toolkit que você vê ao criar um novo job de Treinamento LoRA Z‑Image.

5.1 Painel JOB (Training Name, GPU ID, Trigger Word)

  • Training Name: um nome de run descritivo (ex.: zimage_base_character_v1)
  • GPU ID: selecione sua GPU (local) ou mantenha o padrão (cloud)
  • Trigger Word (opcional, mas recomendado para personagem/produto no Treinamento LoRA Z‑Image):

    Exemplo: zimgAlice

5.2 Painel MODEL (Model Architecture, Name or Path, Options)

  • Model Architecture: escolha Z‑Image
  • Name or Path: defina o repo do modelo base, tipicamente:

    Tongyi-MAI/Z-Image

  • Options
    • Low VRAM: ON se você tem ≤ 24GB
    • Layer Offloading: OFF por padrão; ON apenas se você ainda tiver OOM depois de baixar resolução/rank

5.3 Painel QUANTIZATION (Transformer, Text Encoder)

  • Transformer: float8 (default) é um ótimo padrão para caber buckets maiores.
  • Text Encoder: float8 (default) se você precisa de folga de VRAM.

Se você tem muita VRAM, pode reduzir quantização por simplicidade — mas float8 costuma ser uma baseline segura para Treinamento LoRA Z‑Image.

5.4 Painel TARGET (Target Type, Linear Rank)

  • Target Type: LoRA
  • Linear Rank (padrões práticos para Treinamento LoRA Z‑Image)
    • 16: LoRAs de estilo, runs low‑VRAM
    • 32: LoRAs de personagem/produto, mais fidelidade
    • 48+: só se você tem muita VRAM e sabe que está underfitting

5.5 Painel SAVE (Data Type, Save Every, Max Step Saves to Keep)

  • Data Type: BF16
  • Save Every: 250 (checkpoints suficientes para escolher o melhor)
  • Max Step Saves to Keep: 4 (evita inchar o disco)

5.6 Painel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline estável para Treinamento LoRA Z‑Image

  • Batch Size: 1
  • Gradient Accumulation: 1 (aumente se quiser um batch efetivo maior sem VRAM)
  • Steps: veja abaixo (faixas por objetivo)
  • Optimizer: AdamW8Bit
  • Learning Rate: 0.0001 (baixe para 0.00005 se instável)
  • Weight Decay: 0.0001
  • Timestep Type: Weighted
  • Timestep Bias: Balanced
  • Loss Type: Mean Squared Error
  • EMA: OFF para a maioria dos runs

Steps: uma diretriz “Base‑friendly”

Z‑Image Base costuma tolerar treinos mais longos do que modelos destilados estilo Turbo, mas você ainda quer parar antes de a fidelidade ao prompt colapsar.

  • Personagem / semelhança: 3000–7000 steps (o sweet spot depende do tamanho do dataset)
  • Estilo: 2000–6000 steps
  • Produto / conceito: 2500–6500 steps

Para um “smoke test” rápido do seu Treinamento LoRA Z‑Image, rode 1000–1500 steps, cheque as amostras e então faça um run completo.

5.7 Otimizações do Text Encoder + Regularização (lado direito)

  • Unload TE: mantenha OFF a menos que você queira comportamento só‑trigger e sem captions
  • Cache Text Embeddings: habilite apenas se você usa captions estáticas e sem caption dropout

Differential Output Preservation (DOP)

Se sua UI tiver:

  • Habilite Differential Output Preservation quando for importante “o LoRA só ativa quando solicitado”
  • Se DOP estiver ON, não cacheie text embeddings (conflito conceitual)

5.8 Painel ADVANCED

  • Do Differential Guidance: mantenha OFF a menos que você já use no seu workflow e saiba o que está ajustando.

5.9 Painel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Use as configurações do dataset exatamente como aparecem para Treinamento LoRA Z‑Image:

  • Target Dataset: selecione seu dataset
  • Default Caption: template curto opcional (ou deixe em branco se você usa .txt por imagem)
  • Caption Dropout Rate: 0.05 (mude para 0 se você cachear text embeddings)
  • Cache Latents: ON para velocidade
  • Is Regularization: OFF no dataset principal
  • Flip X / Flip Y: OFF por padrão (principalmente para logos/texto)
  • Resolutions (a alavanca mais importante no Treinamento LoRA Z‑Image Base)
    • Low VRAM: 512 + 768
    • 24GB: 768 + 1024 (ou só 1024 se o dataset for consistente)
    • High VRAM: adicione 1280 / 1536 para melhor fidelidade produto/texto

5.10 Painel SAMPLE (onde Base vs Turbo mais importa)

Este é o lugar #1 onde as pessoas configuram errado o Z‑Image Base no Treinamento LoRA Z‑Image.

Padrões recomendados de amostragem para Base

  • Sample Every: 250
  • Sampler: FlowMatch (para combinar a família do scheduler)
  • Guidance Scale: 4 (o range típico do Base é ~3–5; ajuste ao gosto)
  • Sample Steps: 30–50 (comece em 30)
  • Width / Height: combine com seu bucket principal (1024×1024 é uma boa baseline)
  • Adicione um conjunto pequeno de prompts que cubra:
    • o trigger (se você usa)
    • composições diferentes
    • pelo menos um prompt “difícil” que pressione identidade/estilo/geometria do produto

Prompt negativo opcional (Base suporta bem)

Use um prompt negativo curto para previews e reduzir artefatos, por exemplo:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Iniciar o treino e monitorar

Inicie o job e acompanhe no seu Treinamento LoRA Z‑Image:

  • Samples a cada intervalo de checkpoint (250 steps)
  • Fidelidade ao prompt (os prompts ainda são respeitados?)
  • Sinais de overfit (mesmo rosto/textura em todo lugar, fundos colapsam)

Escolha o checkpoint em que o LoRA está forte sem virar um filtro sempre ligado.


6. Configs recomendadas de Treinamento LoRA Z‑Image por faixa de VRAM

Tier 1 — 12–16GB (VRAM apertada)

  • Low VRAM: ON
  • Quantization: float8 para Transformer + Text Encoder
  • Linear Rank: 16
  • Resolutions: 512 + 768
  • Sample Steps: 30 (mantenha o preview em 768 se precisar)
  • Steps: 2000–5000 dependendo do tamanho do dataset

Tier 2 — 24GB (tier local mais prático)

  • Low VRAM: ON (tente OFF depois de estabilizar)
  • Quantization: float8
  • Linear Rank: 32 (personagem/produto), 16–32 (estilo)
  • Resolutions: 768 + 1024 (ou só 1024 se consistente)
  • Sample Steps: 30–40
  • Steps: 3000–7000 dependendo do objetivo

Tier 3 — 48GB+ (ou cloud H100/H200)

  • Low VRAM: OFF (opcional)
  • Quantization: opcional (float8 continua ok)
  • Linear Rank: 32–48
  • Resolutions: 1024 + 1280 + 1536 (se seu dataset suportar)
  • Sample Steps: 40–50 para melhor qualidade de preview
  • Steps: mesmas faixas por objetivo; você só itera mais rápido

7. Problemas comuns do treino do Z‑Image Base e como corrigir

Estes são problemas específicos do Z‑Image Base (não erros genéricos do AI Toolkit).

“Base parece cru / com pouco detalhe”

Causa provável: poucos steps e/ou resolução baixa demais.

Correção

  • Aumente os sample steps para 40–50
  • Tente um bucket mais alto (1280/1536) se sua VRAM permitir
  • Se seu workflow de inferência tiver um parâmetro “shift”, alguns usuários relatam melhor coerência com shift em faixa média (ex.: ~4–6). Use isso só como ajuste fino depois que steps/CFG estiverem corretos.

“Meu LoRA Base funciona no Base mas não no Turbo”

Isso é esperado em muitos casos:

  • Turbo é destilado e se comporta diferente (especialmente em CFG/negativos e “quão forte os LoRAs pegam”).

Correção

  • Se você precisa de deploy no Turbo, considere treinar num workflow focado em Turbo em vez de assumir transferência Base↔Turbo 1:1.
  • Para melhores resultados, treine e faça deploy na mesma família (Base→Base).

“Texto/logos inconsistentes”

Z‑Image Base pode fazer ótima tipografia, mas é sensível à resolução e ao sampling no Treinamento LoRA Z‑Image.

Correção

  • Treine em 1024+ (e considere 1280/1536 se possível)
  • Avalie com 40–50 steps
  • Evite Flip X se texto importa
  • Faça captions consistentes da característica de texto chave (não dependa do trigger para implicar isso)

8. Usando seu LoRA Z‑Image Base após o Treinamento LoRA Z‑Image

Run LoRA — abra a página Run LoRA do Z‑Image. Nesta página de inferência do modelo base, você pode selecionar um asset LoRA que treinou no RunComfy ou importar um arquivo LoRA que treinou com AI Toolkit, e então executar inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit a partir da sua configuração de treinamento, então o que você viu durante o treinamento é o que você obtém na inferência — esse alinhamento de training/inference ajuda a manter resultados consistentes com suas amostras de Treinamento LoRA Z‑Image. Você também pode fazer deploy do seu LoRA como um endpoint dedicado usando a página Deployments


Mais guias de treinamento LoRA com AI Toolkit

Ready to start training?