AI Toolkit LoRA Training Guides

Treinamento LoRA Z-Image (Z-Image Turbo + De-Turbo) com Ostris AI Toolkit

Este guia explica como treinar uma LoRA Z-Image de alta qualidade com o Ostris AI Toolkit: selecionar a base correta (Turbo + training adapter vs De-Turbo) e depois ajustar dataset, rank/LR/steps e configurações de sampling para obter resultados estáveis.

Train Diffusion Models with Ostris AI Toolkit

Role horizontalmente para ver o formulário completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image é um modelo de geração de imagens de 6B parâmetros da Tongyi‑MAI construído sobre um Scalable Single‑Stream Diffusion Transformer (S3‑DiT). É incomumente eficiente para seu tamanho e projetado para rodar em 1024×1024 em GPUs de consumo.

Este guia de Treinamento LoRA Z-Image Turbo cobre as duas abordagens mais comuns e práticas para treinar LoRA Z-Image Turbo:

1) Z‑Image Turbo (com Training Adapter) — ideal quando você quer que seu LoRA rode com verdadeira velocidade Turbo de 8 passos após o treinamento.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal quando você quer uma base de‑destilada que pode treinar sem adaptador, ou para fine-tunes mais longos.

Ao final deste guia, você será capaz de:

  • Escolher a base Z‑Image correta (Turbo+adaptador vs De‑Turbo) para seu objetivo.
  • Preparar um dataset que funcione com treinamento destilado estilo Turbo.
  • Configurar Ostris AI Toolkit (localmente ou no RunComfy Cloud AI Toolkit) painel por painel.
  • Entender por que cada parâmetro importa, para que você possa ajustar em vez de copiar e colar.
Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA com AI Toolkit antes de mergulhar neste guia.

Início rápido (configuração base recomendada)

Opção A — Turbo + training adapter (recomendado para a maioria dos LoRAs)

Use esta opção para treinar LoRA Z-Image Turbo se você quer que seu LoRA mantenha o comportamento rápido de 8 passos do Turbo após o treinamento.

Por que isso importa:

  • Turbo é um modelo "estudante" destilado: comprime um processo de difusão de múltiplos passos mais lento em ~8 passos.
  • Se você treinar no Turbo como um modelo normal, suas atualizações podem desfazer a destilação ("deriva do Turbo"), e você vai precisar de mais passos / mais CFG para obter a mesma qualidade.
  • O training adapter "de‑destila" temporariamente o Turbo durante o treinamento para que seu LoRA aprenda seu conceito sem quebrar o comportamento de 8 passos do Turbo. Na inferência, você remove o adaptador e mantém apenas seu LoRA.

Configurações base:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • Mantenha o padrão se sua UI preencher automaticamente (RunComfy geralmente usa v2 como padrão), ou configure explicitamente:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (para 10–30 imagens)
  7. DATASETS → Resolutions: 512 / 768 / 1024 e Cache Latents = ON
  8. SAMPLE (para previews):
    • 1024×1024, 8 passos (ou 9 se seu pipeline trata 9 como "8 DiT forwards")
    • Guidance scale = 0 (Turbo é guidance‑destilado)
    • Amostrar a cada 250 passos

Opção B — De‑Turbo (base de‑destilada)

Use esta opção se você quer treinar sem training adapter ou planeja treinamentos mais longos.

O que muda comparado ao Turbo:

  • De‑Turbo se comporta mais como um modelo de difusão "normal" para treinamento e amostragem.
  • Você tipicamente amostra com mais passos e CFG baixo (mas não zero).
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (ou o que seu build do AI Toolkit pré-selecionar)
  3. Training Adapter Path: nenhum (não necessário)
  4. Mantenha as mesmas configurações de LoRA (rank/LR/steps) como baseline.
  5. SAMPLE (para previews):
    • 20–30 passos
    • CFG (guidance scale) ≈ 2–3
    • Amostrar a cada 250 passos
Quer zero configuração? Use o RunComfy Cloud AI Toolkit e siga exatamente os mesmos painéis.

Índice


1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)

AI Toolkit expõe duas escolhas de "model architecture" para Z-Image Turbo LoRA com AI Toolkit:

1.1 Z‑Image Turbo (com Training Adapter)

Melhor para: LoRAs típicos (personagem, estilo, produto), onde seu objetivo final é rodar inferência no Turbo em 8 passos.

Por que existe:

  • Z‑Image Turbo é um modelo destilado por passos. Se você treinar LoRAs em um modelo destilado por passos "normalmente", a destilação pode quebrar rapidamente, e o Turbo começa a se comportar como um modelo mais lento não-destilado (mudanças de qualidade, precisa de mais passos, etc.).
  • O training adapter age como um "LoRA de de‑destilação" temporário durante o treinamento. Seu LoRA aprende seu conceito enquanto o comportamento rápido de 8 passos do Turbo permanece estável.
  • No momento da inferência, você remove o training adapter e mantém seu LoRA sobre a base real do Turbo.

Sinais práticos de que você escolheu o caminho certo:

  • Suas amostras de preview ficam boas em 8 passos com guidance ≈ 0.
  • Seu LoRA não começa repentinamente a precisar de 20–30 passos para ficar limpo (um sinal comum de deriva do Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Melhor para: treinar sem adaptador, ou fine‑tunes mais longos onde Turbo+adaptador eventualmente derivaria.

O que é:

  • De‑Turbo é uma versão de‑destilada do Turbo, projetada para se comportar mais como um modelo de difusão normal para treinamento.
  • Pode ser treinado diretamente sem adaptador e também usado para inferência (tipicamente 20–30 passos com CFG baixo).

1.3 Guia rápido de decisão

Escolha Turbo + training adapter se:

  • Você quer que o LoRA rode em velocidade Turbo (8 passos) após o treinamento.
  • Você está fazendo um treinamento LoRA normal (alguns milhares a dezenas de milhares de passos).

Escolha De‑Turbo se:

  • Você quer comportamento de "modelo normal" para treinamento e amostragem.
  • Você quer treinar mais tempo, ou está experimentando com workflows que não suportam o training adapter de forma limpa.

2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)

No repositório do training adapter você geralmente verá dois arquivos:

  • ..._v1.safetensors
  • ..._v2.safetensors

O que você precisa saber (praticamente):

  • v1 é a baseline segura.
  • v2 é uma variante mais nova que pode mudar a dinâmica do treinamento e resultados.

Recomendação: trate como um teste A/B:

  • Mantenha dataset, LR, steps, rank idênticos
  • Treine uma vez com v1, uma vez com v2
  • Compare grids de amostras nos mesmos checkpoints

Se sua UI do RunComfy usa v2 por padrão e seu treinamento parece estável, mantenha assim. Se você ver instabilidade (ruído, deriva do Turbo, artefatos estranhos), mude para v1.


3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)

Das fontes oficiais do Z‑Image:

  • 6B parâmetros, arquitetura S3‑DiT — tokens de texto, tokens semânticos visuais e latentes VAE são concatenados em um único stream de transformer.
  • Família de modelos — variantes Turbo, Base e Edit existem na série Z‑Image.
  • Especificações do Turbo — otimizado para inferência rápida; guidance é tipicamente 0 para inferência Turbo.

Um modelo mental útil para treinamento LoRA:

  • Timesteps de alto ruído principalmente controlam a composição (layout, pose, tonalidade de cor global).
  • Timesteps de baixo ruído principalmente controlam detalhes (rostos, mãos, texturas).

Por isso as configurações de timestep e bias podem mudar notavelmente se um LoRA parece mais "estilo global" vs "identidade/detalhe".


4. Onde treinar Z‑Image: local vs cloud AI Toolkit

4.1 AI Toolkit Local

O AI Toolkit da Ostris é código aberto no GitHub. Suporta o Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen e mais através de um sistema unificado de UI e configuração.

Local faz sentido se:

  • Você já tem uma GPU NVIDIA e não se importa com configuração Python / Git.
  • Você quer controle total sobre arquivos, logs e mudanças personalizadas.

Repo: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

Se você prefere pular instalações CUDA e problemas de driver, use o RunComfy Cloud AI Toolkit:

  • Zero configuração — abra um navegador e treine.
  • VRAM consistente — mais fácil seguir guias sem fricção de hardware.
  • Armazenamento persistente — iteração mais fácil e gerenciamento de checkpoints.

👉 Abra aqui: Cloud AI Toolkit no RunComfy


5. Projetando datasets para treinamento LoRA Z‑Image

5.1 Quantas imagens você realmente precisa?

  • 10–30 imagens é um bom range para a maioria dos LoRAs de personagem ou estilo.
  • Acima de ~50 imagens você frequentemente encontra retornos decrescentes a menos que seu range de estilos seja muito amplo.

Z‑Image aprende fortemente dos gradientes ("aprende quente"), então qualidade e variedade do dataset importam mais que o número bruto de imagens:

  • Poucas imagens + muito treinamento frequentemente aparece como rostos overfitados, poses repetidas, ou fundos bagunçados.
  • Um dataset pequeno mas diverso (ângulos, iluminação, fundos) tende a generalizar melhor que um grande e repetitivo.

5.2 LoRAs de personagem vs estilo

LoRA de Personagem

  • Mire em 12–30 imagens do mesmo sujeito.
  • Misture close-ups e corpo inteiro, ângulos, iluminação, roupas.
  • Legendas podem ser literais e consistentes; token trigger opcional.

LoRA de Estilo

  • Mire em 15–40 imagens através de sujeitos variados (pessoas, interiores, paisagens, objetos).
  • Legende a cena normalmente; não descreva demais o estilo a menos que você queira que seja apenas por trigger.
    • Isso ensina: "renderize qualquer coisa neste estilo", em vez de "faça o estilo apenas quando eu disser uma palavra-chave especial."

5.3 Legendas, palavra trigger e arquivos de texto

  • image_01.pngimage_01.txt
  • Se não houver .txt, AI Toolkit usa a Default Caption.
  • Você pode usar [trigger] nas legendas e configurar Trigger Word no painel JOB.
    • Isso é especialmente útil se você depois habilitar DOP (Differential Output Preservation) para tornar o LoRA mais "opt-in".

6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro

Nesta seção percorremos os painéis da UI e explicamos o que cada campo importante faz no processo de como treinar LoRA para Z-Image Turbo.

6.1 Painel JOB

  • Training Name — rótulo descritivo como zimage_char_ruivo_v1
  • GPU ID — seletor de GPU local; no cloud mantenha o padrão
  • Trigger Word (opcional)zchar_ruivo / zstyle_lapis

6.2 Painel MODEL (mais importante)

Aqui é onde as duas escolhas de base importam:

Se você escolher Turbo + adaptador

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • Esta é a Hugging Face model id (repo id). Na maioria dos builds do AI Toolkit, selecionar a model architecture vai preencher automaticamente isso; deixe assim a menos que você tenha uma razão para mudar.
    • Se você sobrescrever, use o formato de repo id do Hugging Face: org-ou-usuario/nome-modelo (opcionalmente org-ou-usuario/nome-modelo@revision).
  • Training Adapter Path — mantenha o padrão ou escolha:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Dica: se você acidentalmente treinar Turbo sem o adaptador, o sintoma mais comum é que seu LoRA só "funciona" quando você aumenta steps/CFG, o que anula o propósito do Turbo.

Se você escolher De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — nenhum

Opções:

  • Low VRAM / Layer Offloading — habilitar se você está limitado em VRAM

6.3 Painel QUANTIZATION

  • Com 24+ GB, prefira BF16/none para fidelidade
  • Com 16 GB, float8 geralmente é o melhor trade-off

6.4 Painel TARGET – configuração LoRA

  • Target TypeLoRA
  • Linear Rank — comece com 8–16
    • 16 para estilos/texturas mais fortes
    • 8 para LoRAs menores e mais sutis

6.5 Painel SAVE

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 Painel TRAINING – hiperparâmetros principais

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — comece em 0.0001

    Se instável/ruidoso, baixe para 0.00005–0.00008.

    Evite ir muito alto (ex. 0.0002+) — modelos estilo Turbo podem se tornar instáveis rapidamente.

  • Weight Decay0.0001
  • Steps2500–3000 para 10–30 imagens

    Se seu dataset for muito pequeno (<10 imagens), considere 1500–2200 para reduzir overfitting.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • Favoreça High Noise se você quer estilo/clima global mais forte.
    • Favoreça Low Noise se você está buscando identidade/detalhe (avançado; comece com Balanced).
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — ON se legendas são estáticas e VRAM é escassa

    (então configure Caption Dropout para 0)

  • Unload TE — mantenha OFF para treinamento baseado em legendas

Regularização:

  • DOP — mantenha OFF para a primeira execução; adicione depois para LoRAs de produção trigger-only

    (DOP é poderoso mas adiciona complexidade; é mais fácil quando você já tem uma baseline estável.)


6.7 Painel DATASETS

  • Caption Dropout Rate
    • 0.05 se não estiver cacheando embeddings de texto
    • 0 se estiver cacheando embeddings
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 é uma baseline forte

6.8 Painel SAMPLE (combine com sua base!)

Se treinar Turbo:

  • 1024×1024, 8 passos, guidance = 0, amostrar a cada 250

Se treinar De‑Turbo:

  • 1024×1024, 20–30 passos, CFG 2–3, amostrar a cada 250

Use 5–10 prompts que reflitam uso real; inclua alguns prompts sem o trigger para detectar vazamentos.


6.9 Painel ADVANCED – Differential Guidance (opcional)

  • Do Differential Guidance — ON se você quer convergência mais rápida
  • Scale — comece em 3

    Se amostras parecerem muito nítidas/ruidosas cedo, reduza para 2. Se o aprendizado está lento, você pode testar 4 depois.


7. Receitas práticas para treinamento LoRA Z‑Image

Uma baseline forte para LoRAs Turbo:

  • Turbo + training adapter (v1 ou v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • buckets 512/768/1024, cache latents ON
  • amostras a cada 250 passos, 8 passos, guidance 0

Se seu LoRA parecer "muito forte":

  • Mantenha o treinamento igual, mas planeje rodar inferência com um peso de LoRA mais baixo (ex. 0.6–0.8).

8. Solução de problemas

"Meu LoRA destruiu o Turbo — agora preciso de mais steps / CFG."

  • Causas mais comuns:
    • treinou no Turbo sem o training adapter, ou
    • LR muito alto por muito tempo.
  • Solução:
    • use a arquitetura Turbo + training adapter
    • mantenha LR ≤ 1e‑4
    • reduza steps se você ver deriva cedo

"O estilo está muito forte."

  • Baixe o peso do LoRA na inferência (0.6–0.8)
  • Use trigger + DOP para LoRAs de produção (comportamento opt‑in)

"Mãos/fundos estão bagunçados."

  • Adicione algumas imagens que incluam esses casos
  • Considere favorecer ligeiramente os timesteps de baixo ruído (avançado)

"Sem VRAM / muito lento."

  • Desabilite buckets altos (mantenha 512–1024)
  • Habilite Low VRAM + offloading
  • Quantize para float8
  • Cache latents (e opcionalmente cache embeddings de texto)

9. Use seu LoRA Z‑Image


FAQ

Devo usar o adaptador v1 ou v2 para o Treinamento LoRA Z-Image Turbo?

Comece com o padrão da sua UI. Se os resultados forem instáveis ou você ver deriva do Z‑Image Turbo, teste a outra versão mantendo todas as outras configurações iguais.

Devo treinar Z‑Image em Turbo+adaptador ou De‑Turbo?

Turbo+adaptador para a maioria dos LoRAs Z‑Image que devem manter o comportamento Turbo de 8 passos. De‑Turbo se você quer treinamento sem adaptador ou fine‑tunes mais longos.

Quais configurações de inferência Z‑Image devo usar após o treinamento?

Z‑Image Turbo tipicamente usa CFG baixo/nulo e ~8 passos. De‑Turbo se comporta mais como um modelo normal (20–30 passos, CFG baixo). Sempre combine suas configurações de amostragem com a base que você está realmente usando.


Mais guias de treinamento LoRA com AI Toolkit

Ready to start training?