AI Toolkit LoRA Training Guides

Treinamento LoRA Z-Image (Z-Image Turbo + De-Turbo) com Ostris AI Toolkit

Este guia explica como treinar uma LoRA Z-Image de alta qualidade com o Ostris AI Toolkit: selecionar a base correta (Turbo + training adapter vs De-Turbo) e depois ajustar dataset, rank/LR/steps e configurações de sampling para obter resultados estáveis.

Train Diffusion Models with Ostris AI Toolkit

Role horizontalmente para ver o formulário completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Use a Hugging Face repo ID (e.g. owner/model-name).
⚠️ full URLs, .safetensors files, and local files are not supported.

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image é um modelo de geração de imagens de 6B parâmetros da Tongyi‑MAI construído sobre um Scalable Single‑Stream Diffusion Transformer (S3‑DiT). É incomumente eficiente para seu tamanho e projetado para rodar em 1024×1024 em GPUs de consumo.

Este guia de Treinamento LoRA Z-Image Turbo cobre as duas abordagens mais comuns e práticas para treinar LoRA Z-Image Turbo:

1) Z‑Image Turbo (com Training Adapter) — ideal quando você quer que seu LoRA rode com verdadeira velocidade Turbo de 8 passos após o treinamento.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal quando você quer uma base de‑destilada que pode treinar sem adaptador, ou para fine-tunes mais longos.

Ao final deste guia, você será capaz de:

  • Escolher a base Z‑Image correta (Turbo+adaptador vs De‑Turbo) para seu objetivo.
  • Preparar um dataset que funcione com treinamento destilado estilo Turbo.
  • Configurar Ostris AI Toolkit (localmente ou no RunComfy Cloud AI Toolkit) painel por painel.
  • Entender por que cada parâmetro importa, para que você possa ajustar em vez de copiar e colar.
Este artigo faz parte da série de treinamento LoRA com AI Toolkit. Se você é novo no Ostris AI Toolkit, comece com a visão geral do treinamento LoRA com AI Toolkit antes de mergulhar neste guia.

Início rápido (configuração base recomendada)

Opção A — Turbo + training adapter (recomendado para a maioria dos LoRAs)

Use esta opção para treinar LoRA Z-Image Turbo se você quer que seu LoRA mantenha o comportamento rápido de 8 passos do Turbo após o treinamento.

Por que isso importa:

  • Turbo é um modelo "estudante" destilado: comprime um processo de difusão de múltiplos passos mais lento em ~8 passos.
  • Se você treinar no Turbo como um modelo normal, suas atualizações podem desfazer a destilação ("deriva do Turbo"), e você vai precisar de mais passos / mais CFG para obter a mesma qualidade.
  • O training adapter "de‑destila" temporariamente o Turbo durante o treinamento para que seu LoRA aprenda seu conceito sem quebrar o comportamento de 8 passos do Turbo. Na inferência, você remove o adaptador e mantém apenas seu LoRA.

Configurações base:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • Mantenha o padrão se sua UI preencher automaticamente (RunComfy geralmente usa v2 como padrão), ou configure explicitamente:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (para 10–30 imagens)
  7. DATASETS → Resolutions: 512 / 768 / 1024 e Cache Latents = ON
  8. SAMPLE (para previews):
    • 1024×1024, 8 passos (ou 9 se seu pipeline trata 9 como "8 DiT forwards")
    • Guidance scale = 0 (Turbo é guidance‑destilado)
    • Amostrar a cada 250 passos

Opção B — De‑Turbo (base de‑destilada)

Use esta opção se você quer treinar sem training adapter ou planeja treinamentos mais longos.

O que muda comparado ao Turbo:

  • De‑Turbo se comporta mais como um modelo de difusão "normal" para treinamento e amostragem.
  • Você tipicamente amostra com mais passos e CFG baixo (mas não zero).
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (ou o que seu build do AI Toolkit pré-selecionar)
  3. Training Adapter Path: nenhum (não necessário)
  4. Mantenha as mesmas configurações de LoRA (rank/LR/steps) como baseline.
  5. SAMPLE (para previews):
    • 20–30 passos
    • CFG (guidance scale) ≈ 2–3
    • Amostrar a cada 250 passos
Quer zero configuração? Use o RunComfy Cloud AI Toolkit e siga exatamente os mesmos painéis.

Índice


1. Qual base Z‑Image você deve treinar? (Turbo+adaptador vs De‑Turbo)

AI Toolkit expõe duas escolhas de "model architecture" para Z-Image Turbo LoRA com AI Toolkit:

1.1 Z‑Image Turbo (com Training Adapter)

Melhor para: LoRAs típicos (personagem, estilo, produto), onde seu objetivo final é rodar inferência no Turbo em 8 passos.

Por que existe:

  • Z‑Image Turbo é um modelo destilado por passos. Se você treinar LoRAs em um modelo destilado por passos "normalmente", a destilação pode quebrar rapidamente, e o Turbo começa a se comportar como um modelo mais lento não-destilado (mudanças de qualidade, precisa de mais passos, etc.).
  • O training adapter age como um "LoRA de de‑destilação" temporário durante o treinamento. Seu LoRA aprende seu conceito enquanto o comportamento rápido de 8 passos do Turbo permanece estável.
  • No momento da inferência, você remove o training adapter e mantém seu LoRA sobre a base real do Turbo.

Sinais práticos de que você escolheu o caminho certo:

  • Suas amostras de preview ficam boas em 8 passos com guidance ≈ 0.
  • Seu LoRA não começa repentinamente a precisar de 20–30 passos para ficar limpo (um sinal comum de deriva do Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Melhor para: treinar sem adaptador, ou fine‑tunes mais longos onde Turbo+adaptador eventualmente derivaria.

O que é:

  • De‑Turbo é uma versão de‑destilada do Turbo, projetada para se comportar mais como um modelo de difusão normal para treinamento.
  • Pode ser treinado diretamente sem adaptador e também usado para inferência (tipicamente 20–30 passos com CFG baixo).

1.3 Guia rápido de decisão

Escolha Turbo + training adapter se:

  • Você quer que o LoRA rode em velocidade Turbo (8 passos) após o treinamento.
  • Você está fazendo um treinamento LoRA normal (alguns milhares a dezenas de milhares de passos).

Escolha De‑Turbo se:

  • Você quer comportamento de "modelo normal" para treinamento e amostragem.
  • Você quer treinar mais tempo, ou está experimentando com workflows que não suportam o training adapter de forma limpa.

2. Z‑Image training adapter v1 vs v2 (o que muda, quando usar)

No repositório do training adapter você geralmente verá dois arquivos:

  • ..._v1.safetensors
  • ..._v2.safetensors

O que você precisa saber (praticamente):

  • v1 é a baseline segura.
  • v2 é uma variante mais nova que pode mudar a dinâmica do treinamento e resultados.

Recomendação: trate como um teste A/B:

  • Mantenha dataset, LR, steps, rank idênticos
  • Treine uma vez com v1, uma vez com v2
  • Compare grids de amostras nos mesmos checkpoints

Se sua UI do RunComfy usa v2 por padrão e seu treinamento parece estável, mantenha assim. Se você ver instabilidade (ruído, deriva do Turbo, artefatos estranhos), mude para v1.


3. Z‑Image / Z‑Image‑Turbo em resumo (para treinamento LoRA)

Das fontes oficiais do Z‑Image:

  • 6B parâmetros, arquitetura S3‑DiT — tokens de texto, tokens semânticos visuais e latentes VAE são concatenados em um único stream de transformer.
  • Família de modelos — variantes Turbo, Base e Edit existem na série Z‑Image.
  • Especificações do Turbo — otimizado para inferência rápida; guidance é tipicamente 0 para inferência Turbo.

Um modelo mental útil para treinamento LoRA:

  • Timesteps de alto ruído principalmente controlam a composição (layout, pose, tonalidade de cor global).
  • Timesteps de baixo ruído principalmente controlam detalhes (rostos, mãos, texturas).

Por isso as configurações de timestep e bias podem mudar notavelmente se um LoRA parece mais "estilo global" vs "identidade/detalhe".


4. Onde treinar Z‑Image: local vs cloud AI Toolkit

4.1 AI Toolkit Local

O AI Toolkit da Ostris é código aberto no GitHub. Suporta o Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen e mais através de um sistema unificado de UI e configuração.

Local faz sentido se:

  • Você já tem uma GPU NVIDIA e não se importa com configuração Python / Git.
  • Você quer controle total sobre arquivos, logs e mudanças personalizadas.

Repo: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

Se você prefere pular instalações CUDA e problemas de driver, use o RunComfy Cloud AI Toolkit:

  • Zero configuração — abra um navegador e treine.
  • VRAM consistente — mais fácil seguir guias sem fricção de hardware.
  • Armazenamento persistente — iteração mais fácil e gerenciamento de checkpoints.

👉 Abra aqui: Cloud AI Toolkit no RunComfy


5. Projetando datasets para treinamento LoRA Z‑Image

5.1 Quantas imagens você realmente precisa?

  • 10–30 imagens é um bom range para a maioria dos LoRAs de personagem ou estilo.
  • Acima de ~50 imagens você frequentemente encontra retornos decrescentes a menos que seu range de estilos seja muito amplo.

Z‑Image aprende fortemente dos gradientes ("aprende quente"), então qualidade e variedade do dataset importam mais que o número bruto de imagens:

  • Poucas imagens + muito treinamento frequentemente aparece como rostos overfitados, poses repetidas, ou fundos bagunçados.
  • Um dataset pequeno mas diverso (ângulos, iluminação, fundos) tende a generalizar melhor que um grande e repetitivo.

5.2 LoRAs de personagem vs estilo

LoRA de Personagem

  • Mire em 12–30 imagens do mesmo sujeito.
  • Misture close-ups e corpo inteiro, ângulos, iluminação, roupas.
  • Legendas podem ser literais e consistentes; token trigger opcional.

LoRA de Estilo

  • Mire em 15–40 imagens através de sujeitos variados (pessoas, interiores, paisagens, objetos).
  • Legende a cena normalmente; não descreva demais o estilo a menos que você queira que seja apenas por trigger.
    • Isso ensina: "renderize qualquer coisa neste estilo", em vez de "faça o estilo apenas quando eu disser uma palavra-chave especial."

5.3 Legendas, palavra trigger e arquivos de texto

  • image_01.pngimage_01.txt
  • Se não houver .txt, AI Toolkit usa a Default Caption.
  • Você pode usar [trigger] nas legendas e configurar Trigger Word no painel JOB.
    • Isso é especialmente útil se você depois habilitar DOP (Differential Output Preservation) para tornar o LoRA mais "opt-in".

6. Configuração de LoRA Z‑Image no AI Toolkit – parâmetro por parâmetro

Nesta seção percorremos os painéis da UI e explicamos o que cada campo importante faz no processo de como treinar LoRA para Z-Image Turbo.

6.1 Painel JOB

  • Training Name — rótulo descritivo como zimage_char_ruivo_v1
  • GPU ID — seletor de GPU local; no cloud mantenha o padrão
  • Trigger Word (opcional)zchar_ruivo / zstyle_lapis

6.2 Painel MODEL (mais importante)

Aqui é onde as duas escolhas de base importam:

Se você escolher Turbo + adaptador

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • Esta é a Hugging Face model id (repo id). Na maioria dos builds do AI Toolkit, selecionar a model architecture vai preencher automaticamente isso; deixe assim a menos que você tenha uma razão para mudar.
    • Se você sobrescrever, use o formato de repo id do Hugging Face: org-ou-usuario/nome-modelo (opcionalmente org-ou-usuario/nome-modelo@revision).
  • Training Adapter Path — mantenha o padrão ou escolha:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Dica: se você acidentalmente treinar Turbo sem o adaptador, o sintoma mais comum é que seu LoRA só "funciona" quando você aumenta steps/CFG, o que anula o propósito do Turbo.

Se você escolher De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
  • Training Adapter Path — nenhum

Opções:

  • Low VRAM / Layer Offloading — habilitar se você está limitado em VRAM

6.3 Painel QUANTIZATION

  • Com 24+ GB, prefira BF16/none para fidelidade
  • Com 16 GB, float8 geralmente é o melhor trade-off

6.4 Painel TARGET – configuração LoRA

  • Target TypeLoRA
  • Linear Rank — comece com 8–16
    • 16 para estilos/texturas mais fortes
    • 8 para LoRAs menores e mais sutis

6.5 Painel SAVE

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 Painel TRAINING – hiperparâmetros principais

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — comece em 0.0001

    Se instável/ruidoso, baixe para 0.00005–0.00008.

    Evite ir muito alto (ex. 0.0002+) — modelos estilo Turbo podem se tornar instáveis rapidamente.

  • Weight Decay0.0001
  • Steps2500–3000 para 10–30 imagens

    Se seu dataset for muito pequeno (<10 imagens), considere 1500–2200 para reduzir overfitting.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • Favoreça High Noise se você quer estilo/clima global mais forte.
    • Favoreça Low Noise se você está buscando identidade/detalhe (avançado; comece com Balanced).
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — ON se legendas são estáticas e VRAM é escassa

    (então configure Caption Dropout para 0)

  • Unload TE — mantenha OFF para treinamento baseado em legendas

Regularização:

  • DOP — mantenha OFF para a primeira execução; adicione depois para LoRAs de produção trigger-only

    (DOP é poderoso mas adiciona complexidade; é mais fácil quando você já tem uma baseline estável.)


6.7 Painel DATASETS

  • Caption Dropout Rate
    • 0.05 se não estiver cacheando embeddings de texto
    • 0 se estiver cacheando embeddings
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 é uma baseline forte

6.8 Painel SAMPLE (combine com sua base!)

Se treinar Turbo:

  • 1024×1024, 8 passos, guidance = 0, amostrar a cada 250

Se treinar De‑Turbo:

  • 1024×1024, 20–30 passos, CFG 2–3, amostrar a cada 250

Use 5–10 prompts que reflitam uso real; inclua alguns prompts sem o trigger para detectar vazamentos.


6.9 Painel ADVANCED – Differential Guidance (opcional)

  • Do Differential Guidance — ON se você quer convergência mais rápida
  • Scale — comece em 3

    Se amostras parecerem muito nítidas/ruidosas cedo, reduza para 2. Se o aprendizado está lento, você pode testar 4 depois.


7. Receitas práticas para treinamento LoRA Z‑Image

Uma baseline forte para LoRAs Turbo:

  • Turbo + training adapter (v1 ou v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • buckets 512/768/1024, cache latents ON
  • amostras a cada 250 passos, 8 passos, guidance 0

Se seu LoRA parecer "muito forte":

  • Mantenha o treinamento igual, mas planeje rodar inferência com um peso de LoRA mais baixo (ex. 0.6–0.8).

8. Solução de problemas

"Meu LoRA destruiu o Turbo — agora preciso de mais steps / CFG."

  • Causas mais comuns:
    • treinou no Turbo sem o training adapter, ou
    • LR muito alto por muito tempo.
  • Solução:
    • use a arquitetura Turbo + training adapter
    • mantenha LR ≤ 1e‑4
    • reduza steps se você ver deriva cedo

"O estilo está muito forte."

  • Baixe o peso do LoRA na inferência (0.6–0.8)
  • Use trigger + DOP para LoRAs de produção (comportamento opt‑in)

"Mãos/fundos estão bagunçados."

  • Adicione algumas imagens que incluam esses casos
  • Considere favorecer ligeiramente os timesteps de baixo ruído (avançado)

"Sem VRAM / muito lento."

  • Desabilite buckets altos (mantenha 512–1024)
  • Habilite Low VRAM + offloading
  • Quantize para float8
  • Cache latents (e opcionalmente cache embeddings de texto)

FAQ

Devo usar o adaptador v1 ou v2 para o Treinamento LoRA Z-Image Turbo?

Comece com o padrão da sua UI. Se os resultados forem instáveis ou você ver deriva do Z‑Image Turbo, teste a outra versão mantendo todas as outras configurações iguais.

Devo treinar Z‑Image em Turbo+adaptador ou De‑Turbo?

Turbo+adaptador para a maioria dos LoRAs Z‑Image que devem manter o comportamento Turbo de 8 passos. De‑Turbo se você quer treinamento sem adaptador ou fine‑tunes mais longos.

Quais configurações de inferência Z‑Image devo usar após o treinamento?

Z‑Image Turbo tipicamente usa CFG baixo/nulo e ~8 passos. De‑Turbo se comporta mais como um modelo normal (20–30 passos, CFG baixo). Sempre combine suas configurações de amostragem com a base que você está realmente usando.


9. Use seu LoRA Z‑Image

  • Run LoRA — abra a página Run LoRA do Z‑Image Turbo. Nesta página de inferência do modelo base, você pode selecionar um asset de LoRA que treinou no RunComfy ou importar um arquivo LoRA treinado no AI Toolkit, e então rodar a inferência pelo playground ou pela API. O RunComfy usa o mesmo modelo base e a definição completa do pipeline do AI Toolkit da sua config de treino, então o que você viu durante o training é o que você obtém na inferência — esse alinhamento training/inference ajuda a manter resultados consistentes com os seus samples de treino.
  • Workflows ComfyUI — carregue seu LoRA em um workflow como Z‑Image workflow no ComfyUI

Mais guias de treinamento LoRA com AI Toolkit

Ready to start training?