AI Toolkit LoRA Training Guides

Entrenamiento LoRA Z-Image (Z-Image Turbo + De-Turbo) con Ostris AI Toolkit

Esta guía explica cómo entrenar un LoRA de Z-Image de alta calidad con Ostris AI Toolkit: escoger la base correcta (Turbo + training adapter vs De-Turbo) y luego ajustar dataset, rank/LR/steps y parámetros de sampling para obtener resultados estables.

Train Diffusion Models with Ostris AI Toolkit

Desplázate horizontalmente para ver el formulario completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

Z‑Image es un modelo de generación de imágenes de 6B parámetros de Tongyi‑MAI construido sobre un Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Es inusualmente eficiente para su tamaño y está diseñado para ejecutarse a 1024×1024 en GPUs de consumo.

Esta guía de Entrenamiento LoRA Z-Image Turbo cubre los dos enfoques más comunes y prácticos para entrenar LoRA Z-Image Turbo:

1) Z‑Image Turbo (con Training Adapter) — ideal cuando quieres que tu LoRA funcione con verdadera velocidad Turbo de 8 pasos después del entrenamiento.

2) Z‑Image De‑Turbo (De‑Distilled) — ideal cuando quieres una base de‑destilada que puedas entrenar sin adaptador, o para fine-tunes más largos.

Al final de esta guía, serás capaz de:

  • Elegir la base Z‑Image correcta (Turbo+adaptador vs De‑Turbo) para tu objetivo.
  • Preparar un dataset que funcione con entrenamiento destilado estilo Turbo.
  • Configurar Ostris AI Toolkit (localmente o en RunComfy Cloud AI Toolkit) panel por panel.
  • Entender por qué cada parámetro importa, para que puedas ajustar en lugar de copiar y pegar.
Este artículo es parte de la serie de entrenamiento LoRA con AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la guía de inicio de AI Toolkit LoRA training antes de sumergirte en esta guía.

Inicio rápido (configuración base recomendada)

Opción A — Turbo + training adapter (recomendado para la mayoría de LoRAs)

Usa esta opción para entrenar LoRA Z-Image Turbo si quieres que tu LoRA mantenga el comportamiento rápido de 8 pasos de Turbo después del entrenamiento.

Por qué esto importa:

  • Turbo es un modelo "estudiante" destilado: comprime un proceso de difusión de múltiples pasos más lento en ~8 pasos.
  • Si entrenas en Turbo como un modelo normal, tus actualizaciones pueden deshacer la destilación ("deriva de Turbo"), y empezarás a necesitar más pasos / más CFG para obtener la misma calidad.
  • El training adapter "de‑destila" temporalmente Turbo durante el entrenamiento para que tu LoRA aprenda tu concepto sin romper el comportamiento de 8 pasos de Turbo. En inferencia, eliminas el adaptador y conservas solo tu LoRA.

Configuración base:

  1. MODEL → Model Architecture: Z‑Image Turbo (w/ Training Adapter)
  2. MODEL → Name or Path: Tongyi-MAI/Z-Image-Turbo
  3. MODEL → Training Adapter Path:
    • Mantén el valor predeterminado si tu UI lo autocompleta (RunComfy suele usar v2 por defecto), o configura explícitamente:
      • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
      • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
  4. TARGET → Linear Rank: 16
  5. TRAINING → Learning Rate: 0.0001
  6. TRAINING → Steps: 2500–3000 (para 10–30 imágenes)
  7. DATASETS → Resolutions: 512 / 768 / 1024 y Cache Latents = ON
  8. SAMPLE (para previsualizaciones):
    • 1024×1024, 8 pasos (o 9 si tu pipeline trata 9 como "8 DiT forwards")
    • Guidance scale = 0 (Turbo está guidance‑destilado)
    • Muestrear cada 250 pasos

Opción B — De‑Turbo (base de‑destilada)

Usa esta opción si quieres entrenar sin training adapter o planeas entrenamientos más largos.

Qué cambia comparado con Turbo:

  • De‑Turbo se comporta más como un modelo de difusión "normal" para entrenamiento y muestreo.
  • Típicamente muestreas con más pasos y CFG bajo (pero no cero).
  1. MODEL → Model Architecture: Z‑Image De‑Turbo (De‑Distilled)
  2. MODEL → Name or Path: ostris/Z-Image-De-Turbo (o lo que tu build de AI Toolkit preseleccione)
  3. Training Adapter Path: ninguno (no necesario)
  4. Mantén la misma configuración de LoRA (rank/LR/steps) como línea base.
  5. SAMPLE (para previsualizaciones):
    • 20–30 pasos
    • CFG (guidance scale) ≈ 2–3
    • Muestrear cada 250 pasos
¿Quieres cero configuración? Usa el RunComfy Cloud AI Toolkit y sigue exactamente los mismos paneles.

Tabla de contenidos


1. ¿Qué base Z‑Image deberías entrenar? (Turbo+adaptador vs De‑Turbo)

AI Toolkit expone dos opciones de "model architecture" para el Z-Image Turbo LoRA con AI Toolkit:

1.1 Z‑Image Turbo (con Training Adapter)

Mejor para: LoRAs típicos (personaje, estilo, producto), donde tu objetivo final es ejecutar inferencia en Turbo a 8 pasos.

Por qué existe:

  • Z‑Image Turbo es un modelo destilado por pasos. Si entrenas LoRAs en un modelo destilado por pasos "normalmente", la destilación puede romperse rápidamente, y Turbo empieza a comportarse como un modelo más lento no destilado (cambios de calidad, necesita más pasos, etc.).
  • El training adapter actúa como un "LoRA de de‑destilación" temporal durante el entrenamiento. Tu LoRA aprende tu concepto mientras el comportamiento rápido de 8 pasos de Turbo se mantiene estable.
  • En tiempo de inferencia, eliminas el training adapter y conservas tu LoRA sobre la base real de Turbo.

Señales prácticas de que elegiste el camino correcto:

  • Tus muestras de previsualización se ven bien a 8 pasos con guidance ≈ 0.
  • Tu LoRA no empieza repentinamente a requerir 20–30 pasos para verse limpio (una señal común de deriva de Turbo).

1.2 Z‑Image De‑Turbo (De‑Distilled)

Mejor para: entrenar sin adaptador, o fine‑tunes más largos donde Turbo+adaptador eventualmente derivaría.

Qué es:

  • De‑Turbo es una versión de‑destilada de Turbo, diseñada para comportarse más como un modelo de difusión normal para entrenamiento.
  • Puede entrenarse directamente sin adaptador y también usarse para inferencia (típicamente 20–30 pasos con CFG bajo).

1.3 Guía rápida de decisión

Elige Turbo + training adapter si:

  • Quieres que el LoRA funcione a velocidad Turbo (8 pasos) después del entrenamiento.
  • Estás haciendo un entrenamiento LoRA normal (unos pocos miles a decenas de miles de pasos).

Elige De‑Turbo si:

  • Quieres comportamiento de "modelo normal" para entrenamiento y muestreo.
  • Quieres entrenar más tiempo, o estás experimentando con workflows que no soportan el training adapter limpiamente.

2. Z‑Image training adapter v1 vs v2 (qué cambia, cuándo usar)

En el repositorio del training adapter a menudo verás dos archivos:

  • ..._v1.safetensors
  • ..._v2.safetensors

Lo que necesitas saber (prácticamente):

  • v1 es la línea base segura.
  • v2 es una variante más nueva que puede cambiar la dinámica del entrenamiento y los resultados.

Recomendación: trátalo como un test A/B:

  • Mantén dataset, LR, steps, rank idénticos
  • Entrena una vez con v1, una vez con v2
  • Compara las cuadrículas de muestras en los mismos checkpoints

Si tu UI de RunComfy usa v2 por defecto y tu entrenamiento se ve estable, mantenlo. Si ves inestabilidad (ruido, deriva de Turbo, artefactos extraños), cambia a v1.


3. Z‑Image / Z‑Image‑Turbo en resumen (para entrenamiento LoRA)

De las fuentes oficiales de Z‑Image:

  • 6B parámetros, arquitectura S3‑DiT — tokens de texto, tokens semánticos visuales y latentes VAE se concatenan en un único stream de transformer.
  • Familia de modelos — existen variantes Turbo, Base y Edit en la serie Z‑Image.
  • Especificaciones de Turbo — optimizado para inferencia rápida; guidance es típicamente 0 para inferencia Turbo.

Un modelo mental útil para entrenamiento LoRA:

  • Timesteps de alto ruido principalmente controlan la composición (layout, pose, tono de color global).
  • Timesteps de bajo ruido principalmente controlan detalles (caras, manos, texturas).

Por eso la configuración de timesteps y bias puede cambiar notablemente si un LoRA se siente más como "estilo global" vs "identidad/detalle".


4. Dónde entrenar Z‑Image: local vs cloud AI Toolkit

4.1 AI Toolkit Local

El AI Toolkit de Ostris es código abierto en GitHub. Soporta el Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen y más a través de un sistema unificado de UI y configuración.

Local tiene sentido si:

  • Ya tienes una GPU NVIDIA y no te importa la configuración de Python / Git.
  • Quieres control total sobre archivos, logs y cambios personalizados.

Repo: ostris/ai-toolkit


4.2 RunComfy Cloud AI Toolkit

Si prefieres saltarte las instalaciones de CUDA y problemas de drivers, usa RunComfy Cloud AI Toolkit:

  • Cero configuración — abre un navegador y entrena.
  • VRAM consistente — más fácil seguir guías sin fricción de hardware.
  • Almacenamiento persistente — iteración más fácil y gestión de checkpoints.

👉 Ábrelo aquí: Cloud AI Toolkit en RunComfy


5. Diseñando datasets para entrenamiento LoRA Z‑Image

5.1 ¿Cuántas imágenes realmente necesitas?

  • 10–30 imágenes es un buen rango para la mayoría de LoRAs de personaje o estilo.
  • Por encima de ~50 imágenes a menudo encuentras rendimientos decrecientes a menos que tu rango de estilos sea muy amplio.

Z‑Image aprende fuertemente de los gradientes ("aprende caliente"), así que la calidad y variedad del dataset importan más que el número bruto de imágenes:

  • Muy pocas imágenes + demasiado entrenamiento a menudo se muestra como caras sobreajustadas, poses repetidas, o fondos desordenados.
  • Un dataset pequeño pero diverso (ángulos, iluminación, fondos) tiende a generalizar mejor que uno grande y repetitivo.

5.2 LoRAs de personaje vs estilo

LoRA de Personaje

  • Apunta a 12–30 imágenes del mismo sujeto.
  • Mezcla primeros planos y cuerpo completo, ángulos, iluminación, atuendos.
  • Las descripciones pueden ser literales y consistentes; token trigger opcional.

LoRA de Estilo

  • Apunta a 15–40 imágenes a través de sujetos variados (personas, interiores, paisajes, objetos).
  • Describe la escena normalmente; no sobre-describas el estilo a menos que quieras que sea solo por trigger.
    • Esto enseña: "renderiza cualquier cosa en este estilo", en lugar de "solo haz el estilo cuando diga una palabra clave especial."

5.3 Descripciones, palabra trigger y archivos de texto

  • image_01.pngimage_01.txt
  • Si no hay .txt, AI Toolkit usa Default Caption.
  • Puedes usar [trigger] en las descripciones y configurar Trigger Word en el panel JOB.
    • Esto es especialmente útil si luego habilitas DOP (Differential Output Preservation) para hacer el LoRA más "opt-in".

6. Configuración de LoRA Z‑Image en AI Toolkit – parámetro por parámetro

En esta sección recorremos los paneles de la UI y explicamos qué hace cada campo importante en el proceso de cómo entrenar un LoRA para Z-Image Turbo.

6.1 Panel JOB

  • Training Name — etiqueta descriptiva como zimage_char_pelirrojo_v1
  • GPU ID — selector de GPU local; en cloud mantén el valor predeterminado
  • Trigger Word (opcional)zchar_pelirrojo / zstyle_lapiz

6.2 Panel MODEL (el más importante)

Aquí es donde importan las dos opciones de base:

Si eliges Turbo + adaptador

  • Model ArchitectureZ‑Image Turbo (w/ Training Adapter)
  • Name or PathTongyi-MAI/Z-Image-Turbo
    • Esta es la Hugging Face model id (repo id). En la mayoría de builds de AI Toolkit, seleccionar la model architecture autocompletará esto; déjalo así a menos que tengas una razón para cambiarlo.
    • Si lo sobrescribes, usa el formato de repo id de Hugging Face: org-o-usuario/nombre-modelo (opcionalmente org-o-usuario/nombre-modelo@revision).
  • Training Adapter Path — mantén el predeterminado o elige:
    • v1: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors
    • v2: ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Consejo: si accidentalmente entrenas Turbo sin el adaptador, el síntoma más común es que tu LoRA solo "funciona" cuando aumentas steps/CFG, lo cual elimina el propósito de Turbo.

Si eliges De‑Turbo

  • Model ArchitectureZ‑Image De‑Turbo (De‑Distilled)
  • Name or Pathostris/Z-Image-De-Turbo
    • Esta es la Hugging Face model id (repo id). En la mayoría de builds de AI Toolkit, seleccionar la model architecture autocompletará esto; déjalo así a menos que tengas una razón para cambiarlo.
    • Si lo sobrescribes, usa el formato de repo id de Hugging Face: org-o-usuario/nombre-modelo (opcionalmente org-o-usuario/nombre-modelo@revision).
  • Training Adapter Path — ninguno

Opciones:

  • Low VRAM / Layer Offloading — habilitar si tienes restricciones de VRAM

6.3 Panel QUANTIZATION

  • Con 24+ GB, prefiere BF16/none para fidelidad
  • Con 16 GB, float8 suele ser el mejor compromiso

6.4 Panel TARGET – configuración LoRA

  • Target TypeLoRA
  • Linear Rank — empieza con 8–16
    • 16 para estilos/texturas más fuertes
    • 8 para LoRAs más pequeños y sutiles

6.5 Panel SAVE

  • Data TypeBF16
  • Save Every250
  • Max Step Saves to Keep4–12

6.6 Panel TRAINING – hiperparámetros principales

  • Batch Size1
  • OptimizerAdamW8Bit
  • Learning Rate — empieza en 0.0001

    Si es inestable/ruidoso, baja a 0.00005–0.00008.

    Evita subir demasiado (ej. 0.0002+) — los modelos estilo Turbo pueden volverse inestables rápidamente.

  • Weight Decay0.0001
  • Steps2500–3000 para 10–30 imágenes

    Si tu dataset es muy pequeño (<10 imágenes), considera 1500–2200 para reducir sobreajuste.

  • Loss TypeMean Squared Error
  • Timestep TypeWeighted
  • Timestep BiasBalanced
    • Favorece High Noise si quieres estilo/ambiente global más fuerte.
    • Favorece Low Noise si buscas identidad/detalle (avanzado; empieza con Balanced).
  • EMA — OFF

Text Encoder:

  • Cache Text Embeddings — ON si las descripciones son estáticas y VRAM es escaso

    (entonces configura Caption Dropout a 0)

  • Unload TE — mantén OFF para entrenamiento basado en descripciones

Regularización:

  • DOP — mantén OFF para la primera ejecución; añádelo después para LoRAs de producción solo-trigger

    (DOP es poderoso pero añade complejidad; es más fácil una vez que ya tienes una línea base estable.)


6.7 Panel DATASETS

  • Caption Dropout Rate
    • 0.05 si no cacheas embeddings de texto
    • 0 si cacheas embeddings
  • Cache Latents — ON
  • Resolutions512 / 768 / 1024 es una línea base fuerte

6.8 Panel SAMPLE (¡que coincida con tu base!)

Si entrenas Turbo:

  • 1024×1024, 8 pasos, guidance = 0, muestrear cada 250

Si entrenas De‑Turbo:

  • 1024×1024, 20–30 pasos, CFG 2–3, muestrear cada 250

Usa 5–10 prompts que reflejen uso real; incluye un par de prompts sin el trigger para detectar fugas.


6.9 Panel ADVANCED – Differential Guidance (opcional)

  • Do Differential Guidance — ON si quieres convergencia más rápida
  • Scale — empieza en 3

    Si las muestras se ven demasiado nítidas/ruidosas temprano, reduce a 2. Si el aprendizaje es lento, puedes probar 4 después.


7. Recetas prácticas para entrenamiento LoRA Z‑Image

Una línea base fuerte para LoRAs Turbo:

  • Turbo + training adapter (v1 o v2)
  • rank=16, lr=1e-4, steps=2500–3000
  • buckets 512/768/1024, cache latents ON
  • muestras cada 250 pasos, 8 pasos, guidance 0

Si tu LoRA se siente "demasiado fuerte":

  • Mantén el entrenamiento igual, pero planea ejecutar inferencia con un peso de LoRA más bajo (ej. 0.6–0.8).

8. Solución de problemas

"Mi LoRA destruyó Turbo—ahora necesito más steps / CFG."

  • Causas más comunes:
    • entrenaste en Turbo sin el training adapter, o
    • LR demasiado alto por demasiado tiempo.
  • Solución:
    • usa la arquitectura Turbo + training adapter
    • mantén LR ≤ 1e‑4
    • reduce steps si ves deriva temprano

"El estilo es demasiado fuerte."

  • Baja el peso del LoRA en inferencia (0.6–0.8)
  • Usa trigger + DOP para LoRAs de producción (comportamiento opt‑in)

"Las manos/fondos están desordenados."

  • Añade unas pocas imágenes que incluyan esos casos
  • Considera favorecer ligeramente los timesteps de bajo ruido (avanzado)

"Sin VRAM / demasiado lento."

  • Deshabilita buckets altos (mantén 512–1024)
  • Habilita Low VRAM + offloading
  • Cuantiza a float8
  • Cachea latents (y opcionalmente cachea embeddings de texto)

9. Usa tu LoRA Z‑Image


FAQ

¿Debería usar el training adapter v1 o v2 para el Entrenamiento LoRA Z-Image Turbo?

Empieza con el valor predeterminado de tu UI. Si los resultados son inestables o ves deriva de Z‑Image Turbo, prueba la otra versión manteniendo todas las demás configuraciones iguales.

¿Debería entrenar Z‑Image en Turbo+adaptador o De‑Turbo?

Turbo+adaptador para la mayoría de LoRAs Z‑Image que deben mantener el comportamiento de 8 pasos de Turbo. De‑Turbo si quieres entrenamiento sin adaptador o fine‑tunes más largos.

¿Qué configuraciones de inferencia Z‑Image debería usar después del entrenamiento?

Z‑Image Turbo típicamente usa CFG bajo/nulo y ~8 pasos. De‑Turbo se comporta más como un modelo normal (20–30 pasos, CFG bajo). Siempre haz coincidir tu configuración de muestreo con la base que realmente estés usando.


Más guías de entrenamiento LoRA con AI Toolkit

Ready to start training?