Z‑Image es un modelo de generación de imágenes de 6B parámetros de Tongyi‑MAI construido sobre un Scalable Single‑Stream Diffusion Transformer (S3‑DiT). Es inusualmente eficiente para su tamaño y está diseñado para ejecutarse a 1024×1024 en GPUs de consumo.
Esta guía de Entrenamiento LoRA Z-Image Turbo cubre los dos enfoques más comunes y prácticos para entrenar LoRA Z-Image Turbo:
1) Z‑Image Turbo (con Training Adapter) — ideal cuando quieres que tu LoRA funcione con verdadera velocidad Turbo de 8 pasos después del entrenamiento.
2) Z‑Image De‑Turbo (De‑Distilled) — ideal cuando quieres una base de‑destilada que puedas entrenar sin adaptador, o para fine-tunes más largos.
Al final de esta guía, serás capaz de:
- Elegir la base Z‑Image correcta (Turbo+adaptador vs De‑Turbo) para tu objetivo.
- Preparar un dataset que funcione con entrenamiento destilado estilo Turbo.
- Configurar Ostris AI Toolkit (localmente o en RunComfy Cloud AI Toolkit) panel por panel.
- Entender por qué cada parámetro importa, para que puedas ajustar en lugar de copiar y pegar.
Este artículo es parte de la serie de entrenamiento LoRA con AI Toolkit. Si eres nuevo en Ostris AI Toolkit, comienza con la guía de inicio de AI Toolkit LoRA training antes de sumergirte en esta guía.
Inicio rápido (configuración base recomendada)
Opción A — Turbo + training adapter (recomendado para la mayoría de LoRAs)
Usa esta opción para entrenar LoRA Z-Image Turbo si quieres que tu LoRA mantenga el comportamiento rápido de 8 pasos de Turbo después del entrenamiento.
Por qué esto importa:
- Turbo es un modelo "estudiante" destilado: comprime un proceso de difusión de múltiples pasos más lento en ~8 pasos.
- Si entrenas en Turbo como un modelo normal, tus actualizaciones pueden deshacer la destilación ("deriva de Turbo"), y empezarás a necesitar más pasos / más CFG para obtener la misma calidad.
- El training adapter "de‑destila" temporalmente Turbo durante el entrenamiento para que tu LoRA aprenda tu concepto sin romper el comportamiento de 8 pasos de Turbo. En inferencia, eliminas el adaptador y conservas solo tu LoRA.
Configuración base:
- MODEL → Model Architecture:
Z‑Image Turbo (w/ Training Adapter) - MODEL → Name or Path:
Tongyi-MAI/Z-Image-Turbo - MODEL → Training Adapter Path:
- Mantén el valor predeterminado si tu UI lo autocompleta (RunComfy suele usar v2 por defecto), o configura explícitamente:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors - TARGET → Linear Rank:
16 - TRAINING → Learning Rate:
0.0001 - TRAINING → Steps:
2500–3000(para 10–30 imágenes) - DATASETS → Resolutions:
512 / 768 / 1024y Cache Latents = ON - SAMPLE (para previsualizaciones):
1024×1024, 8 pasos (o9si tu pipeline trata 9 como "8 DiT forwards")- Guidance scale = 0 (Turbo está guidance‑destilado)
- Muestrear cada
250pasos
Opción B — De‑Turbo (base de‑destilada)
Usa esta opción si quieres entrenar sin training adapter o planeas entrenamientos más largos.
Qué cambia comparado con Turbo:
- De‑Turbo se comporta más como un modelo de difusión "normal" para entrenamiento y muestreo.
- Típicamente muestreas con más pasos y CFG bajo (pero no cero).
- MODEL → Model Architecture:
Z‑Image De‑Turbo (De‑Distilled) - MODEL → Name or Path:
ostris/Z-Image-De-Turbo(o lo que tu build de AI Toolkit preseleccione) - Training Adapter Path: ninguno (no necesario)
- Mantén la misma configuración de LoRA (rank/LR/steps) como línea base.
- SAMPLE (para previsualizaciones):
- 20–30 pasos
- CFG (guidance scale) ≈ 2–3
- Muestrear cada
250pasos
¿Quieres cero configuración? Usa el RunComfy Cloud AI Toolkit y sigue exactamente los mismos paneles.
Tabla de contenidos
- 1. ¿Qué base Z‑Image deberías entrenar? (Turbo+adaptador vs De‑Turbo)
- 2. Z‑Image training adapter v1 vs v2 (qué cambia, cuándo usar)
- 3. Z‑Image / Z‑Image‑Turbo en resumen (para entrenamiento LoRA)
- 4. Dónde entrenar Z‑Image: local vs cloud AI Toolkit
- 5. Diseñando datasets para entrenamiento LoRA Z‑Image
- 6. Configuración de LoRA Z‑Image en AI Toolkit – parámetro por parámetro
- 7. Recetas prácticas para entrenamiento LoRA Z‑Image
- 8. Solución de problemas (deriva Turbo, sobreajuste, VRAM, muestreo)
- 9. Exportar y usar tu LoRA Z‑Image
- FAQ
1. ¿Qué base Z‑Image deberías entrenar? (Turbo+adaptador vs De‑Turbo)
AI Toolkit expone dos opciones de "model architecture" para el Z-Image Turbo LoRA con AI Toolkit:
1.1 Z‑Image Turbo (con Training Adapter)
Mejor para: LoRAs típicos (personaje, estilo, producto), donde tu objetivo final es ejecutar inferencia en Turbo a 8 pasos.
Por qué existe:
- Z‑Image Turbo es un modelo destilado por pasos. Si entrenas LoRAs en un modelo destilado por pasos "normalmente", la destilación puede romperse rápidamente, y Turbo empieza a comportarse como un modelo más lento no destilado (cambios de calidad, necesita más pasos, etc.).
- El training adapter actúa como un "LoRA de de‑destilación" temporal durante el entrenamiento. Tu LoRA aprende tu concepto mientras el comportamiento rápido de 8 pasos de Turbo se mantiene estable.
- En tiempo de inferencia, eliminas el training adapter y conservas tu LoRA sobre la base real de Turbo.
Señales prácticas de que elegiste el camino correcto:
- Tus muestras de previsualización se ven bien a 8 pasos con guidance ≈ 0.
- Tu LoRA no empieza repentinamente a requerir 20–30 pasos para verse limpio (una señal común de deriva de Turbo).
1.2 Z‑Image De‑Turbo (De‑Distilled)
Mejor para: entrenar sin adaptador, o fine‑tunes más largos donde Turbo+adaptador eventualmente derivaría.
Qué es:
- De‑Turbo es una versión de‑destilada de Turbo, diseñada para comportarse más como un modelo de difusión normal para entrenamiento.
- Puede entrenarse directamente sin adaptador y también usarse para inferencia (típicamente 20–30 pasos con CFG bajo).
1.3 Guía rápida de decisión
Elige Turbo + training adapter si:
- Quieres que el LoRA funcione a velocidad Turbo (8 pasos) después del entrenamiento.
- Estás haciendo un entrenamiento LoRA normal (unos pocos miles a decenas de miles de pasos).
Elige De‑Turbo si:
- Quieres comportamiento de "modelo normal" para entrenamiento y muestreo.
- Quieres entrenar más tiempo, o estás experimentando con workflows que no soportan el training adapter limpiamente.
2. Z‑Image training adapter v1 vs v2 (qué cambia, cuándo usar)
En el repositorio del training adapter a menudo verás dos archivos:
..._v1.safetensors..._v2.safetensors
Lo que necesitas saber (prácticamente):
- v1 es la línea base segura.
- v2 es una variante más nueva que puede cambiar la dinámica del entrenamiento y los resultados.
Recomendación: trátalo como un test A/B:
- Mantén dataset, LR, steps, rank idénticos
- Entrena una vez con v1, una vez con v2
- Compara las cuadrículas de muestras en los mismos checkpoints
Si tu UI de RunComfy usa v2 por defecto y tu entrenamiento se ve estable, mantenlo. Si ves inestabilidad (ruido, deriva de Turbo, artefactos extraños), cambia a v1.
3. Z‑Image / Z‑Image‑Turbo en resumen (para entrenamiento LoRA)
De las fuentes oficiales de Z‑Image:
- 6B parámetros, arquitectura S3‑DiT — tokens de texto, tokens semánticos visuales y latentes VAE se concatenan en un único stream de transformer.
- Familia de modelos — existen variantes Turbo, Base y Edit en la serie Z‑Image.
- Especificaciones de Turbo — optimizado para inferencia rápida; guidance es típicamente 0 para inferencia Turbo.
Un modelo mental útil para entrenamiento LoRA:
- Timesteps de alto ruido principalmente controlan la composición (layout, pose, tono de color global).
- Timesteps de bajo ruido principalmente controlan detalles (caras, manos, texturas).
Por eso la configuración de timesteps y bias puede cambiar notablemente si un LoRA se siente más como "estilo global" vs "identidad/detalle".
4. Dónde entrenar Z‑Image: local vs cloud AI Toolkit
4.1 AI Toolkit Local
El AI Toolkit de Ostris es código abierto en GitHub. Soporta el Tutorial LoRA Z-Image Turbo, FLUX, Wan, Qwen y más a través de un sistema unificado de UI y configuración.
Local tiene sentido si:
- Ya tienes una GPU NVIDIA y no te importa la configuración de Python / Git.
- Quieres control total sobre archivos, logs y cambios personalizados.
Repo: ostris/ai-toolkit
4.2 RunComfy Cloud AI Toolkit
Si prefieres saltarte las instalaciones de CUDA y problemas de drivers, usa RunComfy Cloud AI Toolkit:
- Cero configuración — abre un navegador y entrena.
- VRAM consistente — más fácil seguir guías sin fricción de hardware.
- Almacenamiento persistente — iteración más fácil y gestión de checkpoints.
👉 Ábrelo aquí: Cloud AI Toolkit en RunComfy
5. Diseñando datasets para entrenamiento LoRA Z‑Image
5.1 ¿Cuántas imágenes realmente necesitas?
- 10–30 imágenes es un buen rango para la mayoría de LoRAs de personaje o estilo.
- Por encima de ~50 imágenes a menudo encuentras rendimientos decrecientes a menos que tu rango de estilos sea muy amplio.
Z‑Image aprende fuertemente de los gradientes ("aprende caliente"), así que la calidad y variedad del dataset importan más que el número bruto de imágenes:
- Muy pocas imágenes + demasiado entrenamiento a menudo se muestra como caras sobreajustadas, poses repetidas, o fondos desordenados.
- Un dataset pequeño pero diverso (ángulos, iluminación, fondos) tiende a generalizar mejor que uno grande y repetitivo.
5.2 LoRAs de personaje vs estilo
LoRA de Personaje
- Apunta a 12–30 imágenes del mismo sujeto.
- Mezcla primeros planos y cuerpo completo, ángulos, iluminación, atuendos.
- Las descripciones pueden ser literales y consistentes; token trigger opcional.
LoRA de Estilo
- Apunta a 15–40 imágenes a través de sujetos variados (personas, interiores, paisajes, objetos).
- Describe la escena normalmente; no sobre-describas el estilo a menos que quieras que sea solo por trigger.
- Esto enseña: "renderiza cualquier cosa en este estilo", en lugar de "solo haz el estilo cuando diga una palabra clave especial."
5.3 Descripciones, palabra trigger y archivos de texto
image_01.png→image_01.txt- Si no hay
.txt, AI Toolkit usa Default Caption. - Puedes usar
[trigger]en las descripciones y configurar Trigger Word en el panel JOB. - Esto es especialmente útil si luego habilitas DOP (Differential Output Preservation) para hacer el LoRA más "opt-in".
6. Configuración de LoRA Z‑Image en AI Toolkit – parámetro por parámetro
En esta sección recorremos los paneles de la UI y explicamos qué hace cada campo importante en el proceso de cómo entrenar un LoRA para Z-Image Turbo.
6.1 Panel JOB
- Training Name — etiqueta descriptiva como
zimage_char_pelirrojo_v1 - GPU ID — selector de GPU local; en cloud mantén el valor predeterminado
- Trigger Word (opcional) —
zchar_pelirrojo/zstyle_lapiz
6.2 Panel MODEL (el más importante)
Aquí es donde importan las dos opciones de base:
Si eliges Turbo + adaptador
- Model Architecture —
Z‑Image Turbo (w/ Training Adapter) - Name or Path —
Tongyi-MAI/Z-Image-Turbo - Esta es la Hugging Face model id (repo id). En la mayoría de builds de AI Toolkit, seleccionar la model architecture autocompletará esto; déjalo así a menos que tengas una razón para cambiarlo.
- Si lo sobrescribes, usa el formato de repo id de Hugging Face:
org-o-usuario/nombre-modelo(opcionalmenteorg-o-usuario/nombre-modelo@revision). - Training Adapter Path — mantén el predeterminado o elige:
- v1:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v1.safetensors - v2:
ostris/zimage_turbo_training_adapter/zimage_turbo_training_adapter_v2.safetensors
Consejo: si accidentalmente entrenas Turbo sin el adaptador, el síntoma más común es que tu LoRA solo "funciona" cuando aumentas steps/CFG, lo cual elimina el propósito de Turbo.
Si eliges De‑Turbo
- Model Architecture —
Z‑Image De‑Turbo (De‑Distilled) - Name or Path —
ostris/Z-Image-De-Turbo - Esta es la Hugging Face model id (repo id). En la mayoría de builds de AI Toolkit, seleccionar la model architecture autocompletará esto; déjalo así a menos que tengas una razón para cambiarlo.
- Si lo sobrescribes, usa el formato de repo id de Hugging Face:
org-o-usuario/nombre-modelo(opcionalmenteorg-o-usuario/nombre-modelo@revision). - Training Adapter Path — ninguno
Opciones:
- Low VRAM / Layer Offloading — habilitar si tienes restricciones de VRAM
6.3 Panel QUANTIZATION
- Con 24+ GB, prefiere
BF16/nonepara fidelidad - Con 16 GB,
float8suele ser el mejor compromiso
6.4 Panel TARGET – configuración LoRA
- Target Type —
LoRA - Linear Rank — empieza con
8–16 16para estilos/texturas más fuertes8para LoRAs más pequeños y sutiles
6.5 Panel SAVE
- Data Type —
BF16 - Save Every —
250 - Max Step Saves to Keep —
4–12
6.6 Panel TRAINING – hiperparámetros principales
- Batch Size —
1 - Optimizer —
AdamW8Bit - Learning Rate — empieza en
0.0001Si es inestable/ruidoso, baja a
0.00005–0.00008.Evita subir demasiado (ej.
0.0002+) — los modelos estilo Turbo pueden volverse inestables rápidamente. - Weight Decay —
0.0001 - Steps —
2500–3000para 10–30 imágenesSi tu dataset es muy pequeño (<10 imágenes), considera
1500–2200para reducir sobreajuste. - Loss Type —
Mean Squared Error - Timestep Type —
Weighted - Timestep Bias —
Balanced - Favorece High Noise si quieres estilo/ambiente global más fuerte.
- Favorece Low Noise si buscas identidad/detalle (avanzado; empieza con Balanced).
- EMA — OFF
Text Encoder:
- Cache Text Embeddings — ON si las descripciones son estáticas y VRAM es escaso
(entonces configura Caption Dropout a 0)
- Unload TE — mantén OFF para entrenamiento basado en descripciones
Regularización:
- DOP — mantén OFF para la primera ejecución; añádelo después para LoRAs de producción solo-trigger
(DOP es poderoso pero añade complejidad; es más fácil una vez que ya tienes una línea base estable.)
6.7 Panel DATASETS
- Caption Dropout Rate
0.05si no cacheas embeddings de texto0si cacheas embeddings- Cache Latents — ON
- Resolutions —
512 / 768 / 1024es una línea base fuerte
6.8 Panel SAMPLE (¡que coincida con tu base!)
Si entrenas Turbo:
1024×1024, 8 pasos, guidance = 0, muestrear cada250
Si entrenas De‑Turbo:
1024×1024, 20–30 pasos, CFG 2–3, muestrear cada250
Usa 5–10 prompts que reflejen uso real; incluye un par de prompts sin el trigger para detectar fugas.
6.9 Panel ADVANCED – Differential Guidance (opcional)
- Do Differential Guidance — ON si quieres convergencia más rápida
- Scale — empieza en
3Si las muestras se ven demasiado nítidas/ruidosas temprano, reduce a
2. Si el aprendizaje es lento, puedes probar4después.
7. Recetas prácticas para entrenamiento LoRA Z‑Image
Una línea base fuerte para LoRAs Turbo:
- Turbo + training adapter (v1 o v2)
rank=16,lr=1e-4,steps=2500–3000- buckets
512/768/1024, cache latents ON - muestras cada 250 pasos, 8 pasos, guidance 0
Si tu LoRA se siente "demasiado fuerte":
- Mantén el entrenamiento igual, pero planea ejecutar inferencia con un peso de LoRA más bajo (ej.
0.6–0.8).
8. Solución de problemas
"Mi LoRA destruyó Turbo—ahora necesito más steps / CFG."
- Causas más comunes:
- entrenaste en Turbo sin el training adapter, o
- LR demasiado alto por demasiado tiempo.
- Solución:
- usa la arquitectura Turbo + training adapter
- mantén LR ≤ 1e‑4
- reduce steps si ves deriva temprano
"El estilo es demasiado fuerte."
- Baja el peso del LoRA en inferencia (0.6–0.8)
- Usa trigger + DOP para LoRAs de producción (comportamiento opt‑in)
"Las manos/fondos están desordenados."
- Añade unas pocas imágenes que incluyan esos casos
- Considera favorecer ligeramente los timesteps de bajo ruido (avanzado)
"Sin VRAM / demasiado lento."
- Deshabilita buckets altos (mantén 512–1024)
- Habilita Low VRAM + offloading
- Cuantiza a float8
- Cachea latents (y opcionalmente cachea embeddings de texto)
9. Usa tu LoRA Z‑Image
- Model playground — prueba tu LoRA en el modelo base vía el Z‑Image Turbo LoRA playground
- Workflows ComfyUI — carga tu LoRA en un workflow como Z‑Image workflow en ComfyUI
FAQ
¿Debería usar el training adapter v1 o v2 para el Entrenamiento LoRA Z-Image Turbo?
Empieza con el valor predeterminado de tu UI. Si los resultados son inestables o ves deriva de Z‑Image Turbo, prueba la otra versión manteniendo todas las demás configuraciones iguales.
¿Debería entrenar Z‑Image en Turbo+adaptador o De‑Turbo?
Turbo+adaptador para la mayoría de LoRAs Z‑Image que deben mantener el comportamiento de 8 pasos de Turbo. De‑Turbo si quieres entrenamiento sin adaptador o fine‑tunes más largos.
¿Qué configuraciones de inferencia Z‑Image debería usar después del entrenamiento?
Z‑Image Turbo típicamente usa CFG bajo/nulo y ~8 pasos. De‑Turbo se comporta más como un modelo normal (20–30 pasos, CFG bajo). Siempre haz coincidir tu configuración de muestreo con la base que realmente estés usando.
Más guías de entrenamiento LoRA con AI Toolkit
- Entrenamiento LoRA FLUX.2 Dev con AI Toolkit
- Entrenamiento LoRA Qwen-Image-Edit-2511 con AI Toolkit
- Entrenamiento LoRA Qwen-Image-Edit-2509 con AI Toolkit
- Entrenamiento LoRA Wan 2.2 I2V 14B image-to-video
- Entrenamiento LoRA Wan 2.2 T2V 14B text-to-video
- Entrenamiento LoRA LTX-2 con AI Toolkit
- Entrenamiento LoRA Qwen Image 2512 con AI Toolkit
Ready to start training?

