Entrenamiento LoRA Z‑Image (Base) con Ostris AI Toolkit
Z‑Image (Base) es el checkpoint completo de Z‑Image (no el Turbo de 8 pasos). Está diseñado para text‑to‑image de alta calidad con CFG + prompts negativos y más pasos de muestreo, y también es la mejor elección si tu objetivo es un LoRA limpio y totalmente controlable (personaje, estilo, producto, conceptos con mucha tipografía).
Al final de esta guía de entrenamiento LoRA Z‑Image, podrás:
- Hacer un entrenamiento LoRA Z‑Image en AI Toolkit de Ostris (local o en la nube).
- Elegir valores por defecto que realmente coincidan con el comportamiento de inferencia de Z‑Image Base (steps + CFG + resolución).
- Evitar los errores más comunes en el entrenamiento LoRA Z‑Image Base (ajustes de Turbo, “el LoRA no hace nada”, desajuste Base↔Turbo).
- Exportar checkpoints listos para usar en tu UI de inferencia.
Este artículo forma parte de la serie de entrenamiento LoRA con AI Toolkit. Si eres nuevo en Ostris AI Toolkit, empieza por la visión general de AI Toolkit LoRA training antes de entrar en este entrenamiento LoRA Z‑Image:
https://www.runcomfy.com/es/trainer/ai-toolkit/getting-started
Tabla de contenidos
- 1. Panorama de Z‑Image: qué puede hacer (y en qué se diferencia de Turbo)
- 2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy
- 3. Requisitos de hardware y VRAM para el entrenamiento LoRA Z‑Image Base
- 4. Crear un dataset para entrenamiento LoRA Z‑Image Base
- 5. Paso a paso: entrenamiento LoRA Z‑Image en AI Toolkit
- 6. Configuraciones recomendadas para entrenamiento LoRA Z‑Image según VRAM
- 7. Problemas comunes del entrenamiento Z‑Image Base y cómo solucionarlos
- 8. Usar tu LoRA Z‑Image Base después del entrenamiento LoRA Z‑Image
1. Panorama de Z‑Image: qué puede hacer (y en qué se diferencia de Turbo)
1.1 Qué significa “Z‑Image Base”
“Z‑Image Base” se refiere al checkpoint Z‑Image no destilado. En la práctica:
- Espera más pasos de muestreo (piensa en ~30–50, no 8).
- Usa CFG y prompts negativos de forma efectiva.
- Es el mejor objetivo para el fine‑tuning LoRA (mención alternativa una vez) cuando quieres máximo control y calidad en el entrenamiento LoRA Z‑Image.
1.2 Base vs Turbo (la implicación clave para entrenar)
Un error frecuente en el entrenamiento LoRA Z‑Image es entrenar (o evaluar) Base como si fuera Turbo.
- Los ajustes de Turbo (8 pasos, poco o nada de CFG) harán que los resultados de Base se vean poco desarrollados, y pueden hacerte pensar que tu LoRA “no funciona”.
- Los ajustes de Base (30–50 pasos + CFG normal) son la forma correcta de juzgar checkpoints.
Regla práctica:
Si entrenaste un LoRA para Base, evalúalo en Base con muestreo estilo Base.
2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy
Puedes hacer este entrenamiento LoRA Z‑Image en dos entornos:
- AI Toolkit local (tu propia GPU)
Instala AI Toolkit desde el repo de GitHub y ejecuta la Web UI. El entrenamiento LoRA Z‑Image en local es ideal si tienes una GPU NVIDIA, te sientes cómodo gestionando CUDA/drivers y quieres un setup persistente para iterar LoRAs.
https://github.com/ostris/ai-toolkit
- AI Toolkit en la nube en RunComfy (H100 / H200)
AI Toolkit se ejecuta en el navegador con GPUs grandes:
- Sin instalaciones (solo abre la UI)
- Mucha VRAM para buckets de mayor resolución (1280 / 1536)
- Workspace persistente para datasets, configs y ejecuciones anteriores
El flujo de trabajo del entrenamiento LoRA Z‑Image es el mismo en ambos; solo cambia dónde está la GPU.
3. Requisitos de hardware y VRAM para el entrenamiento LoRA Z‑Image Base
Z‑Image puede correr en GPUs relativamente modestas para inferencia, pero el entrenamiento LoRA Z‑Image escala mucho con:
- Bucket de resolución (768 vs 1024 vs 1536)
- Cuantización (float8)
- Rank de LoRA
- Ajustes de muestreo durante el entrenamiento (resolución del preview + pasos del preview)
Una forma práctica de verlo en entrenamiento LoRA Z‑Image:
- 12–16GB VRAM: posible a 512/768 con ajustes cuidadosos
- 24GB VRAM: cómodo para entrenar LoRA a 1024
- 48GB+ VRAM: la vía más fácil para buckets 1280/1536 y iteración más rápida
Si tu objetivo es tipografía pesada o fidelidad de producto, planifica mayor resolución y asume que la VRAM sube rápido.
4. Crear un dataset para entrenamiento LoRA Z‑Image Base
Z‑Image Base no es “especial” en formatos de dataset, pero sí es sensible a cómo evalúas la calidad. Por eso, tu dataset para entrenamiento LoRA Z‑Image debería alinearse con el comportamiento que quieres en inferencia (CFG + más pasos).
4.1 Elige tu objetivo (y la forma del dataset)
- Personaje / parecido: 15–50 imágenes
Mezcla primeros planos + planos medios + variedad de iluminación.
- Estilo: 30–200 imágenes
Maximiza la variedad de sujetos para que el modelo aprenda “pistas de estilo”, no una escena.
- Producto / concepto: 20–80 imágenes
Encuadre consistente y captions claras para rasgos definitorios (materiales, texto de etiqueta, forma).
4.2 Captions + trigger (manténlo simple)
- Usa un trigger si quieres un interruptor limpio “on/off” (recomendado para personaje/producto en entrenamiento LoRA Z‑Image).
- Mantén captions cortas y consistentes. Captions largas aumentan el enlace accidental (corte de pelo/fondo se vuelve “parte del trigger”).
Plantillas rápidas
- Personaje:
[trigger]o
photo of [trigger], portrait, natural lighting - Estilo:
in a [style] illustration style, soft shading, muted palette - Producto:
product photo of [trigger], studio lighting, clean background
5. Paso a paso: entrenamiento LoRA Z‑Image en AI Toolkit
Esta sección está escrita para coincidir con los paneles de la UI de AI Toolkit que ves al crear un nuevo job de entrenamiento LoRA Z‑Image.
5.1 Panel JOB (Training Name, GPU ID, Trigger Word)
- Training Name: un nombre descriptivo (p. ej.,
zimage_base_character_v1) - GPU ID: elige tu GPU (local) o deja el valor por defecto (cloud)
- Trigger Word (opcional, pero recomendado para personaje/producto en entrenamiento LoRA Z‑Image):
Ejemplo:
zimgAlice
5.2 Panel MODEL (Model Architecture, Name or Path, Options)
- Model Architecture: elige Z‑Image
- Name or Path: configura el repo del modelo base, típicamente:
Tongyi-MAI/Z-Image - Options
- Low VRAM: ON si estás en ≤ 24GB
- Layer Offloading: OFF por defecto; actívalo solo si sigues con OOM después de bajar resolución/rank
5.3 Panel QUANTIZATION (Transformer, Text Encoder)
- Transformer:
float8 (default)es un gran punto de partida para poder usar buckets grandes. - Text Encoder:
float8 (default)si necesitas margen de VRAM.
Si tienes mucha VRAM puedes reducir cuantización por simplicidad, pero float8 suele ser una base segura para entrenamiento LoRA Z‑Image.
5.4 Panel TARGET (Target Type, Linear Rank)
- Target Type:
LoRA - Linear Rank (defaults prácticos para entrenamiento LoRA Z‑Image)
- 16: LoRAs de estilo, runs con poca VRAM
- 32: LoRAs de personaje/producto, mayor fidelidad
- 48+: solo si tienes mucha VRAM y sabes que estás underfitting
5.5 Panel SAVE (Data Type, Save Every, Max Step Saves to Keep)
- Data Type:
BF16 - Save Every:
250(suficientes checkpoints para elegir el mejor) - Max Step Saves to Keep:
4(evita crecer el disco)
5.6 Panel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)
Baseline estable para entrenamiento LoRA Z‑Image
- Batch Size:
1 - Gradient Accumulation:
1(sube si quieres un batch efectivo mayor sin VRAM) - Steps: ver abajo (rangos según objetivo)
- Optimizer:
AdamW8Bit - Learning Rate:
0.0001(baja a0.00005si es inestable) - Weight Decay:
0.0001 - Timestep Type:
Weighted - Timestep Bias:
Balanced - Loss Type:
Mean Squared Error - EMA: OFF para la mayoría de runs
Steps: una guía amigable para Z‑Image Base
Z‑Image Base suele tolerar entrenamientos más largos que modelos destilados estilo Turbo, pero aun así quieres parar antes de que colapse la fidelidad al prompt.
- Personaje / parecido: 3000–7000 steps (el sweet spot depende del tamaño del dataset)
- Estilo: 2000–6000 steps
- Producto / concepto: 2500–6500 steps
Si quieres un “smoke test” rápido del entrenamiento LoRA Z‑Image: 1000–1500 steps, revisa samples y luego haz el run completo.
5.7 Optimizaciones del Text Encoder + Regularización (lado derecho)
- Unload TE: déjalo OFF salvo que quieras comportamiento solo‑trigger y sin captions
- Cache Text Embeddings: actívalo solo si usas captions estáticas y no usas caption dropout
Differential Output Preservation (DOP)
Si tu build de UI lo incluye:
- Activa Differential Output Preservation cuando te importa “el LoRA solo se activa cuando lo pides”
- Si DOP está ON, no cachees text embeddings (conflictan conceptualmente)
5.8 Panel ADVANCED
- Do Differential Guidance: déjalo OFF salvo que ya lo uses en tu flujo y sepas qué estás ajustando.
5.9 Panel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)
Usa estos ajustes del dataset tal como aparecen para entrenamiento LoRA Z‑Image:
- Target Dataset: selecciona tu dataset
- Default Caption: plantilla corta opcional (o déjalo en blanco si usas
.txtpor imagen) - Caption Dropout Rate:
0.05(ponlo en0si cacheas text embeddings) - Cache Latents: ON para velocidad
- Is Regularization: OFF para tu dataset principal
- Flip X / Flip Y: OFF por defecto (especialmente para logos/texto)
- Resolutions (la palanca más importante en entrenamiento LoRA Z‑Image Base)
- Poca VRAM: 512 + 768
- 24GB: 768 + 1024 (o solo 1024 si el dataset es consistente)
- Mucha VRAM: añade 1280 / 1536 para la mejor fidelidad en producto/texto
5.10 Panel SAMPLE (aquí es donde Base vs Turbo importa más)
Este es el lugar #1 donde la gente configura mal Z‑Image Base en entrenamiento LoRA Z‑Image.
Defaults recomendados de muestreo para Base
- Sample Every:
250 - Sampler:
FlowMatch(para empatar la familia del scheduler) - Guidance Scale:
4(el rango típico de Base es ~3–5; ajusta a gusto) - Sample Steps: 30–50 (empieza en 30)
- Width / Height: que coincida con tu bucket principal (1024×1024 es una buena base)
- Añade un set pequeño de prompts que cubra:
- el trigger (si lo usas)
- diferentes composiciones
- al menos un prompt “difícil” que estire identidad/estilo/geometría de producto
Negative prompt opcional (Base lo soporta muy bien)
Usa un negative prompt corto en previews para reducir artefactos, por ejemplo:
low quality, blurry, deformed, bad anatomy, watermark, text artifacts
5.11 Lanzar el entrenamiento y monitorear
Inicia el job y observa en tu entrenamiento LoRA Z‑Image:
- Samples en cada intervalo de checkpoint (250 steps)
- Fidelidad al prompt (¿se siguen respetando los prompts?)
- Señales de sobreajuste (misma cara/textura en todo, colapso de fondos)
Elige el checkpoint donde el LoRA sea fuerte sin convertirse en un filtro siempre‑activo.
6. Configuraciones recomendadas para entrenamiento LoRA Z‑Image según VRAM
Tier 1 — 12–16GB (VRAM ajustada)
- Low VRAM: ON
- Quantization: float8 para Transformer + Text Encoder
- Linear Rank: 16
- Resolutions: 512 + 768
- Sample Steps: 30 (mantén el preview en 768 si hace falta)
- Steps: 2000–5000 según tamaño del dataset
Tier 2 — 24GB (el tier local más práctico)
- Low VRAM: ON (luego prueba OFF si ya está estable)
- Quantization: float8
- Linear Rank: 32 (personaje/producto), 16–32 (estilo)
- Resolutions: 768 + 1024 (o solo 1024 si es consistente)
- Sample Steps: 30–40
- Steps: 3000–7000 según objetivo
Tier 3 — 48GB+ (o cloud H100/H200)
- Low VRAM: OFF (opcional)
- Quantization: opcional (float8 sigue bien)
- Linear Rank: 32–48
- Resolutions: 1024 + 1280 + 1536 (si tu dataset lo soporta)
- Sample Steps: 40–50 para el mejor preview
- Steps: mismos rangos por objetivo; solo iteras más rápido
7. Problemas comunes del entrenamiento Z‑Image Base y cómo solucionarlos
Estos son problemas específicos de Z‑Image Base (no errores genéricos de AI Toolkit).
“Base se ve poco desarrollada / con poco detalle”
Causa probable: muy pocos steps y/o resolución demasiado baja.
Solución
- Sube los sample steps a 40–50
- Prueba un bucket más alto (1280/1536) si tu VRAM lo permite
- Si tu workflow de inferencia tiene un parámetro “shift”, algunos usuarios reportan mejor coherencia con shift en rango medio (p. ej., ~4–6). Úsalo solo como ajuste fino después de tener steps/CFG correctos.
“Mi LoRA Base funciona en Base pero no en Turbo”
Esto es esperable en muchos casos:
- Turbo está destilado y se comporta diferente (especialmente en CFG/negativos y “qué tan fuerte muerden los LoRAs”).
Solución
- Si necesitas deploy en Turbo, considera entrenar en un workflow enfocado a Turbo en vez de asumir que Base↔Turbo será 1:1.
- Para mejores resultados, entrena y despliega en la misma familia (Base→Base).
“Texto/logos son inconsistentes”
Z‑Image Base puede hacer buena tipografía, pero es sensible a resolución y muestreo en entrenamiento LoRA Z‑Image.
Solución
- Entrena a 1024+ (y considera 1280/1536 si es posible)
- Evalúa con 40–50 pasos
- Evita Flip X si el texto importa
- Captiona el rasgo clave del texto de forma consistente (no dependas de que el trigger lo implique)
8. Usar tu LoRA Z‑Image Base después del entrenamiento LoRA Z‑Image
Run LoRA — abre la página de Z‑Image Run LoRA. En esta página de inferencia del modelo base, puedes seleccionar un asset LoRA que entrenaste en RunComfy o importar un archivo LoRA que entrenaste con AI Toolkit, y luego ejecutar inferencia desde el playground o vía la API. RunComfy usa el mismo modelo base y la definición completa del pipeline de AI Toolkit de tu configuración de entrenamiento, así que lo que viste durante el entrenamiento es lo que obtienes en inferencia; esta alineación estrecha training/inference ayuda a mantener resultados consistentes con tus samples. También puedes desplegar tu LoRA como un endpoint dedicado usando la página de Deployments
Más guías de entrenamiento LoRA con AI Toolkit
- Entrenamiento LoRA Z‑Image‑Turbo & De‑Turbo con AI Toolkit
- Entrenamiento LoRA FLUX.2 Dev con AI Toolkit
- Entrenamiento LoRA Qwen-Image-Edit-2511 con AI Toolkit
- Entrenamiento LoRA Qwen-Image-Edit-2509 con AI Toolkit
- Entrenamiento LoRA Wan 2.2 I2V 14B image-to-video
- Entrenamiento LoRA Wan 2.2 T2V 14B text-to-video
- Entrenamiento LoRA Qwen Image 2512
- Entrenamiento LoRA LTX-2 con AI Toolkit
Ready to start training?

