Entrenamiento LoRA Z‑Image (Base) con Ostris AI Toolkit

Z‑Image (Base) es el checkpoint completo de Z‑Image (no el Turbo de 8 pasos). Está diseñado para text‑to‑image de alta calidad con CFG + prompts negativos y más pasos de muestreo, y también es la mejor elección si tu objetivo es un LoRA limpio y totalmente controlable (personaje, estilo, producto, conceptos con mucha tipografía).

Al final de esta guía de entrenamiento LoRA Z‑Image, podrás:

Hacer un entrenamiento LoRA Z‑Image en AI Toolkit de Ostris (local o en la nube).
Elegir valores por defecto que realmente coincidan con el comportamiento de inferencia de Z‑Image Base (steps + CFG + resolución).
Evitar los errores más comunes en el entrenamiento LoRA Z‑Image Base (ajustes de Turbo, “el LoRA no hace nada”, desajuste Base↔Turbo).
Exportar checkpoints listos para usar en tu UI de inferencia.

Este artículo forma parte de la serie de entrenamiento LoRA con AI Toolkit. Si eres nuevo en Ostris AI Toolkit, empieza por la visión general de AI Toolkit LoRA training antes de entrar en este entrenamiento LoRA Z‑Image:

https://www.runcomfy.com/es/trainer/ai-toolkit/getting-started

Tabla de contenidos

1. Panorama de Z‑Image: qué puede hacer (y en qué se diferencia de Turbo)
2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy
3. Requisitos de hardware y VRAM para el entrenamiento LoRA Z‑Image Base
4. Crear un dataset para entrenamiento LoRA Z‑Image Base
5. Paso a paso: entrenamiento LoRA Z‑Image en AI Toolkit
6. Configuraciones recomendadas para entrenamiento LoRA Z‑Image según VRAM
7. Problemas comunes del entrenamiento Z‑Image Base y cómo solucionarlos
8. Usar tu LoRA Z‑Image Base después del entrenamiento LoRA Z‑Image

1. Panorama de Z‑Image: qué puede hacer (y en qué se diferencia de Turbo)

1.1 Qué significa “Z‑Image Base”

“Z‑Image Base” se refiere al checkpoint Z‑Image no destilado. En la práctica:

Espera más pasos de muestreo (piensa en ~30–50, no 8).
Usa CFG y prompts negativos de forma efectiva.
Es el mejor objetivo para el fine‑tuning LoRA (mención alternativa una vez) cuando quieres máximo control y calidad en el entrenamiento LoRA Z‑Image.

1.2 Base vs Turbo (la implicación clave para entrenar)

Un error frecuente en el entrenamiento LoRA Z‑Image es entrenar (o evaluar) Base como si fuera Turbo.

Los ajustes de Turbo (8 pasos, poco o nada de CFG) harán que los resultados de Base se vean poco desarrollados, y pueden hacerte pensar que tu LoRA “no funciona”.
Los ajustes de Base (30–50 pasos + CFG normal) son la forma correcta de juzgar checkpoints.

Regla práctica:

Si entrenaste un LoRA para Base, evalúalo en Base con muestreo estilo Base.

2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy

Puedes hacer este entrenamiento LoRA Z‑Image en dos entornos:

AI Toolkit local (tu propia GPU)
Instala AI Toolkit desde el repo de GitHub y ejecuta la Web UI. El entrenamiento LoRA Z‑Image en local es ideal si tienes una GPU NVIDIA, te sientes cómodo gestionando CUDA/drivers y quieres un setup persistente para iterar LoRAs.

https://github.com/ostris/ai-toolkit
AI Toolkit en la nube en RunComfy (H100 / H200)
AI Toolkit se ejecuta en el navegador con GPUs grandes:

Sin instalaciones (solo abre la UI)
Mucha VRAM para buckets de mayor resolución (1280 / 1536)
Workspace persistente para datasets, configs y ejecuciones anteriores

El flujo de trabajo del entrenamiento LoRA Z‑Image es el mismo en ambos; solo cambia dónde está la GPU.

3. Requisitos de hardware y VRAM para el entrenamiento LoRA Z‑Image Base

Z‑Image puede correr en GPUs relativamente modestas para inferencia, pero el entrenamiento LoRA Z‑Image escala mucho con:

Bucket de resolución (768 vs 1024 vs 1536)
Cuantización (float8)
Rank de LoRA
Ajustes de muestreo durante el entrenamiento (resolución del preview + pasos del preview)

Una forma práctica de verlo en entrenamiento LoRA Z‑Image:

12–16GB VRAM: posible a 512/768 con ajustes cuidadosos
24GB VRAM: cómodo para entrenar LoRA a 1024
48GB+ VRAM: la vía más fácil para buckets 1280/1536 y iteración más rápida

Si tu objetivo es tipografía pesada o fidelidad de producto, planifica mayor resolución y asume que la VRAM sube rápido.

4. Crear un dataset para entrenamiento LoRA Z‑Image Base

Z‑Image Base no es “especial” en formatos de dataset, pero sí es sensible a cómo evalúas la calidad. Por eso, tu dataset para entrenamiento LoRA Z‑Image debería alinearse con el comportamiento que quieres en inferencia (CFG + más pasos).

4.1 Elige tu objetivo (y la forma del dataset)

Personaje / parecido: 15–50 imágenes
Mezcla primeros planos + planos medios + variedad de iluminación.
Estilo: 30–200 imágenes
Maximiza la variedad de sujetos para que el modelo aprenda “pistas de estilo”, no una escena.
Producto / concepto: 20–80 imágenes
Encuadre consistente y captions claras para rasgos definitorios (materiales, texto de etiqueta, forma).

4.2 Captions + trigger (manténlo simple)

Usa un trigger si quieres un interruptor limpio “on/off” (recomendado para personaje/producto en entrenamiento LoRA Z‑Image).
Mantén captions cortas y consistentes. Captions largas aumentan el enlace accidental (corte de pelo/fondo se vuelve “parte del trigger”).

Plantillas rápidas

Personaje:
[trigger]

o photo of [trigger], portrait, natural lighting
Estilo:
in a [style] illustration style, soft shading, muted palette
Producto:
product photo of [trigger], studio lighting, clean background

5. Paso a paso: entrenamiento LoRA Z‑Image en AI Toolkit

Esta sección está escrita para coincidir con los paneles de la UI de AI Toolkit que ves al crear un nuevo job de entrenamiento LoRA Z‑Image.

5.1 Panel JOB (Training Name, GPU ID, Trigger Word)

Training Name: un nombre descriptivo (p. ej., zimage_base_character_v1)
GPU ID: elige tu GPU (local) o deja el valor por defecto (cloud)
Trigger Word (opcional, pero recomendado para personaje/producto en entrenamiento LoRA Z‑Image):
Ejemplo: zimgAlice

5.2 Panel MODEL (Model Architecture, Name or Path, Options)

Model Architecture: elige Z‑Image
Name or Path: configura el repo del modelo base, típicamente:
Tongyi-MAI/Z-Image
Options

Low VRAM: ON si estás en ≤ 24GB
Layer Offloading: OFF por defecto; actívalo solo si sigues con OOM después de bajar resolución/rank

5.3 Panel QUANTIZATION (Transformer, Text Encoder)

Transformer: float8 (default) es un gran punto de partida para poder usar buckets grandes.
Text Encoder: float8 (default) si necesitas margen de VRAM.

Si tienes mucha VRAM puedes reducir cuantización por simplicidad, pero float8 suele ser una base segura para entrenamiento LoRA Z‑Image.

5.4 Panel TARGET (Target Type, Linear Rank)

Target Type: LoRA
Linear Rank (defaults prácticos para entrenamiento LoRA Z‑Image)

16: LoRAs de estilo, runs con poca VRAM
32: LoRAs de personaje/producto, mayor fidelidad
48+: solo si tienes mucha VRAM y sabes que estás underfitting

5.5 Panel SAVE (Data Type, Save Every, Max Step Saves to Keep)

Data Type: BF16
Save Every: 250 (suficientes checkpoints para elegir el mejor)
Max Step Saves to Keep: 4 (evita crecer el disco)

5.6 Panel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

Baseline estable para entrenamiento LoRA Z‑Image

Batch Size: 1
Gradient Accumulation: 1 (sube si quieres un batch efectivo mayor sin VRAM)
Steps: ver abajo (rangos según objetivo)
Optimizer: AdamW8Bit
Learning Rate: 0.0001 (baja a 0.00005 si es inestable)
Weight Decay: 0.0001
Timestep Type: Weighted
Timestep Bias: Balanced
Loss Type: Mean Squared Error
EMA: OFF para la mayoría de runs

Steps: una guía amigable para Z‑Image Base

Z‑Image Base suele tolerar entrenamientos más largos que modelos destilados estilo Turbo, pero aun así quieres parar antes de que colapse la fidelidad al prompt.

Personaje / parecido: 3000–7000 steps (el sweet spot depende del tamaño del dataset)
Estilo: 2000–6000 steps
Producto / concepto: 2500–6500 steps

Si quieres un “smoke test” rápido del entrenamiento LoRA Z‑Image: 1000–1500 steps, revisa samples y luego haz el run completo.

5.7 Optimizaciones del Text Encoder + Regularización (lado derecho)

Unload TE: déjalo OFF salvo que quieras comportamiento solo‑trigger y sin captions
Cache Text Embeddings: actívalo solo si usas captions estáticas y no usas caption dropout

Differential Output Preservation (DOP)

Si tu build de UI lo incluye:

Activa Differential Output Preservation cuando te importa “el LoRA solo se activa cuando lo pides”
Si DOP está ON, no cachees text embeddings (conflictan conceptualmente)

5.8 Panel ADVANCED

Do Differential Guidance: déjalo OFF salvo que ya lo uses en tu flujo y sepas qué estás ajustando.

5.9 Panel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

Usa estos ajustes del dataset tal como aparecen para entrenamiento LoRA Z‑Image:

Target Dataset: selecciona tu dataset
Default Caption: plantilla corta opcional (o déjalo en blanco si usas .txt por imagen)
Caption Dropout Rate: 0.05 (ponlo en 0 si cacheas text embeddings)
Cache Latents: ON para velocidad
Is Regularization: OFF para tu dataset principal
Flip X / Flip Y: OFF por defecto (especialmente para logos/texto)
Resolutions (la palanca más importante en entrenamiento LoRA Z‑Image Base)

Poca VRAM: 512 + 768
24GB: 768 + 1024 (o solo 1024 si el dataset es consistente)
Mucha VRAM: añade 1280 / 1536 para la mejor fidelidad en producto/texto

5.10 Panel SAMPLE (aquí es donde Base vs Turbo importa más)

Este es el lugar #1 donde la gente configura mal Z‑Image Base en entrenamiento LoRA Z‑Image.

Defaults recomendados de muestreo para Base

Sample Every: 250
Sampler: FlowMatch (para empatar la familia del scheduler)
Guidance Scale: 4 (el rango típico de Base es ~3–5; ajusta a gusto)
Sample Steps: 30–50 (empieza en 30)
Width / Height: que coincida con tu bucket principal (1024×1024 es una buena base)
Añade un set pequeño de prompts que cubra:

el trigger (si lo usas)
diferentes composiciones
al menos un prompt “difícil” que estire identidad/estilo/geometría de producto

Negative prompt opcional (Base lo soporta muy bien)

Usa un negative prompt corto en previews para reducir artefactos, por ejemplo:

low quality, blurry, deformed, bad anatomy, watermark, text artifacts

5.11 Lanzar el entrenamiento y monitorear

Inicia el job y observa en tu entrenamiento LoRA Z‑Image:

Samples en cada intervalo de checkpoint (250 steps)
Fidelidad al prompt (¿se siguen respetando los prompts?)
Señales de sobreajuste (misma cara/textura en todo, colapso de fondos)

Elige el checkpoint donde el LoRA sea fuerte sin convertirse en un filtro siempre‑activo.

6. Configuraciones recomendadas para entrenamiento LoRA Z‑Image según VRAM

Tier 1 — 12–16GB (VRAM ajustada)

Low VRAM: ON
Quantization: float8 para Transformer + Text Encoder
Linear Rank: 16
Resolutions: 512 + 768
Sample Steps: 30 (mantén el preview en 768 si hace falta)
Steps: 2000–5000 según tamaño del dataset

Tier 2 — 24GB (el tier local más práctico)

Low VRAM: ON (luego prueba OFF si ya está estable)
Quantization: float8
Linear Rank: 32 (personaje/producto), 16–32 (estilo)
Resolutions: 768 + 1024 (o solo 1024 si es consistente)
Sample Steps: 30–40
Steps: 3000–7000 según objetivo

Tier 3 — 48GB+ (o cloud H100/H200)

Low VRAM: OFF (opcional)
Quantization: opcional (float8 sigue bien)
Linear Rank: 32–48
Resolutions: 1024 + 1280 + 1536 (si tu dataset lo soporta)
Sample Steps: 40–50 para el mejor preview
Steps: mismos rangos por objetivo; solo iteras más rápido

7. Problemas comunes del entrenamiento Z‑Image Base y cómo solucionarlos

Estos son problemas específicos de Z‑Image Base (no errores genéricos de AI Toolkit).

“Base se ve poco desarrollada / con poco detalle”

Causa probable: muy pocos steps y/o resolución demasiado baja.

Solución

Sube los sample steps a 40–50
Prueba un bucket más alto (1280/1536) si tu VRAM lo permite
Si tu workflow de inferencia tiene un parámetro “shift”, algunos usuarios reportan mejor coherencia con shift en rango medio (p. ej., ~4–6). Úsalo solo como ajuste fino después de tener steps/CFG correctos.

“Mi LoRA Base funciona en Base pero no en Turbo”

Esto es esperable en muchos casos:

Turbo está destilado y se comporta diferente (especialmente en CFG/negativos y “qué tan fuerte muerden los LoRAs”).

Solución

Si necesitas deploy en Turbo, considera entrenar en un workflow enfocado a Turbo en vez de asumir que Base↔Turbo será 1:1.
Para mejores resultados, entrena y despliega en la misma familia (Base→Base).

“Texto/logos son inconsistentes”

Z‑Image Base puede hacer buena tipografía, pero es sensible a resolución y muestreo en entrenamiento LoRA Z‑Image.

Solución

Entrena a 1024+ (y considera 1280/1536 si es posible)
Evalúa con 40–50 pasos
Evita Flip X si el texto importa
Captiona el rasgo clave del texto de forma consistente (no dependas de que el trigger lo implique)

8. Usar tu LoRA Z‑Image Base después del entrenamiento LoRA Z‑Image

Run LoRA — abre la página de Z‑Image Run LoRA. En esta página de inferencia del modelo base, puedes seleccionar un asset LoRA que entrenaste en RunComfy o importar un archivo LoRA que entrenaste con AI Toolkit, y luego ejecutar inferencia desde el playground o vía la API. RunComfy usa el mismo modelo base y la definición completa del pipeline de AI Toolkit de tu configuración de entrenamiento, así que lo que viste durante el entrenamiento es lo que obtienes en inferencia; esta alineación estrecha training/inference ayuda a mantener resultados consistentes con tus samples. También puedes desplegar tu LoRA como un endpoint dedicado usando la página de Deployments

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample

Entrenamiento LoRA Z‑Image (Base) con Ostris AI Toolkit

Tabla de contenidos

1. Panorama de Z‑Image: qué puede hacer (y en qué se diferencia de Turbo)

1.1 Qué significa “Z‑Image Base”

1.2 Base vs Turbo (la implicación clave para entrenar)

2. Opciones de entorno: AI Toolkit local vs AI Toolkit en la nube en RunComfy

3. Requisitos de hardware y VRAM para el entrenamiento LoRA Z‑Image Base

4. Crear un dataset para entrenamiento LoRA Z‑Image Base

4.1 Elige tu objetivo (y la forma del dataset)

4.2 Captions + trigger (manténlo simple)

5. Paso a paso: entrenamiento LoRA Z‑Image en AI Toolkit

5.1 Panel JOB (Training Name, GPU ID, Trigger Word)

5.2 Panel MODEL (Model Architecture, Name or Path, Options)

5.3 Panel QUANTIZATION (Transformer, Text Encoder)

5.4 Panel TARGET (Target Type, Linear Rank)

5.5 Panel SAVE (Data Type, Save Every, Max Step Saves to Keep)

5.6 Panel TRAINING (Batch Size, Steps, Optimizer, LR, Timesteps)

5.7 Optimizaciones del Text Encoder + Regularización (lado derecho)

5.8 Panel ADVANCED

5.9 Panel DATASETS (Target Dataset, Caption Dropout, Cache Latents, Resolutions)

5.10 Panel SAMPLE (aquí es donde Base vs Turbo importa más)

5.11 Lanzar el entrenamiento y monitorear

6. Configuraciones recomendadas para entrenamiento LoRA Z‑Image según VRAM

Tier 1 — 12–16GB (VRAM ajustada)

Tier 2 — 24GB (el tier local más práctico)

Tier 3 — 48GB+ (o cloud H100/H200)

7. Problemas comunes del entrenamiento Z‑Image Base y cómo solucionarlos

“Base se ve poco desarrollada / con poco detalle”

“Mi LoRA Base funciona en Base pero no en Turbo”

“Texto/logos son inconsistentes”

8. Usar tu LoRA Z‑Image Base después del entrenamiento LoRA Z‑Image

Más guías de entrenamiento LoRA con AI Toolkit