AI Toolkit LoRA Training Guides

Entrenamiento LoRA LTX-2 con Ostris AI Toolkit

Tutorial paso a paso para entrenar LoRAs de LTX-2 en Ostris AI Toolkit. Cubre qué hace diferente a LTX-2 (DiT audio-video, checkpoints 19B), cómo preparar datasets de imágenes o video (incluyendo frames 8n+1), ajustes seguros de inicio (rank 32, 2.000–3.000 steps, LR 1e-4/5e-5), sampling durante el entrenamiento y soluciones a problemas de VRAM, OOM y overfitting.

Train Diffusion Models with Ostris AI Toolkit

Desplázate horizontalmente para ver el formulario completo

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

LTX-2 es un modelo base Diffusion Transformer (DiT) de pesos abiertos diseñado para generar video y audio sincronizados dentro de un solo modelo. A diferencia de los modelos de video "silenciosos", está construido como un sistema conjunto de audio-video para que el movimiento y el sonido puedan alinearse en el tiempo. En la versión oficial, la familia de checkpoints principal es de clase 19B (con una variante "dev" entrenable, múltiples variantes cuantizadas y una variante destilada acelerada).

Esta guía se centra en el Entrenamiento LoRA LTX-2 usando Ostris AI Toolkit. El objetivo es hacerte productivo rápidamente: para qué es bueno LTX-2, qué datos preparar, qué configuraciones de AI Toolkit importan y cuáles son "seguras" para una primera ejecución.

Si no quieres instalar AI Toolkit localmente, puedes ejecutarlo en el navegador en las GPUs cloud de RunComfy (H100 / H200).

▶ Comienza aquí: RunComfy cloud AI Toolkit


Tabla de contenidos


1. Por qué LTX-2 se comporta diferente de otros objetivos de video LoRA

Algunas especificidades de LTX-2 afectan directamente cómo deberías realizar el Entrenamiento LoRA LTX-2:

  • Audio-video es nativo: LTX-2 está construido para generar audio y visuales sincronizados en un modelo (no es un añadido). Eso es genial para "tomas terminadas" (diálogo, ambiente, foley), pero también significa que el finetuning consciente del audio depende de si tu trainer realmente actualiza la ruta de audio y los componentes cross-modales (muchos stacks de entrenamiento de terceros comienzan haciendo finetuning solo de video).
  • Es grande (checkpoints de clase 19B): Lo sentirás en VRAM, tiempo por paso y el hecho de que "rangos pequeños" a menudo subajustan. La lista oficial de checkpoints incluye:
    • ltx-2-19b-dev (entrenable en bf16),
    • variantes dev cuantizadas (fp8 / nvfp4),
    • y ltx-2-19b-distilled (inferencia acelerada, 8 pasos, CFG=1).
  • Restricciones estrictas de forma: Ancho/alto deben ser divisibles por 32, y el conteo de frames debe ser divisible por 8 + 1 (es decir, 8n+1: 1, 9, 17, 25, …, 121, …). Si tu entrada no coincide, típicamente necesitas hacer padding (comúnmente con -1) y luego recortar de vuelta al tamaño/conteo de frames objetivo.

2. Para qué son mejores los LoRAs LTX-2

En la práctica, al entrenar LoRA LTX2, estos son los usos más valiosos:

  • LoRAs de Personaje / identidad: cara consistente, vestuario, props, look de "personaje de marca" e identidad estable a través de movimientos de cámara.
  • LoRAs de Estilo: dirección de arte (lenguaje de iluminación, estilo de renderizado, lentes, vibra de film stock), mientras los sujetos permanecen flexibles.
  • LoRAs de Movimiento / coreografía: un patrón de movimiento específico (estilo de ciclo de caminar, sabor de baile, locomoción de criatura), o "cómo se mueve el mundo" (temblor de cámara en mano, timing de animación).
  • LoRAs de Comportamiento de cámara: dolly-in/out, sensación de grúa/jib, lenguaje de cámara orbital, estabilizado vs cámara en mano.
  • (Avanzado) LoRAs de Audio: paleta de ambiente consistente, estilo de foley o características similares a voz—solo si tu stack de entrenamiento soporta finetuning de la rama de audio.

Si solo tienes imágenes (no video), aún puedes entrenar identidad/estilo efectivamente, pero no deberías esperar que aprenda patrones de movimiento temporal de frames individuales.


3. Preparación de dataset para Entrenamiento LoRA LTX-2

3.1 Elegir el "presupuesto" correcto de longitud de clip + resolución

El costo del LTX-2 19B entrenamiento LoRA escala tanto con el tamaño espacial como con el conteo de frames. Para un primer LoRA, mantenlo simple:

  • Starter de Identidad / estilo:
    • Resolución: 512–768-ish (dependiendo de tu GPU)
    • Frames: 49 u 81 (clips más cortos entrenan más rápido; aún suficiente para consistencia temporal)
  • Starter de Movimiento / cámara:
    • Resolución: 512 (o 768 si tienes margen)
    • Frames: 121 (bueno para aprender movimiento; ~5 segundos a 24 fps)

Recuerda la restricción: los frames deben ser 8n+1.

3.2 Datasets de video vs imagen (ambos son válidos)

Muchos asumen que el Entrenamiento LoRA LTX-2 requiere datasets solo de video. En realidad, la mayoría de los stacks de entrenamiento prácticos pueden trabajar con ambos:

  • Datasets solo de imagen (tratan cada muestra como un "clip de 1 frame"), o
  • Datasets de video (clips cortos coherentes).

Si usas AI Toolkit, generalmente es más simple mantener cada entrada de dataset homogénea (todas imágenes o todos videos) y usar entradas de dataset separadas si necesitas mezclar modalidades.

  • Para imágenes: frames = 1 satisface 8n+1.
  • Para videos: usa clips cortos y coherentes; evita segmentos largos multi-escena.

Esto es importante para trabajo de personajes: puedes iniciar identidad desde imágenes, luego refinar movimiento después con clips cortos.

3.3 ¿Cuántos datos necesitas (escala realista)?

No hay un "mínimo oficial" único, pero estos rangos son puntos de partida realistas para el ltx-2-19b LoRA:

  • LoRAs basados en imagen (identidad / props / estilo): comienza con ~20–50 imágenes limpias y variadas. Si quieres robustez más fuerte a través de iluminación, lentes y composiciones, ~50–150 imágenes curadas usualmente ayuda más que repetir casi-duplicados.
  • LoRAs basados en video (movimiento / cámara / consistencia temporal): apunta a ~20–60 clips cortos y coherentes (tomas de acción única) en lugar de un par de videos largos. Para objetivos más amplios o con más movimiento, escalar hacia ~50–150 clips cortos (o aproximadamente ~10–30 minutos de metraje "bueno") tiende a producir resultados notablemente más estables.

3.4 La calidad de los captions importa más de lo que crees

LTX-2 responde bien a captions más largos y descriptivos, especialmente si quieres resultados controlables. Si tus clips incluyen habla o señales de sonido clave, inclúyelos en los captions (o extractos de transcripción) cuando tu stack de entrenamiento lo soporte.

Consejos prácticos de caption:

  • Para LoRAs de identidad: incluye tokens de identidad consistentes (y varía todo lo demás: iluminación, vestuario, fondo, lente).
  • Para LoRAs de estilo: mantén los descriptores de estilo consistentes y varía sujetos/acciones.
  • Para LoRAs de movimiento: describe la acción precisamente (tempo, mecánica corporal, movimiento de cámara).

3.5 La regularización es tu herramienta "anti-bleed" (úsala cuando el LoRA es estrecho)

Si estás entrenando un concepto estrecho (un personaje, un producto), es fácil sobreajustar y obtener "todo se ve como mi dataset". En AI Toolkit, Differential Output Preservation (DOP) está diseñado para reducir ese tipo de deriva, y se combina naturalmente con un dataset de "regularización".

Un set de reg simple:

  • Clips/imágenes genéricos en encuadre similar a tu dataset principal
  • Captions que coincidan con el dominio general (pero no tu token de identidad único)

4. Cómo piensa Ostris AI Toolkit sobre el entrenamiento

AI Toolkit es esencialmente un motor de entrenamiento consistente envuelto en una UI: eliges una familia de modelo, adjuntas datasets, defines un objetivo LoRA + rango y ajustas optimización + sampling. Los paneles de UI se mapean limpiamente a la configuración de entrenamiento subyacente: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Lo que esto significa para ti: no necesitas scripts específicos del modelo para lo básico, el mismo modelo mental (rango/pasos/LR/caching/regularización) aplica, pero el tamaño y naturaleza de video de LTX-2 hacen algunas configuraciones más "sensibles" (rango, optimizaciones de VRAM, frames).

Si eres nuevo en Ostris AI Toolkit, comienza con el resumen de entrenamiento LoRA de AI Toolkit para que los paneles de UI y parámetros principales tengan sentido antes de ajustar específicos de LTX-2:

Resumen de entrenamiento LoRA de AI Toolkit

Si estás decidiendo dónde ejecutar:

  • AI Toolkit local: mejor si ya tienes una GPU compatible y quieres control total sobre tu entorno.
  • RunComfy cloud AI Toolkit: mejor si quieres saltar la configuración, entrenar en GPUs de alto VRAM e iterar más rápido con menos problemas de "no corre en mi máquina"—especialmente útil para los checkpoints más grandes de LTX-2 y cargas de trabajo de video. ▶ Abre RunComfy cloud AI Toolkit

5. Paso a paso: Cómo entrenar LoRA LTX-2 en AI Toolkit

5.1 Crea tu dataset en AI Toolkit

En el panel Datasets / sección Dataset del job:

  • Target Dataset: tu dataset subido
  • Default Caption: déjalo en blanco a menos que necesites un sufijo global
  • Caption Dropout Rate: comienza alrededor de 0.05 (ayuda a la generalización)
  • Cache Latents: ON si puedes prescindir del espacio en disco (gran ganancia de velocidad en repeticiones, pero los caches de latentes de video crecen rápido)
  • Num Frames:
    • 1 para datasets solo de imagen
    • 49 / 81 / 121 para video, dependiendo de tu objetivo
  • Resolutions: comienza con 512 + 768 habilitados; evita 1024+ hasta que hayas probado tu setup

Si estás haciendo un LoRA de identidad estrecho, añade una segunda entrada de dataset y márcala como Is Regularization (y mantén su peso menor o igual, dependiendo de qué tan agresiva quieras la preservación).

5.2 Nuevo Training Job → Model

En la sección Model:

  • Model Architecture: LTX-2 (si está disponible en tu build)
  • Name or Path: el Hugging Face model id para el modelo base (ej. Lightricks/LTX-2)
  • Selección de checkpoint: elige el checkpoint dev para el LTX-2 trainer LoRA:
    • ltx-2-19b-dev es el modelo completo y es entrenable en bf16.
    • El checkpoint distilled es principalmente para inferencia rápida (8 pasos, CFG=1) y no es el punto de partida por defecto para entrenamiento LoRA a menos que específicamente quieras adaptar el comportamiento destilado.

5.3 Cuantización + opciones de VRAM

LTX-2 es grande, así que a menudo usarás cuantización/offload:

  • Si estás en VRAM clase H100/H200, a menudo puedes correr bf16 más cómodamente.
  • Si estás en GPUs de 24–48 GB, la cuantización y los modos "Low VRAM" se vuelven esenciales.

Dos notas prácticas:

  • LTX-2 mismo viene con variantes cuantizadas oficiales (fp8 / nvfp4) del modelo completo; si puedes entrenar desde esos pesos depende de tu implementación del trainer.
  • Por separado, los optimizadores de 8 bits (ej. AdamW8bit) se usan comúnmente para hacer el entrenamiento práctico en hardware de consumidor.

5.4 Target = LoRA + Rango

Aquí es donde el Entrenamiento LoRA LTX-2 difiere de modelos más pequeños.

  • Target Type: LoRA
  • Linear Rank: comienza en 32
    • Muchos trainers de LoRA LTX-2 reportan que rango 32 es un mínimo práctico para resultados sólidos.
    • Si tienes margen de VRAM y quieres más capacidad (estilo complejo, multi-concepto), prueba 64.

5.5 Hiperparámetros de entrenamiento (una primera ejecución sólida)

Comienza con valores que no exploten:

  • Batch Size: 1 (video casi siempre termina aquí)
  • Gradient Accumulation: 2–4 si quieres un batch efectivo más estable (y puedes permitirte tiempo)
  • Steps:
    • 2,000–3,000 para una primera pasada
    • ve más largo si tienes un dataset más grande o estilo sutil
  • Optimizer: AdamW8bit (opción común para eficiencia de VRAM)
  • Learning Rate: 0.0001 para empezar, 0.00005 si ves sobreajuste o "burn-in" de identidad demasiado rápido
  • Weight Decay: ~0.0001
  • Timestep Type / Bias: mantén los defaults a menos que sepas por qué los cambias
  • DOP / Blank Prompt Preservation: habilita DOP si ves bleed de estilo o pérdida de versatilidad base.

5.6 Sampling durante el entrenamiento (no te lo saltes)

El sampling es tu sistema de alerta temprana para el Entrenamiento LoRA LTX-2. Úsalo.

  • Sample Every: 250 pasos (buena cadencia)
  • Sampler / Scheduler: comienza con lo que tu preset de LTX-2 tenga por defecto, y solo experimenta después de tener una baseline.
  • Guidance + pasos dependen de qué checkpoint estás sampleando:
    • Para ejecuciones dev, un punto de partida común es guidance ~4 con 25–30 pasos de sampling.
    • Para distilled, el comportamiento publicado es 8 pasos, CFG=1, así que samplea con guidance = 1 y steps = 8 (o tendrás confusión de "¿por qué se ve peor?").
  • Width/Height/Frames: coincide con tu bucket de entrenamiento (o un objetivo representativo)

Escribe prompts de muestra que coincidan con tu uso real:

  • Incluye tu palabra trigger (para LoRAs de identidad).
  • Incluye descriptores de cámara/movimiento si esos importan.
  • Mantén un prompt "aburrido" que revele sobreajuste (iluminación simple, acción simple).

6. Expectativas de tiempo en Entrenamiento LoRA LTX-2

No hay un número universal, trata el tiempo de ejecución como una estimación práctica que puede variar con frames/resolución, decisiones de offload/cuantización y qué tan seguido sampleas.

Un modelo mental realista:

  • Frames son a menudo la palanca más grande: 121 → 81 → 49 puede ser la diferencia entre "esto entrena" y "esto se arrastra / OOMs."
  • Overhead de sampling puede rivalizar con el tiempo de entrenamiento si sampleas videos grandes frecuentemente.

Como punto de referencia aproximado: en una H100, con un dataset de video pequeño (~20 clips, 3–5s cada uno), batch=1, rank=32 y gradient checkpointing habilitado, es común ver segundos de un dígito por paso de entrenamiento en un bucket de resolución 768-ish con un bucket de frames de longitud media (ej., 49–81 frames). Tu tiempo exacto por paso variará mucho con I/O, caching y si estás haciendo preprocesamiento consciente del audio.

También presupuesta para sampling: una vista previa de "3 prompts × 25 pasos × 121 frames @ 1024×768" puede fácilmente tomar minutos cada vez que corre. Si sampleas cada 250 pasos, ese overhead puede acumularse rápidamente a través de una ejecución de 2,000 pasos.


7. Problemas comunes en Entrenamiento LoRA LTX-2 (y cómo solucionarlos)

  • Conteos de frames incorrectos: si tu dataset usa 120 frames en lugar de 121, tendrás errores o desajuste silencioso. Mantente en conteos de frames 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
  • Tamaños incorrectos: ancho/alto deben ser divisibles por 32. Si estás usando un pipeline que no hace auto-pad, redimensiona/bucket según corresponda.
  • Rango muy bajo: los síntomas son "entrena pero nada cambia," o fuerza de identidad/estilo débil incluso en escala LoRA 1.0. Prueba rango 32.
  • Sobreajuste / LoRA bleed: tu sujeto aparece en prompts no relacionados. Habilita DOP y añade un dataset de reg.
  • Captions muy cortos: la adherencia al prompt colapsa. Expande los captions (qué, dónde, cámara, movimiento, mood; más señales de audio/transcripción si es relevante).
  • Confusión de sampling destilado: si estás sampleando el checkpoint destilado con 25+ pasos o CFG>1, no lo estás probando como está pensado. Usa 8 pasos, CFG=1 para vistas previas destiladas.
  • VRAM OOM: reduce frames primero (121 → 81 → 49), luego reduce resolución (768 → 512), luego activa offload/cuantización/caching.

8. Entrenamiento LoRA LTX-2: FAQ Rápido

¿Puedo entrenar un LoRA LTX-2 solo desde imágenes?

Sí, usa un dataset solo de imagen y establece el conteo de frames en 1. Genial para identidad y estilo. No tan bueno para aprender movimiento.

¿Checkpoint dev vs destilado para entrenamiento LoRA?

Comienza con ltx-2-19b-dev para el Entrenamiento LoRA LTX-2; está explícitamente descrito como flexible/entrenable en bf16. Los checkpoints destilados son principalmente para inferencia rápida (8 pasos, CFG=1).

¿Qué rango debería usar?

Comienza en 32. Ahí es donde muchos trainers tempranos de LTX-2 están aterrizando para "realmente aprende."

¿Por qué mis samples se ven temblorosos o inconsistentes?

Usualmente una mezcla de: clips muy largos para tu VRAM (forzando offload agresivo), captions que no describen movimiento/cámara, o configuraciones de sampling que no coinciden con el checkpoint (especialmente sampleando destilado como si fuera dev). Reduce frames, ajusta captions y alinea guidance/pasos al checkpoint que estás sampleando.


9. Más información: Otras guías de entrenamiento LoRA con AI Toolkit

Si quieres comparar workflows, datasets y tradeoffs de parámetros a través de familias de modelos, estas guías son buenos puntos de referencia:

Ready to start training?