Guida all’addestramento LoRA LTX-2 con Ostris AI Toolkit

LTX-2 è un modello base Diffusion Transformer (DiT) open-weights progettato per generare video e audio sincronizzati all'interno di un unico modello. A differenza dei modelli video "muti", è costruito come sistema congiunto audio-video in modo che movimento e suono possano allinearsi nel tempo. Nella release ufficiale, la famiglia di checkpoint principale è di classe 19B (con una variante "dev" addestrabile, multiple varianti quantizzate e una variante distillata accelerata).

Questa guida si concentra sull'Addestramento LoRA LTX-2 usando Ostris AI Toolkit. L'obiettivo è renderti produttivo rapidamente: per cosa LTX-2 eccelle, quali dati preparare, quali impostazioni AI Toolkit contano e quali sono "sicure" per una prima esecuzione.

Se non vuoi installare AI Toolkit localmente, puoi eseguirlo nel browser sulle GPU cloud di RunComfy (H100 / H200).

▶ Inizia qui: RunComfy cloud AI Toolkit

Indice

1. Perché LTX-2 si comporta diversamente da altri target video LoRA
2. Per cosa sono migliori i LoRA LTX-2
3. Preparazione del dataset per Addestramento LoRA LTX-2
4. Come Ostris AI Toolkit concepisce l'addestramento
5. Passo dopo passo: Come addestrare LoRA LTX-2 in AI Toolkit
6. Aspettative sui tempi per Addestramento LoRA LTX-2
7. Problemi comuni nell'Addestramento LoRA LTX-2 (e come risolverli)
8. Addestramento LoRA LTX-2: FAQ Rapide
9. Usa la tua LoRA LTX-2 dopo l’addestramento
10. Approfondimenti: Altre guide di addestramento LoRA AI Toolkit

1. Perché LTX-2 si comporta diversamente da altri target video LoRA

Alcune specificità di LTX-2 influenzano direttamente come dovresti approcciare l'Addestramento LoRA LTX-2:

Audio-video è nativo: LTX-2 è costruito per generare audio e visual sincronizzati in un modello (non è un'aggiunta). È ottimo per "shot finiti" (dialogo, ambiente, foley), ma significa anche che il fine-tuning consapevole dell'audio dipende dal fatto che il tuo trainer aggiorni effettivamente il percorso audio e i componenti cross-modali (molti stack di training di terze parti iniziano con finetuning solo video).
È grande (checkpoint di classe 19B): Lo sentirai nella VRAM, nel tempo per step e nel fatto che "rank piccoli" spesso sotto-fittano. La lista ufficiale dei checkpoint include:

ltx-2-19b-dev (addestrabile in bf16),
varianti dev quantizzate (fp8 / nvfp4),
e ltx-2-19b-distilled (inferenza accelerata, 8 step, CFG=1).

Vincoli di forma rigidi: Larghezza/altezza devono essere divisibili per 32, e il conteggio frame deve essere divisibile per 8 + 1 (cioè 8n+1: 1, 9, 17, 25, …, 121, …). Se il tuo input non corrisponde, tipicamente devi fare padding (comunemente con -1) e poi ritagliare alla dimensione/conteggio frame target.

2. Per cosa sono migliori i LoRA LTX-2

In pratica, quando si esegue il LTX-2 19B addestramento LoRA, questi sono gli usi più preziosi:

LoRA Personaggio / identità: volto coerente, costume, props, look da "personaggio brand" e identità stabile attraverso i movimenti di camera.
LoRA Stile: direzione artistica (linguaggio di illuminazione, stile di rendering, lenti, atmosfera film stock), mantenendo i soggetti flessibili.
LoRA Movimento / coreografia: un pattern di movimento specifico (stile ciclo camminata, sapore danza, locomozione creatura), o "come si muove il mondo" (tremolio camera a mano, timing animazione).
LoRA Comportamento camera: dolly-in/out, sensazione gru/jib, linguaggio camera orbitale, stabilizzato vs camera a mano.
(Avanzato) LoRA Audio: palette ambiente coerente, stile foley o caratteristiche vocali—solo se il tuo stack di training supporta il finetuning del branch audio.

Se hai solo immagini (non video), puoi comunque addestrare identità/stile efficacemente, ma non dovresti aspettarti che impari pattern di movimento temporale da frame singoli.

3. Preparazione del dataset per Addestramento LoRA LTX-2

3.1 Scegliere il "budget" corretto di lunghezza clip + risoluzione

Il costo del fine-tuning LoRA LTX-2 scala sia con la dimensione spaziale che con il conteggio frame. Per un primo LoRA, mantieni le cose semplici:

Starter Identità / stile:

Risoluzione: 512–768-ish (a seconda della tua GPU)
Frame: 49 o 81 (clip più corti si addestrano più velocemente; comunque sufficienti per coerenza temporale)

Starter Movimento / camera:

Risoluzione: 512 (o 768 se hai margine)
Frame: 121 (buono per imparare il movimento; ~5 secondi a 24 fps)

Ricorda il vincolo: i frame devono essere 8n+1.

3.2 Dataset video vs immagine (entrambi sono validi)

Molti assumono che l'Addestramento LoRA LTX-2 richieda dataset solo video. In realtà, la maggior parte degli stack di training pratici può lavorare con entrambi:

Dataset solo immagine (trattano ogni sample come un "clip di 1 frame"), o
Dataset video (clip corti coerenti).

Se usi AI Toolkit, è generalmente più semplice mantenere ogni entry del dataset omogenea (tutte immagini o tutti video) e usare entry separate se devi mescolare modalità.

Per immagini: frames = 1 soddisfa 8n+1.
Per video: usa clip corti e coerenti; evita segmenti lunghi multi-scena.

Questo è importante per il lavoro sui personaggi: puoi iniziare l'identità dalle immagini, poi raffinare il movimento dopo con clip corti.

3.3 Di quanti dati hai bisogno (scala realistica)?

Non c'è un "minimo ufficiale" singolo, ma questi range sono punti di partenza realistici per il ltx-2-19b LoRA:

LoRA basati su immagine (identità / props / stile): inizia con ~20–50 immagini pulite e variate. Se vuoi robustezza più forte attraverso illuminazione, lenti e composizioni, ~50–150 immagini curate di solito aiuta più che ripetere quasi-duplicati.
LoRA basati su video (movimento / camera / coerenza temporale): punta a ~20–60 clip corti e coerenti (shot singola azione) invece di un paio di video lunghi. Per obiettivi più ampi o più ricchi di movimento, scalare verso ~50–150 clip corti (o circa ~10–30 minuti di "buon" girato) tende a produrre risultati notevolmente più stabili.

3.4 La qualità delle caption conta più di quanto pensi

LTX-2 risponde bene a caption più lunghe e descrittive, specialmente se vuoi risultati controllabili. Se i tuoi clip includono parlato o segnali sonori chiave, includili nelle caption (o estratti di trascrizione) quando il tuo stack di training lo supporta.

Consigli pratici per le caption:

Per i LoRA identità: includi token di identità coerenti (e varia tutto il resto: illuminazione, guardaroba, sfondo, lente).
Per i LoRA stile: mantieni i descrittori di stile coerenti e varia soggetti/azioni.
Per i LoRA movimento: descrivi l'azione precisamente (tempo, meccanica corporea, movimento camera).

3.5 La regolarizzazione è il tuo strumento "anti-bleed" (usala quando il LoRA è stretto)

Se stai addestrando un concetto stretto (un personaggio, un prodotto), è facile over-fittare e ottenere "tutto sembra il mio dataset". In AI Toolkit, Differential Output Preservation (DOP) è progettato per ridurre quel tipo di deriva, e si abbina naturalmente con un dataset di "regolarizzazione".

Un set di reg semplice:

Clip/immagini generici in framing simile al tuo dataset principale
Caption che corrispondono al dominio generale (ma non il tuo token di identità unico)

4. Come Ostris AI Toolkit concepisce l'addestramento

AI Toolkit è essenzialmente un motore di training coerente avvolto in una UI: scegli una famiglia di modello, alleghi dataset, definisci un target LoRA + rank e regoli ottimizzazione + sampling. I pannelli UI mappano chiaramente alla configurazione di training sottostante: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Cosa significa per te: non hai bisogno di script specifici per modello per le basi, lo stesso modello mentale (rank/step/LR/caching/regolarizzazione) si applica, ma la dimensione e natura video di LTX-2 rendono alcune impostazioni più "sensibili" (rank, ottimizzazioni VRAM, frame).

Se sei nuovo ad Ostris AI Toolkit, inizia con la panoramica del training LoRA AI Toolkit così i pannelli UI e i parametri core hanno senso prima di regolare le specifiche LTX-2:

Panoramica training LoRA AI Toolkit

Se stai decidendo dove eseguire:

AI Toolkit locale: migliore se hai già una GPU compatibile e vuoi controllo totale sul tuo ambiente.
RunComfy cloud AI Toolkit: migliore se vuoi saltare il setup, addestrare su GPU ad alta VRAM e iterare più velocemente con meno problemi "non gira sulla mia macchina"—specialmente utile per i checkpoint più grandi di LTX-2 e carichi di lavoro video. ▶ Apri RunComfy cloud AI Toolkit

5. Passo dopo passo: Come addestrare LoRA LTX-2 in AI Toolkit

5.1 Crea il tuo dataset in AI Toolkit

Nel pannello Datasets / sezione Dataset del job:

Target Dataset: il tuo dataset caricato
Default Caption: lascia vuoto a meno che non serva un suffisso globale
Caption Dropout Rate: inizia intorno a 0.05 (aiuta la generalizzazione)
Cache Latents: ON se puoi permetterti lo spazio disco (grande guadagno di velocità sulle ripetizioni, ma le cache latent video crescono velocemente)
Num Frames:

1 per dataset solo immagine
49 / 81 / 121 per video, a seconda del tuo obiettivo

Resolutions: inizia con 512 + 768 abilitati; evita 1024+ finché non hai provato il tuo setup

Se stai facendo un LoRA identità stretto, aggiungi una seconda entry dataset e segnala come Is Regularization (e mantieni il suo peso minore o uguale, a seconda di quanto aggressiva vuoi la preservazione).

5.2 Nuovo Training Job → Model

Nella sezione Model:

Model Architecture: LTX-2 (se disponibile nel tuo build)
Name or Path: l'id modello Hugging Face per il modello base (es. Lightricks/LTX-2)
Selezione checkpoint: scegli il checkpoint dev per il LTX-2 trainer LoRA:

ltx-2-19b-dev è il modello completo ed è addestrabile in bf16.
Il checkpoint distilled è principalmente per inferenza veloce (8 step, CFG=1) e non è il punto di partenza default per il training LoRA a meno che tu non voglia specificamente adattare il comportamento distillato.

5.3 Quantizzazione + opzioni VRAM

LTX-2 è grande, quindi userai spesso quantizzazione/offload:

Se sei su VRAM classe H100/H200, puoi spesso eseguire bf16 più comodamente.
Se sei su GPU da 24–48 GB, quantizzazione e modalità "Low VRAM" diventano essenziali.

Due note pratiche:

LTX-2 stesso viene con varianti quantizzate ufficiali (fp8 / nvfp4) del modello completo; se puoi addestrare da quei pesi dipende dalla tua implementazione del trainer.
Separatamente, gli ottimizzatori 8-bit (es. AdamW8bit) sono comunemente usati per rendere il training pratico su hardware consumer.

5.4 Target = LoRA + Rank

Qui è dove l'Addestramento LoRA LTX-2 differisce dai modelli più piccoli.

Target Type: LoRA
Linear Rank: inizia a 32

Molti trainer LoRA LTX-2 riportano che rank 32 è un minimo pratico per risultati solidi.
Se hai margine VRAM e vuoi più capacità (stile complesso, multi-concetto), testa 64.

5.5 Iperparametri di training (una prima esecuzione solida)

Inizia con valori che non esploderanno:

Batch Size: 1 (il video finisce quasi sempre qui)
Gradient Accumulation: 2–4 se vuoi un batch effettivo più stabile (e puoi permetterti il tempo)
Steps:

2.000–3.000 per una prima passata
vai più lungo se hai un dataset più grande o stile sottile

Optimizer: AdamW8bit (scelta comune per efficienza VRAM)
Learning Rate: 0.0001 per iniziare, 0.00005 se vedi overfitting o "burn-in" identità troppo veloce
Weight Decay: ~0.0001
Timestep Type / Bias: mantieni i default a meno che tu non sappia perché li stai cambiando
DOP / Blank Prompt Preservation: abilita DOP se vedi bleed di stile o perdita di versatilità base.

5.6 Sampling durante il training (non saltarlo)

Il sampling è il tuo sistema di allarme precoce per l'Addestramento LoRA LTX-2. Usalo.

Sample Every: 250 step (buona cadenza)
Sampler / Scheduler: inizia con quello che il tuo preset LTX-2 usa di default, e sperimenta solo dopo aver una baseline.
Guidance + step dipendono da quale checkpoint stai samplandando:

Per run dev, un punto di partenza comune è guidance ~4 con 25–30 step di sampling.
Per distilled, il comportamento pubblicato è 8 step, CFG=1, quindi sampla con guidance = 1 e steps = 8 (o avrai confusione "perché sembra peggio?").

Width/Height/Frames: abbina al tuo bucket di training (o un target rappresentativo)

Scrivi prompt di sample che corrispondono al tuo uso reale:

Includi la tua parola trigger (per LoRA identità).
Includi descrittori camera/movimento se quelli contano.
Mantieni un prompt "noioso" che rivela l'overfitting (illuminazione semplice, azione semplice).

6. Aspettative sui tempi per Addestramento LoRA LTX-2

Non c'è un numero universale, tratta il tempo di esecuzione come una stima pratica che può variare con frame/risoluzione, scelte di offload/quantizzazione e quanto spesso sampli.

Un modello mentale realistico:

Frame sono spesso la leva più grande: 121 → 81 → 49 può essere la differenza tra "questo si addestra" e "questo striscia / OOM."
Overhead del sampling può rivaleggiare con il tempo di training se sampli video grandi frequentemente.

Come punto di riferimento approssimativo: su un H100, con un dataset video piccolo (~20 clip, 3–5s ciascuno), batch=1, rank=32 e gradient checkpointing abilitato, è comune vedere secondi a singola cifra per step di training a un bucket di risoluzione 768-ish con un bucket di frame di lunghezza media (es., 49–81 frame). Il tuo tempo esatto per step varierà molto con I/O, caching e se stai facendo preprocessing consapevole dell'audio.

Budgetta anche per il sampling: un'anteprima "3 prompt × 25 step × 121 frame @ 1024×768" può facilmente richiedere minuti ogni volta che gira. Se sampli ogni 250 step, quell'overhead può accumularsi rapidamente attraverso una run di 2.000 step.

7. Problemi comuni nell'Addestramento LoRA LTX-2 (e come risolverli)

Conteggi frame errati: se il tuo dataset usa 120 frame invece di 121, avrai errori o mismatch silenzioso. Attieniti a conteggi frame 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
Dimensioni errate: larghezza/altezza devono essere divisibili per 32. Se stai usando una pipeline che non fa auto-pad, ridimensiona/buckettizza di conseguenza.
Rank troppo basso: i sintomi sono "si addestra ma nulla cambia," o forza identità/stile debole anche a scala LoRA 1.0. Prova rank 32.
Overfitting / LoRA bleed: il tuo soggetto appare in prompt non correlati. Abilita DOP e aggiungi un dataset di reg.
Caption troppo corte: l'aderenza al prompt crolla. Espandi le caption (cosa, dove, camera, movimento, mood; più segnali audio/trascrizione se rilevante).
Confusione sampling distillato: se stai samplando il checkpoint distillato con 25+ step o CFG>1, non lo stai testando come previsto. Usa 8 step, CFG=1 per anteprime distillate.
VRAM OOM: riduci prima i frame (121 → 81 → 49), poi riduci risoluzione (768 → 512), poi attiva offload/quantizzazione/caching.

8. Addestramento LoRA LTX-2: FAQ Rapide

Posso addestrare un LoRA LTX-2 solo da immagini?

Sì, usa un dataset solo immagine e imposta il conteggio frame a 1. Ottimo per identità e stile. Non ottimo per imparare il movimento.

Checkpoint dev vs distillato per training LoRA?

Inizia con ltx-2-19b-dev per l'Addestramento LoRA LTX-2; è esplicitamente descritto come flessibile/addestrabile in bf16. I checkpoint distillati sono principalmente per inferenza veloce (8 step, CFG=1).

Quale rank dovrei usare?

Inizia a 32. È dove molti trainer LTX-2 precoci stanno arrivando per "impara davvero."

Perché i miei sample sembrano tremolanti o inconsistenti?

Di solito un mix di: clip troppo lunghi per la tua VRAM (forzando offload aggressivo), caption che non descrivono movimento/camera, o impostazioni di sampling che non corrispondono al checkpoint (specialmente samplare distillato come fosse dev). Riduci frame, stringi le caption e allinea guidance/step al checkpoint che stai samplando.

9. Usa la tua LoRA LTX-2 dopo l’addestramento

Una volta completato l'addestramento, puoi usare la tua LoRA LTX-2 in due modi semplici:

Run LoRA – apri la pagina Run LoRA di LTX-2. In questa pagina di inferenza del modello base puoi selezionare un asset LoRA che hai addestrato su RunComfy oppure importare un file LoRA addestrato con AI Toolkit, quindi eseguire l’inferenza tramite il playground o l’API. RunComfy usa lo stesso modello base e la definizione completa della pipeline AI Toolkit dalla tua configurazione di training, quindi ciò che hai visto durante il training è ciò che ottieni in inferenza — questo allineamento stretto training/inference aiuta a mantenere risultati coerenti con i tuoi sample di training.
Workflow ComfyUI – avvia un'istanza ComfyUI, costruisci il tuo workflow, collega la tua LoRA e regola finemente il peso LoRA e altre impostazioni per un controllo più dettagliato.

10. Approfondimenti: Altre guide di addestramento LoRA AI Toolkit

Se vuoi confrontare workflow, dataset e tradeoff di parametri attraverso famiglie di modelli, queste guide sono buoni punti di riferimento:

Addestramento LoRA LTX-2 con Ostris AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample