AI Toolkit LoRA Training Guides

LTX-2 LoRA Training mit Ostris AI Toolkit

Diese Anleitung zeigt, wie du LTX-2 LoRAs im Ostris AI Toolkit trainierst. Sie erklärt LTX-2 Besonderheiten (Audio-Video nativ, 19B-Checkpoints), Datensatz-Setup für Bilder oder Videos inkl. 8n+1-Frames, sichere Startwerte (Rank 32, 2k–3k Steps, LR 1e-4/5e-5), Sampling während des Trainings sowie Troubleshooting für VRAM/OOM und Overfitting.

Train Diffusion Models with Ostris AI Toolkit

Horizontal scrollen, um das vollständige Formular zu sehen

Ostris AI ToolkitOstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Datasets

Dataset 1

Sample

LTX-2 ist ein Open-Weights Diffusion Transformer (DiT) Basismodell, das synchronisiertes Video und Audio in einem einzigen Modell generiert. Anders als „stumme" Videomodelle wurde es als gemeinsames Audio-Video-System konzipiert, sodass Bewegung und Ton zeitlich aufeinander abgestimmt werden können. Die offizielle Version umfasst primär Checkpoints der 19B-Klasse (mit einer trainierbaren „Dev"-Variante, mehreren quantisierten Varianten und einer beschleunigten destillierten Variante).

Diese Anleitung konzentriert sich darauf, wie Sie LTX-2 LoRA trainieren können mit Ostris AI Toolkit. Ziel ist es, Sie schnell produktiv zu machen: wofür LTX-2 geeignet ist, welche Daten Sie vorbereiten sollten, welche AI Toolkit Einstellungen wichtig sind und welche für einen ersten Durchlauf „sicher" sind.

Wenn Sie AI Toolkit nicht lokal installieren möchten, können Sie es im Browser auf RunComfys Cloud-GPUs (H100 / H200) ausführen.

▶ Hier starten: RunComfy Cloud AI Toolkit


Inhaltsverzeichnis


1. Warum sich LTX-2 von anderen Video-LoRA-Zielen unterscheidet

Einige LTX-2-Besonderheiten beeinflussen direkt, wie Sie LTX-2 LoRA trainieren sollten:

  • Audio-Video ist nativ: LTX-2 wurde entwickelt, um synchronisiertes Audio und Bild in einem Modell zu generieren (kein Zusatzmodul). Das ist großartig für „fertige Shots" (Dialog, Ambiente, Foley), bedeutet aber auch, dass audio-bewusstes Finetuning davon abhängt, ob Ihr Trainer tatsächlich den Audio-Pfad und die crossmodalen Komponenten aktualisiert (viele Drittanbieter-Trainingsstacks beginnen mit reinem Video-Finetuning).
  • Es ist groß (19B-Klasse Checkpoints): Das spüren Sie beim VRAM, der Schrittzeit und der Tatsache, dass „winzige Ränge" oft unterfitten. Die offizielle Checkpoint-Liste umfasst:
    • ltx-2-19b-dev (trainierbar in bf16),
    • Dev quantisierte Varianten (fp8 / nvfp4),
    • und ltx-2-19b-distilled (beschleunigte Inferenz, 8 Schritte, CFG=1).
  • Strenge Formbeschränkungen: Breite/Höhe müssen durch 32 teilbar sein, und die Frameanzahl muss durch 8 + 1 teilbar sein (d.h. 8n+1: 1, 9, 17, 25, …, 121, …). Wenn Ihre Eingabe dem nicht entspricht, müssen Sie typischerweise padden (häufig mit -1) und dann auf die Zielgröße/Frameanzahl zurückschneiden.

2. Wofür LTX-2 LoRAs am besten geeignet sind

In der Praxis sind LTX-2 LoRAs in diesen Bereichen am wertvollsten, wenn Sie LTX-2 19B LoRA trainieren:

  • Charakter-/Identitäts-LoRAs: konsistentes Gesicht, Kostüm, Requisiten, „Markencharakter"-Look und stabile Identität über Kamerabewegungen hinweg.
  • Stil-LoRAs: Art Direction (Lichtsprache, Rendering-Stil, Objektive, Filmstock-Atmosphäre), während Subjekte flexibel bleiben.
  • Bewegungs-/Choreografie-LoRAs: ein bestimmtes Bewegungsmuster (Gangzyklus-Stil, Tanzgeschmack, Kreaturenbewegung) oder „wie sich die Welt bewegt" (Handkamera-Wackeln, Animations-Timing).
  • Kameraverhalten-LoRAs: Dolly-In/Out, Kran-/Jib-Gefühl, orbitale Kamerasprache, stabilisiert vs. Handkamera.
  • (Fortgeschritten) Audio-LoRAs: konsistente Ambiente-Palette, Foley-Stil oder stimmähnliche Charakteristiken—nur wenn Ihr Trainingsstack das Finetuning des Audio-Zweigs unterstützt.

Wenn Sie nur Bilder (keine Videos) haben, können Sie trotzdem Identität/Stil effektiv trainieren, aber erwarten Sie nicht, dass temporale Bewegungsmuster aus Einzelbildern gelernt werden.


3. Datensatz-Vorbereitung für LTX-2 LoRA Training

3.1 Die richtige Cliplänge + Auflösung „Budget" wählen

Die Trainingskosten beim ltx-2-19b LoRA Training skalieren sowohl mit der räumlichen Größe als auch mit der Frameanzahl. Für ein erstes LoRA halten Sie es einfach:

  • Identität / Stil Starter:
    • Auflösung: 512–768-ish (je nach GPU)
    • Frames: 49 oder 81 (kürzere Clips trainieren schneller; immer noch genug für temporale Konsistenz)
  • Bewegung / Kamera Starter:
    • Auflösung: 512 (oder 768 wenn Sie Spielraum haben)
    • Frames: 121 (gut für Bewegungslernen; ~5 Sekunden bei 24 fps)

Denken Sie an die Einschränkung: Frames müssen 8n+1 sein.

3.2 Video vs. Bild-Datensätze (beide sind gültig)

Viele nehmen an, dass LTX2 LoRA trainieren Video-only-Datensätze erfordert. In Wirklichkeit können die meisten praktischen Trainingsstacks mit beiden arbeiten:

  • Nur-Bild-Datensätze (behandeln jedes Sample als „1-Frame-Clip"), oder
  • Video-Datensätze (kurze zusammenhängende Clips).

Wenn Sie AI Toolkit verwenden, ist es normalerweise am einfachsten, jeden Datensatz-Eintrag homogen zu halten (alles Bilder oder alles Videos) und separate Datensatz-Einträge zu verwenden, wenn Sie Modalitäten mischen müssen.

  • Für Bilder: frames = 1 erfüllt 8n+1.
  • Für Videos: verwenden Sie kurze, zusammenhängende Clips; vermeiden Sie lange Multi-Szenen-Segmente.

Das ist wichtig für Charakterarbeit: Sie können Identität mit Bildern aufbauen und dann Bewegung später mit kurzen Clips verfeinern.

3.3 Wie viele Daten brauchen Sie (realistische Größenordnung)?

Es gibt kein einzelnes „offizielles Minimum", aber diese Bereiche sind realistische Ausgangspunkte für das LTX-2 Trainer LoRA:

  • Bildbasierte LoRAs (Identität / Requisiten / Stil): Beginnen Sie mit etwa ~20–50 sauberen, abwechslungsreichen Bildern. Wenn Sie stärkere Robustheit über Beleuchtung, Objektive und Kompositionen wünschen, hilft ~50–150 kuratierte Bilder normalerweise mehr als das Wiederholen von Fast-Duplikaten.
  • Videobasierte LoRAs (Bewegung / Kamera / temporale Konsistenz): Streben Sie ~20–60 kurze, zusammenhängende Clips (Einzel-Aktions-Shots) an, statt ein paar langer Videos. Für breitere oder bewegungsintensivere Ziele tendiert die Skalierung auf ~50–150 kurze Clips (oder etwa ~10–30 Minuten „gutes" Material) zu deutlich stabileren Ergebnissen.

3.4 Caption-Qualität ist wichtiger als Sie denken

LTX-2 reagiert gut auf längere, beschreibendere Captions, besonders wenn Sie kontrollierbare Ergebnisse wünschen. Wenn Ihre Clips Sprache oder wichtige Sound-Cues enthalten, fügen Sie diese in Captions (oder Transkript-Auszüge) ein, wenn Ihr Trainingsstack dies unterstützt.

Praktische Caption-Tipps:

  • Für Identitäts-LoRAs: verwenden Sie konsistente Identitäts-Token (und variieren Sie alles andere: Beleuchtung, Garderobe, Hintergrund, Objektiv).
  • Für Stil-LoRAs: halten Sie Stil-Deskriptoren konsistent und variieren Sie Subjekte/Aktionen.
  • Für Bewegungs-LoRAs: beschreiben Sie die Aktion präzise (Tempo, Körpermechanik, Kamerabewegung).

3.5 Regularisierung ist Ihr „Anti-Bleed"-Werkzeug (verwenden Sie es, wenn das LoRA eng ist)

Wenn Sie ein enges Konzept trainieren (ein Charakter, ein Produkt), ist es leicht zu überfitten und „alles sieht aus wie mein Datensatz" zu bekommen. In AI Toolkit ist Differential Output Preservation (DOP) darauf ausgelegt, diese Art von Drift zu reduzieren, und es passt natürlich zu einem „Regularisierungs"-Datensatz.

Ein einfaches Reg-Set:

  • Generische Clips/Bilder in ähnlichem Framing wie Ihr Hauptdatensatz
  • Captions, die zur allgemeinen Domäne passen (aber nicht Ihr einzigartiges Identitäts-Token)

4. Wie Ostris AI Toolkit das Training versteht

AI Toolkit ist im Wesentlichen eine konsistente Training-Engine mit einer UI: Sie wählen eine Modellfamilie, hängen Datensätze an, definieren ein LoRA-Ziel + Rang und tunen Optimierung + Sampling. Die UI-Panels entsprechen direkt der zugrunde liegenden Trainingskonfiguration: Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Was das für Sie bedeutet: Sie brauchen keine modellspezifischen Skripte für die Grundlagen, das gleiche mentale Modell (Rang/Schritte/LR/Caching/Regularisierung) gilt, aber die Größe und Video-Natur von LTX-2 machen einige Einstellungen „empfindlicher" (Rang, VRAM-Optimierungen, Frames).

Wenn Sie neu bei Ostris AI Toolkit sind, beginnen Sie mit der AI Toolkit LoRA-Trainingsübersicht, damit die UI-Panels und Kernparameter Sinn ergeben, bevor Sie LTX-2-Spezifika anpassen:

AI Toolkit LoRA-Trainingsübersicht

Wenn Sie sich entscheiden, wo Sie arbeiten:

  • Lokales AI Toolkit: am besten, wenn Sie bereits eine kompatible GPU haben und volle Kontrolle über Ihre Umgebung wünschen.
  • RunComfy Cloud AI Toolkit: am besten, wenn Sie die Einrichtung überspringen, auf High-VRAM-GPUs trainieren und schneller iterieren möchten mit weniger „es läuft nicht auf meinem Rechner"-Problemen—besonders hilfreich für LTX-2s größere Checkpoints und Video-Workloads. ▶ Öffnen Sie RunComfy Cloud AI Toolkit

5. Schritt für Schritt: LTX-2 LoRA trainieren in AI Toolkit

5.1 Erstellen Sie Ihren Datensatz in AI Toolkit

Im Datasets-Panel / Dataset-Abschnitt des Jobs:

  • Target Dataset: Ihr hochgeladener Datensatz
  • Default Caption: leer lassen, es sei denn, Sie brauchen ein globales Suffix
  • Caption Dropout Rate: beginnen Sie mit etwa 0.05 (hilft bei der Generalisierung)
  • Cache Latents: AN, wenn Sie Speicherplatz entbehren können (großer Geschwindigkeitsgewinn bei Wiederholungen, aber Video-Latent-Caches werden schnell groß)
  • Num Frames:
    • 1 für Nur-Bild-Datensätze
    • 49 / 81 / 121 für Video, je nach Ihrem Ziel
  • Resolutions: beginnen Sie mit 512 + 768 aktiviert; vermeiden Sie 1024+, bis Sie Ihr Setup bewiesen haben

Wenn Sie ein enges Identitäts-LoRA erstellen, fügen Sie einen zweiten Datensatz-Eintrag hinzu und markieren Sie ihn als Is Regularization (und halten Sie sein Gewicht niedriger oder gleich, je nachdem, wie aggressiv Sie die Erhaltung wünschen).

5.2 Neuer Training Job → Model

Im Model-Abschnitt:

  • Model Architecture: LTX-2 (falls in Ihrem Build verfügbar)
  • Name or Path: die Hugging Face Model-ID für das Basismodell (z.B. Lightricks/LTX-2)
  • Checkpoint-Auswahl: wählen Sie den dev-Checkpoint zum LTX-2 LoRA trainieren:
    • ltx-2-19b-dev ist das vollständige Modell und ist trainierbar in bf16.
    • Der distilled-Checkpoint ist primär für schnelle Inferenz (8 Schritte, CFG=1) und nicht der Standard-Ausgangspunkt für LoRA-Training, es sei denn, Sie möchten speziell das destillierte Verhalten anpassen.

5.3 Quantisierung + VRAM-Optionen

LTX-2 ist groß, daher werden Sie oft Quantisierung/Offload verwenden:

  • Wenn Sie auf H100/H200-Klasse VRAM sind, können Sie oft bf16 komfortabler ausführen.
  • Wenn Sie auf 24–48 GB GPUs sind, werden Quantisierung und „Low VRAM"-Modi essentiell.

Zwei praktische Hinweise:

  • LTX-2 selbst wird mit offiziellen quantisierten Varianten (fp8 / nvfp4) des vollständigen Modells geliefert; ob Sie von diesen Gewichten trainieren können, hängt von Ihrer Trainer-Implementierung ab.
  • Separat werden 8-bit-Optimierer (z.B. AdamW8bit) häufig verwendet, um das Training auf Consumer-Hardware praktikabel zu machen.

5.4 Target = LoRA + Rang

Hier unterscheidet sich das LTX-2 LoRA Training von kleineren Modellen.

  • Target Type: LoRA
  • Linear Rank: beginnen Sie bei 32
    • Viele LTX-2-LoRA-Trainer berichten, dass Rang 32 ein praktisches Minimum für solide Ergebnisse ist.
    • Wenn Sie VRAM-Spielraum haben und mehr Kapazität wünschen (komplexer Stil, Multi-Konzept), testen Sie 64.

5.5 Training-Hyperparameter (ein solider erster Durchlauf)

Beginnen Sie mit Werten, die nicht explodieren:

  • Batch Size: 1 (Video landet fast immer hier)
  • Gradient Accumulation: 2–4, wenn Sie einen stetigeren effektiven Batch wünschen (und sich Zeit leisten können)
  • Steps:
    • 2.000–3.000 für einen ersten Durchgang
    • gehen Sie länger, wenn Sie einen größeren Datensatz oder subtilen Stil haben
  • Optimizer: AdamW8bit (häufige Wahl für VRAM-Effizienz)
  • Learning Rate: 0.0001 zum Start, 0.00005 wenn Sie Overfitting oder zu schnelles Identitäts-„Einbrennen" sehen
  • Weight Decay: ~0.0001
  • Timestep Type / Bias: behalten Sie die Defaults bei, es sei denn, Sie wissen, warum Sie sie ändern
  • DOP / Blank Prompt Preservation: aktivieren Sie DOP, wenn Sie Stil-Bleed oder Verlust der Basisvielseitigkeit sehen.

5.6 Sampling während des Trainings (überspringen Sie das nicht)

Sampling ist Ihr Frühwarnsystem beim LTX-2 LoRA trainieren. Nutzen Sie es.

  • Sample Every: 250 Schritte (gute Kadenz)
  • Sampler / Scheduler: beginnen Sie mit dem, was Ihr LTX-2-Preset standardmäßig verwendet, und experimentieren Sie erst, nachdem Sie eine Baseline haben.
  • Guidance + Schritte hängen davon ab, welchen Checkpoint Sie samplen:
    • Für dev-Durchläufe ist ein häufiger Ausgangspunkt guidance ~4 mit 25–30 Sampling-Schritten.
    • Für distilled ist das veröffentlichte Verhalten 8 Schritte, CFG=1, also samplen Sie mit guidance = 1 und steps = 8 (oder Sie bekommen „warum sieht das schlechter aus?"-Verwirrung).
  • Width/Height/Frames: passen Sie zu Ihrem Training-Bucket (oder einem repräsentativen Ziel)

Schreiben Sie Sample-Prompts, die zu Ihrer realen Nutzung passen:

  • Fügen Sie Ihr Trigger-Wort ein (für Identitäts-LoRAs).
  • Fügen Sie Kamera-/Bewegungsdeskriptoren ein, wenn diese wichtig sind.
  • Behalten Sie einen „langweiligen" Prompt, der Overfitting enthüllt (einfache Beleuchtung, einfache Aktion).

6. Erwartete Trainingszeiten beim LTX-2 LoRA Training

Es gibt keine universelle Zahl, behandeln Sie die Laufzeit als praktische Schätzung, die je nach Frames/Auflösung, Offload-/Quantisierungsentscheidungen und Sampling-Häufigkeit schwanken kann.

Ein realistisches mentales Modell:

  • Frames sind oft der größte Hebel: 121 → 81 → 49 kann der Unterschied sein zwischen „das trainiert" und „das kriecht / OOMs."
  • Sampling-Overhead kann der Trainingszeit entsprechen, wenn Sie oft große Videos samplen.

Als grobe Referenz: Auf einer H100, mit einem kleinen Video-Datensatz (~20 Clips, 3–5s jeder), batch=1, rank=32 und aktiviertem Gradient Checkpointing, ist es üblich, einstellige Sekunden pro Trainingsschritt bei einem 768-ish Auflösungs-Bucket mit einem mittellangen Frame-Bucket (z.B. 49–81 Frames) zu sehen. Ihre genaue Schrittzeit wird stark variieren mit I/O, Caching und ob Sie audio-bewusstes Preprocessing durchführen.

Planen Sie auch für Sampling: Eine „3 Prompts × 25 Schritte × 121 Frames @ 1024×768" Vorschau kann leicht Minuten dauern, jedes Mal wenn sie läuft. Wenn Sie alle 250 Schritte samplen, kann sich dieser Overhead schnell über einen 2.000-Schritte-Durchlauf summieren.


7. Häufige Probleme beim LTX-2 LoRA trainieren (und wie man sie behebt)

  • Falsche Frame-Anzahlen: Wenn Ihr Datensatz 120 Frames statt 121 verwendet, stoßen Sie auf Fehler oder stille Diskrepanzen. Halten Sie sich an 8n+1 Frame-Anzahlen (1, 9, 17, 25, …, 49, 81, 121, …).
  • Falsche Größen: Breite/Höhe müssen durch 32 teilbar sein. Wenn Sie eine Pipeline verwenden, die nicht automatisch paddet, passen Sie Größe/Bucket entsprechend an.
  • Rang zu niedrig: Symptome sind „es trainiert, aber nichts ändert sich" oder schwache Identitäts-/Stilstärke selbst bei LoRA-Skala 1.0. Versuchen Sie Rang 32.
  • Overfitting / LoRA-Bleed: Ihr Subjekt erscheint in nicht zusammenhängenden Prompts. Aktivieren Sie DOP und fügen Sie einen Reg-Datensatz hinzu.
  • Captions zu kurz: Prompt-Adhärenz bricht zusammen. Erweitern Sie Captions (was, wo, Kamera, Bewegung, Stimmung; plus Audio-Cues/Transkript wenn relevant).
  • Distilled-Sampling-Verwirrung: Wenn Sie den destillierten Checkpoint mit 25+ Schritten oder CFG>1 samplen, testen Sie ihn nicht so, wie er gedacht ist. Verwenden Sie 8 Schritte, CFG=1 für destillierte Vorschauen.
  • VRAM OOM: Reduzieren Sie zuerst Frames (121 → 81 → 49), dann Auflösung (768 → 512), dann aktivieren Sie Offload/Quantisierung/Caching.

8. LTX-2 LoRA Training: Schnelle FAQ

Kann ich ein LTX-2 LoRA nur aus Bildern trainieren?

Ja, verwenden Sie einen Nur-Bild-Datensatz und setzen Sie die Frame-Anzahl auf 1. Großartig für Identität und Stil. Nicht großartig zum Lernen von Bewegung.

Dev vs. destillierter Checkpoint für LoRA-Training?

Beginnen Sie mit ltx-2-19b-dev zum LTX-2 LoRA trainieren; er wird explizit als flexibel/trainierbar in bf16 beschrieben. Destillierte Checkpoints sind primär für schnelle Inferenz (8 Schritte, CFG=1).

Welchen Rang sollte ich verwenden?

Beginnen Sie bei 32. Dort landen viele frühe LTX-2-Trainer für „es lernt tatsächlich."

Warum sehen meine Samples zittrig oder inkonsistent aus?

Normalerweise eine Mischung aus: zu langen Clips für Ihren VRAM (erzwingt aggressives Offload), Captions, die Bewegung/Kamera nicht beschreiben, oder Sampling-Einstellungen, die nicht zum Checkpoint passen (besonders destilliert wie dev samplen). Reduzieren Sie Frames, straffen Sie Captions und gleichen Sie Guidance/Schritte an den Checkpoint an, den Sie samplen.


9. Weitere Informationen: Andere AI Toolkit LoRA-Trainingsanleitungen

Wenn Sie Workflows, Datensätze und Parameter-Tradeoffs über Modellfamilien hinweg vergleichen möchten, sind diese Anleitungen gute Referenzpunkte:

Ready to start training?