Guide d'entraînement LoRA LTX-2 avec Ostris AI Toolkit

LTX-2 est un modèle de base Diffusion Transformer (DiT) à poids ouverts conçu pour générer vidéo et audio synchronisés au sein d'un seul modèle. Contrairement aux modèles vidéo "muets", il est construit comme un système audio-vidéo conjoint pour que le mouvement et le son puissent s'aligner dans le temps. Dans la version officielle, la famille de checkpoints principale est de classe 19B (avec une variante "dev" entraînable, plusieurs variantes quantifiées et une variante distillée accélérée).

Ce guide se concentre sur l'Entraînement LoRA LTX-2 avec Ostris AI Toolkit. L'objectif est de vous rendre productif rapidement : pour quoi LTX-2 excelle, quelles données préparer, quels paramètres AI Toolkit sont importants et lesquels sont "sûrs" pour un premier essai.

Si vous ne souhaitez pas installer AI Toolkit localement, vous pouvez l'exécuter dans le navigateur sur les GPUs cloud de RunComfy (H100 / H200).

▶ Commencez ici : RunComfy cloud AI Toolkit

Table des matières

1. Pourquoi LTX-2 se comporte différemment des autres cibles de LoRA vidéo
2. Pour quoi les LoRAs LTX-2 sont les meilleurs
3. Préparation du dataset pour l'Entraînement LoRA LTX-2
4. Comment Ostris AI Toolkit conçoit l'entraînement
5. Étape par étape : Comment entraîner un LoRA LTX-2 dans AI Toolkit
6. Attentes de temps pour l'Entraînement LoRA LTX-2
7. Problèmes courants dans l'Entraînement LoRA LTX-2 (et comment les résoudre)
8. Entraînement LoRA LTX-2 : FAQ Rapide
9. Utiliser votre LoRA LTX-2 après l'entraînement
10. En savoir plus : Autres guides d'entraînement LoRA AI Toolkit

1. Pourquoi LTX-2 se comporte différemment des autres cibles de LoRA vidéo

Quelques spécificités de LTX-2 façonnent directement comment vous devriez procéder à l'Entraînement LoRA LTX-2 :

Audio-vidéo est natif : LTX-2 est conçu pour générer audio et visuels synchronisés dans un modèle (pas un ajout). C'est excellent pour les "plans finis" (dialogue, ambiance, foley), mais cela signifie aussi que le fine-tuning conscient de l'audio dépend de si votre trainer met réellement à jour le chemin audio et les composants cross-modaux (beaucoup de stacks d'entraînement tiers commencent par du finetuning vidéo uniquement).
C'est gros (checkpoints de classe 19B) : Vous le ressentirez dans la VRAM, le temps par étape et le fait que les "petits rangs" sous-ajustent souvent. La liste officielle des checkpoints comprend :

ltx-2-19b-dev (entraînable en bf16),
variantes dev quantifiées (fp8 / nvfp4),
et ltx-2-19b-distilled (inférence accélérée, 8 étapes, CFG=1).

Contraintes de forme strictes : Largeur/hauteur doivent être divisibles par 32, et le nombre de frames doit être divisible par 8 + 1 (c.-à-d. 8n+1 : 1, 9, 17, 25, …, 121, …). Si votre entrée ne correspond pas, vous devez généralement faire du padding (couramment avec -1) puis recadrer à la taille/nombre de frames cible.

2. Pour quoi les LoRAs LTX-2 sont les meilleurs

En pratique, les LoRAs LTX-2 sont les plus précieux dans ces directions lors du LTX-2 19B entraînement LoRA :

LoRAs de Personnage / identité : visage cohérent, costume, accessoires, look de "personnage de marque" et identité stable à travers les mouvements de caméra.
LoRAs de Style : direction artistique (langage d'éclairage, style de rendu, objectifs, ambiance de pellicule), tout en gardant les sujets flexibles.
LoRAs de Mouvement / chorégraphie : un motif de mouvement spécifique (style de cycle de marche, saveur de danse, locomotion de créature), ou "comment le monde bouge" (tremblement de caméra à main, timing d'animation).
LoRAs de Comportement caméra : dolly-in/out, sensation de grue/jib, langage de caméra orbital, stabilisé vs caméra à main.
(Avancé) LoRAs Audio : palette d'ambiance cohérente, style de foley ou caractéristiques vocales—uniquement si votre stack d'entraînement supporte le finetuning de la branche audio.

Si vous n'avez que des images (pas de vidéo), vous pouvez toujours entraîner identité/style efficacement, mais vous ne devriez pas vous attendre à apprendre des motifs de mouvement temporel à partir de frames individuels.

3. Préparation du dataset pour l'Entraînement LoRA LTX-2

3.1 Choisir le bon "budget" de longueur de clip + résolution

Le coût d'entraînement pour le fine-tuning LoRA LTX-2 augmente avec la taille spatiale et le nombre de frames. Pour un premier LoRA, gardez les choses simples :

Starter Identité / style :

Résolution : 512–768-ish (selon votre GPU)
Frames : 49 ou 81 (clips plus courts s'entraînent plus vite ; assez pour la cohérence temporelle)

Starter Mouvement / caméra :

Résolution : 512 (ou 768 si vous avez de la marge)
Frames : 121 (bon pour l'apprentissage du mouvement ; ~5 secondes à 24 fps)

Rappelez-vous la contrainte : les frames doivent être 8n+1.

3.2 Datasets vidéo vs image (les deux sont valides)

Beaucoup supposent que l'Entraînement LoRA LTX-2 nécessite des datasets uniquement vidéo. En réalité, la plupart des stacks d'entraînement pratiques peuvent travailler avec les deux :

Datasets image uniquement (traitent chaque échantillon comme un "clip de 1 frame"), ou
Datasets vidéo (clips courts cohérents).

Si vous utilisez AI Toolkit, il est généralement plus simple de garder chaque entrée de dataset homogène (toutes images ou toutes vidéos) et d'utiliser des entrées de dataset séparées si vous devez mélanger les modalités.

Pour les images : frames = 1 satisfait 8n+1.
Pour les vidéos : utilisez des clips courts et cohérents ; évitez les longs segments multi-scènes.

C'est important pour le travail sur les personnages : vous pouvez démarrer l'identité à partir d'images, puis affiner le mouvement plus tard avec des clips courts.

3.3 De combien de données avez-vous besoin (échelle réaliste) ?

Il n'y a pas de "minimum officiel" unique, mais ces plages sont des points de départ réalistes pour le ltx-2-19b LoRA :

LoRAs basés sur l'image (identité / accessoires / style) : commencez avec ~20–50 images propres et variées. Si vous voulez une robustesse plus forte à travers l'éclairage, les objectifs et les compositions, ~50–150 images sélectionnées aide généralement plus que répéter des quasi-doublons.
LoRAs basés sur la vidéo (mouvement / caméra / cohérence temporelle) : visez ~20–60 clips courts et cohérents (plans à action unique) plutôt que quelques longues vidéos. Pour des objectifs plus larges ou plus riches en mouvement, monter vers ~50–150 clips courts (ou environ ~10–30 minutes de "bon" métrage) tend à produire des résultats nettement plus stables.

3.4 La qualité des captions compte plus que vous ne le pensez

LTX-2 répond bien aux captions plus longs et descriptifs, surtout si vous voulez des résultats contrôlables. Si vos clips incluent de la parole ou des indices sonores clés, incluez-les dans les captions (ou extraits de transcription) quand votre stack d'entraînement le supporte.

Conseils pratiques pour les captions :

Pour les LoRAs d'identité : incluez des tokens d'identité cohérents (et variez tout le reste : éclairage, garde-robe, arrière-plan, objectif).
Pour les LoRAs de style : gardez les descripteurs de style cohérents et variez les sujets/actions.
Pour les LoRAs de mouvement : décrivez l'action précisément (tempo, mécanique corporelle, mouvement de caméra).

3.5 La régularisation est votre outil "anti-fuite" (utilisez-la quand le LoRA est étroit)

Si vous entraînez un concept étroit (un personnage, un produit), il est facile de sur-ajuster et d'obtenir "tout ressemble à mon dataset". Dans AI Toolkit, Differential Output Preservation (DOP) est conçu pour réduire ce type de dérive, et il se combine naturellement avec un dataset de "régularisation".

Un set de reg simple :

Clips/images génériques dans un cadrage similaire à votre dataset principal
Captions qui correspondent au domaine général (mais pas votre token d'identité unique)

4. Comment Ostris AI Toolkit conçoit l'entraînement

AI Toolkit est essentiellement un moteur d'entraînement cohérent enveloppé dans une UI : vous choisissez une famille de modèle, attachez des datasets, définissez une cible LoRA + rang et ajustez optimisation + sampling. Les panneaux de l'UI correspondent directement à la configuration d'entraînement sous-jacente : Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.

Ce que cela signifie pour vous : vous n'avez pas besoin de scripts spécifiques au modèle pour les bases, le même modèle mental (rang/étapes/LR/cache/régularisation) s'applique, mais la taille et la nature vidéo de LTX-2 rendent certains paramètres plus "sensibles" (rang, optimisations VRAM, frames).

Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'aperçu de l'entraînement LoRA AI Toolkit pour que les panneaux de l'UI et les paramètres principaux aient du sens avant d'ajuster les spécificités LTX-2 :

Aperçu de l'entraînement LoRA AI Toolkit

Si vous décidez où exécuter :

AI Toolkit local : meilleur si vous avez déjà un GPU compatible et voulez un contrôle total sur votre environnement.
RunComfy cloud AI Toolkit : meilleur si vous voulez éviter la configuration, entraîner sur des GPUs à haute VRAM et itérer plus vite avec moins de problèmes "ça ne marche pas sur ma machine"—particulièrement utile pour les checkpoints plus grands de LTX-2 et les charges de travail vidéo. ▶ Ouvrez RunComfy cloud AI Toolkit

5. Étape par étape : Comment entraîner un LoRA LTX-2 dans AI Toolkit

5.1 Créez votre dataset dans AI Toolkit

Dans le panneau Datasets / section Dataset du job :

Target Dataset : votre dataset uploadé
Default Caption : laissez vide sauf si vous avez besoin d'un suffixe global
Caption Dropout Rate : commencez autour de 0.05 (aide à la généralisation)
Cache Latents : ON si vous pouvez vous permettre l'espace disque (gros gain de vitesse sur les répétitions, mais les caches de latents vidéo grossissent vite)
Num Frames :

1 pour les datasets image uniquement
49 / 81 / 121 pour la vidéo, selon votre objectif

Resolutions : commencez avec 512 + 768 activés ; évitez 1024+ jusqu'à ce que vous ayez prouvé votre setup

Si vous faites un LoRA d'identité étroit, ajoutez une deuxième entrée de dataset et marquez-la Is Regularization (et gardez son poids inférieur ou égal, selon l'agressivité de préservation souhaitée).

5.2 Nouveau Training Job → Model

Dans la section Model :

Model Architecture : LTX-2 (si disponible dans votre build)
Name or Path : l'id de modèle Hugging Face pour le modèle de base (ex. Lightricks/LTX-2)
Sélection de checkpoint : choisissez le checkpoint dev pour le LTX-2 trainer LoRA :

ltx-2-19b-dev est le modèle complet et est entraînable en bf16.
Le checkpoint distilled est principalement pour l'inférence rapide (8 étapes, CFG=1) et n'est pas le point de départ par défaut pour l'entraînement LoRA sauf si vous voulez spécifiquement adapter le comportement distillé.

5.3 Quantification + options VRAM

LTX-2 est gros, donc vous utiliserez souvent quantification/offload :

Si vous êtes sur une VRAM classe H100/H200, vous pouvez souvent exécuter bf16 plus confortablement.
Si vous êtes sur des GPUs de 24–48 Go, la quantification et les modes "Low VRAM" deviennent essentiels.

Deux notes pratiques :

LTX-2 lui-même est livré avec des variantes quantifiées officielles (fp8 / nvfp4) du modèle complet ; si vous pouvez entraîner à partir de ces poids dépend de votre implémentation de trainer.
Séparément, les optimiseurs 8 bits (ex. AdamW8bit) sont couramment utilisés pour rendre l'entraînement pratique sur du matériel grand public.

5.4 Target = LoRA + Rang

C'est là que l'Entraînement LoRA LTX-2 diffère des modèles plus petits.

Target Type : LoRA
Linear Rank : commencez à 32

Beaucoup de trainers LoRA LTX-2 rapportent que le rang 32 est un minimum pratique pour des résultats solides.
Si vous avez de la marge VRAM et voulez plus de capacité (style complexe, multi-concept), testez 64.

5.5 Hyperparamètres d'entraînement (une première exécution solide)

Commencez avec des valeurs qui n'exploseront pas :

Batch Size : 1 (la vidéo finit presque toujours ici)
Gradient Accumulation : 2–4 si vous voulez un batch effectif plus stable (et pouvez vous permettre le temps)
Steps :

2 000–3 000 pour une première passe
allez plus long si vous avez un dataset plus grand ou un style subtil

Optimizer : AdamW8bit (choix courant pour l'efficacité VRAM)
Learning Rate : 0.0001 pour commencer, 0.00005 si vous voyez du sur-ajustement ou un "burn-in" d'identité trop rapide
Weight Decay : ~0.0001
Timestep Type / Bias : gardez les valeurs par défaut sauf si vous savez pourquoi vous les changez
DOP / Blank Prompt Preservation : activez DOP si vous voyez une fuite de style ou une perte de polyvalence de base.

5.6 Sampling pendant l'entraînement (ne sautez pas cette étape)

Le sampling est votre système d'alerte précoce pour l'Entraînement LoRA LTX-2. Utilisez-le.

Sample Every : 250 étapes (bonne cadence)
Sampler / Scheduler : commencez avec ce que votre preset LTX-2 utilise par défaut, et n'expérimentez qu'après avoir une baseline.
Guidance + étapes dépendent de quel checkpoint vous samplez :

Pour les exécutions dev, un point de départ courant est guidance ~4 avec 25–30 étapes de sampling.
Pour distilled, le comportement publié est 8 étapes, CFG=1, donc samplez avec guidance = 1 et steps = 8 (sinon vous aurez de la confusion "pourquoi ça a l'air pire ?").

Width/Height/Frames : correspondez à votre bucket d'entraînement (ou une cible représentative)

Écrivez des prompts d'échantillon qui correspondent à votre utilisation réelle :

Incluez votre mot trigger (pour les LoRAs d'identité).
Incluez des descripteurs de caméra/mouvement si ceux-ci comptent.
Gardez un prompt "ennuyeux" qui révèle le sur-ajustement (éclairage simple, action simple).

6. Attentes de temps pour l'Entraînement LoRA LTX-2

Il n'y a pas de nombre universel, traitez le temps d'exécution comme une estimation pratique qui peut varier avec les frames/résolution, les choix d'offload/quantification et la fréquence de sampling.

Un modèle mental réaliste :

Frames sont souvent le plus grand levier : 121 → 81 → 49 peut être la différence entre "ça s'entraîne" et "ça rame / OOMs."
L'overhead du sampling peut rivaliser avec le temps d'entraînement si vous samplez de grandes vidéos fréquemment.

Comme point de référence approximatif : sur un H100, avec un petit dataset vidéo (~20 clips, 3–5s chacun), batch=1, rank=32 et gradient checkpointing activé, il est courant de voir des secondes à un chiffre par étape d'entraînement à un bucket de résolution 768-ish avec un bucket de frames de longueur moyenne (ex., 49–81 frames). Votre temps exact par étape variera beaucoup avec l'I/O, le caching et si vous faites du prétraitement conscient de l'audio.

Budgétez aussi pour le sampling : une prévisualisation "3 prompts × 25 étapes × 121 frames @ 1024×768" peut facilement prendre des minutes à chaque exécution. Si vous samplez tous les 250 étapes, cet overhead peut s'accumuler rapidement sur une exécution de 2 000 étapes.

7. Problèmes courants dans l'Entraînement LoRA LTX-2 (et comment les résoudre)

Nombres de frames incorrects : si votre dataset utilise 120 frames au lieu de 121, vous aurez des erreurs ou un décalage silencieux. Restez sur des nombres de frames 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
Tailles incorrectes : largeur/hauteur doivent être divisibles par 32. Si vous utilisez un pipeline qui ne fait pas d'auto-pad, redimensionnez/bucketez en conséquence.
Rang trop bas : les symptômes sont "ça s'entraîne mais rien ne change," ou une force d'identité/style faible même à l'échelle LoRA 1.0. Essayez rang 32.
Sur-ajustement / fuite LoRA : votre sujet apparaît dans des prompts non liés. Activez DOP et ajoutez un dataset de reg.
Captions trop courts : l'adhérence au prompt s'effondre. Développez les captions (quoi, où, caméra, mouvement, humeur ; plus indices audio/transcription si pertinent).
Confusion de sampling distillé : si vous samplez le checkpoint distillé avec 25+ étapes ou CFG>1, vous ne le testez pas comme prévu. Utilisez 8 étapes, CFG=1 pour les prévisualisations distillées.
VRAM OOM : réduisez d'abord les frames (121 → 81 → 49), puis la résolution (768 → 512), puis activez offload/quantification/caching.

8. Entraînement LoRA LTX-2 : FAQ Rapide

Puis-je entraîner un LoRA LTX-2 à partir d'images uniquement ?

Oui, utilisez un dataset image uniquement et définissez le nombre de frames à 1. Excellent pour l'identité et le style. Pas génial pour apprendre le mouvement.

Checkpoint dev vs distillé pour l'entraînement LoRA ?

Commencez avec ltx-2-19b-dev pour l'Entraînement LoRA LTX-2 ; il est explicitement décrit comme flexible/entraînable en bf16. Les checkpoints distillés sont principalement pour l'inférence rapide (8 étapes, CFG=1).

Quel rang devrais-je utiliser ?

Commencez à 32. C'est là que beaucoup de trainers LTX-2 précoces atterrissent pour "ça apprend vraiment."

Pourquoi mes échantillons semblent saccadés ou incohérents ?

Généralement un mélange de : clips trop longs pour votre VRAM (forçant un offload agressif), captions ne décrivant pas le mouvement/caméra, ou paramètres de sampling qui ne correspondent pas au checkpoint (surtout sampler distillé comme dev). Réduisez les frames, resserrez les captions et alignez guidance/étapes au checkpoint que vous samplez.

9. Utiliser votre LoRA LTX-2 après l'entraînement

Une fois l'entraînement terminé, vous pouvez utiliser votre LoRA LTX-2 de deux façons simples :

Run LoRA – ouvrez la page Run LoRA LTX-2. Sur cette page d’inférence du modèle de base, vous pouvez sélectionner un asset LoRA entraîné sur RunComfy ou importer un fichier LoRA entraîné avec AI Toolkit, puis lancer l’inférence via le playground ou l’API. RunComfy utilise le même modèle de base et la définition complète du pipeline AI Toolkit depuis votre config d’entraînement, donc ce que vous avez vu pendant le training est exactement ce que vous obtenez en inférence — cet alignement training/inference aide à garder des résultats cohérents avec vos samples d’entraînement.
Workflows ComfyUI – démarrez une instance ComfyUI, construisez votre workflow, chargez votre LoRA et ajustez son poids et d’autres paramètres pour un contrôle plus détaillé.

10. En savoir plus : Autres guides d'entraînement LoRA AI Toolkit

Si vous voulez comparer les workflows, datasets et compromis de paramètres à travers les familles de modèles, ces guides sont de bons points de référence :

Entraînement LoRA LTX-2 avec Ostris AI Toolkit

OstrisAI-Toolkit

New Training Job

Job

Model

Quantization

Target

Save

Training

Advanced

Datasets

Dataset 1

Sample