LTX-2 est un modèle de base Diffusion Transformer (DiT) à poids ouverts conçu pour générer vidéo et audio synchronisés au sein d'un seul modèle. Contrairement aux modèles vidéo "muets", il est construit comme un système audio-vidéo conjoint pour que le mouvement et le son puissent s'aligner dans le temps. Dans la version officielle, la famille de checkpoints principale est de classe 19B (avec une variante "dev" entraînable, plusieurs variantes quantifiées et une variante distillée accélérée).
Ce guide se concentre sur l'Entraînement LoRA LTX-2 avec Ostris AI Toolkit. L'objectif est de vous rendre productif rapidement : pour quoi LTX-2 excelle, quelles données préparer, quels paramètres AI Toolkit sont importants et lesquels sont "sûrs" pour un premier essai.
Si vous ne souhaitez pas installer AI Toolkit localement, vous pouvez l'exécuter dans le navigateur sur les GPUs cloud de RunComfy (H100 / H200).
▶ Commencez ici : RunComfy cloud AI Toolkit
Table des matières
- 1. Pourquoi LTX-2 se comporte différemment des autres cibles de LoRA vidéo
- 2. Pour quoi les LoRAs LTX-2 sont les meilleurs
- 3. Préparation du dataset pour l'Entraînement LoRA LTX-2
- 4. Comment Ostris AI Toolkit conçoit l'entraînement
- 5. Étape par étape : Comment entraîner un LoRA LTX-2 dans AI Toolkit
- 6. Attentes de temps pour l'Entraînement LoRA LTX-2
- 7. Problèmes courants dans l'Entraînement LoRA LTX-2 (et comment les résoudre)
- 8. Entraînement LoRA LTX-2 : FAQ Rapide
- 9. En savoir plus : Autres guides d'entraînement LoRA AI Toolkit
1. Pourquoi LTX-2 se comporte différemment des autres cibles de LoRA vidéo
Quelques spécificités de LTX-2 façonnent directement comment vous devriez procéder à l'Entraînement LoRA LTX-2 :
- Audio-vidéo est natif : LTX-2 est conçu pour générer audio et visuels synchronisés dans un modèle (pas un ajout). C'est excellent pour les "plans finis" (dialogue, ambiance, foley), mais cela signifie aussi que le fine-tuning conscient de l'audio dépend de si votre trainer met réellement à jour le chemin audio et les composants cross-modaux (beaucoup de stacks d'entraînement tiers commencent par du finetuning vidéo uniquement).
- C'est gros (checkpoints de classe 19B) : Vous le ressentirez dans la VRAM, le temps par étape et le fait que les "petits rangs" sous-ajustent souvent. La liste officielle des checkpoints comprend :
- ltx-2-19b-dev (entraînable en bf16),
- variantes dev quantifiées (fp8 / nvfp4),
- et ltx-2-19b-distilled (inférence accélérée, 8 étapes, CFG=1).
- Contraintes de forme strictes : Largeur/hauteur doivent être divisibles par 32, et le nombre de frames doit être divisible par 8 + 1 (c.-à-d. 8n+1 : 1, 9, 17, 25, …, 121, …). Si votre entrée ne correspond pas, vous devez généralement faire du padding (couramment avec
-1) puis recadrer à la taille/nombre de frames cible.
2. Pour quoi les LoRAs LTX-2 sont les meilleurs
En pratique, les LoRAs LTX-2 sont les plus précieux dans ces directions lors du LTX-2 19B entraînement LoRA :
- LoRAs de Personnage / identité : visage cohérent, costume, accessoires, look de "personnage de marque" et identité stable à travers les mouvements de caméra.
- LoRAs de Style : direction artistique (langage d'éclairage, style de rendu, objectifs, ambiance de pellicule), tout en gardant les sujets flexibles.
- LoRAs de Mouvement / chorégraphie : un motif de mouvement spécifique (style de cycle de marche, saveur de danse, locomotion de créature), ou "comment le monde bouge" (tremblement de caméra à main, timing d'animation).
- LoRAs de Comportement caméra : dolly-in/out, sensation de grue/jib, langage de caméra orbital, stabilisé vs caméra à main.
- (Avancé) LoRAs Audio : palette d'ambiance cohérente, style de foley ou caractéristiques vocales—uniquement si votre stack d'entraînement supporte le finetuning de la branche audio.
Si vous n'avez que des images (pas de vidéo), vous pouvez toujours entraîner identité/style efficacement, mais vous ne devriez pas vous attendre à apprendre des motifs de mouvement temporel à partir de frames individuels.
3. Préparation du dataset pour l'Entraînement LoRA LTX-2
3.1 Choisir le bon "budget" de longueur de clip + résolution
Le coût d'entraînement pour le fine-tuning LoRA LTX-2 augmente avec la taille spatiale et le nombre de frames. Pour un premier LoRA, gardez les choses simples :
- Starter Identité / style :
- Résolution : 512–768-ish (selon votre GPU)
- Frames : 49 ou 81 (clips plus courts s'entraînent plus vite ; assez pour la cohérence temporelle)
- Starter Mouvement / caméra :
- Résolution : 512 (ou 768 si vous avez de la marge)
- Frames : 121 (bon pour l'apprentissage du mouvement ; ~5 secondes à 24 fps)
Rappelez-vous la contrainte : les frames doivent être 8n+1.
3.2 Datasets vidéo vs image (les deux sont valides)
Beaucoup supposent que l'Entraînement LoRA LTX-2 nécessite des datasets uniquement vidéo. En réalité, la plupart des stacks d'entraînement pratiques peuvent travailler avec les deux :
- Datasets image uniquement (traitent chaque échantillon comme un "clip de 1 frame"), ou
- Datasets vidéo (clips courts cohérents).
Si vous utilisez AI Toolkit, il est généralement plus simple de garder chaque entrée de dataset homogène (toutes images ou toutes vidéos) et d'utiliser des entrées de dataset séparées si vous devez mélanger les modalités.
- Pour les images :
frames = 1satisfait 8n+1. - Pour les vidéos : utilisez des clips courts et cohérents ; évitez les longs segments multi-scènes.
C'est important pour le travail sur les personnages : vous pouvez démarrer l'identité à partir d'images, puis affiner le mouvement plus tard avec des clips courts.
3.3 De combien de données avez-vous besoin (échelle réaliste) ?
Il n'y a pas de "minimum officiel" unique, mais ces plages sont des points de départ réalistes pour le ltx-2-19b LoRA :
- LoRAs basés sur l'image (identité / accessoires / style) : commencez avec ~20–50 images propres et variées. Si vous voulez une robustesse plus forte à travers l'éclairage, les objectifs et les compositions, ~50–150 images sélectionnées aide généralement plus que répéter des quasi-doublons.
- LoRAs basés sur la vidéo (mouvement / caméra / cohérence temporelle) : visez ~20–60 clips courts et cohérents (plans à action unique) plutôt que quelques longues vidéos. Pour des objectifs plus larges ou plus riches en mouvement, monter vers ~50–150 clips courts (ou environ ~10–30 minutes de "bon" métrage) tend à produire des résultats nettement plus stables.
3.4 La qualité des captions compte plus que vous ne le pensez
LTX-2 répond bien aux captions plus longs et descriptifs, surtout si vous voulez des résultats contrôlables. Si vos clips incluent de la parole ou des indices sonores clés, incluez-les dans les captions (ou extraits de transcription) quand votre stack d'entraînement le supporte.
Conseils pratiques pour les captions :
- Pour les LoRAs d'identité : incluez des tokens d'identité cohérents (et variez tout le reste : éclairage, garde-robe, arrière-plan, objectif).
- Pour les LoRAs de style : gardez les descripteurs de style cohérents et variez les sujets/actions.
- Pour les LoRAs de mouvement : décrivez l'action précisément (tempo, mécanique corporelle, mouvement de caméra).
3.5 La régularisation est votre outil "anti-fuite" (utilisez-la quand le LoRA est étroit)
Si vous entraînez un concept étroit (un personnage, un produit), il est facile de sur-ajuster et d'obtenir "tout ressemble à mon dataset". Dans AI Toolkit, Differential Output Preservation (DOP) est conçu pour réduire ce type de dérive, et il se combine naturellement avec un dataset de "régularisation".
Un set de reg simple :
- Clips/images génériques dans un cadrage similaire à votre dataset principal
- Captions qui correspondent au domaine général (mais pas votre token d'identité unique)
4. Comment Ostris AI Toolkit conçoit l'entraînement
AI Toolkit est essentiellement un moteur d'entraînement cohérent enveloppé dans une UI : vous choisissez une famille de modèle, attachez des datasets, définissez une cible LoRA + rang et ajustez optimisation + sampling. Les panneaux de l'UI correspondent directement à la configuration d'entraînement sous-jacente : Job, Model, Quantization, Target, Training, Regularization, Datasets, Sample.
Ce que cela signifie pour vous : vous n'avez pas besoin de scripts spécifiques au modèle pour les bases, le même modèle mental (rang/étapes/LR/cache/régularisation) s'applique, mais la taille et la nature vidéo de LTX-2 rendent certains paramètres plus "sensibles" (rang, optimisations VRAM, frames).
Si vous êtes nouveau sur Ostris AI Toolkit, commencez par l'aperçu de l'entraînement LoRA AI Toolkit pour que les panneaux de l'UI et les paramètres principaux aient du sens avant d'ajuster les spécificités LTX-2 :
Aperçu de l'entraînement LoRA AI Toolkit
Si vous décidez où exécuter :
- AI Toolkit local : meilleur si vous avez déjà un GPU compatible et voulez un contrôle total sur votre environnement.
- RunComfy cloud AI Toolkit : meilleur si vous voulez éviter la configuration, entraîner sur des GPUs à haute VRAM et itérer plus vite avec moins de problèmes "ça ne marche pas sur ma machine"—particulièrement utile pour les checkpoints plus grands de LTX-2 et les charges de travail vidéo. ▶ Ouvrez RunComfy cloud AI Toolkit
5. Étape par étape : Comment entraîner un LoRA LTX-2 dans AI Toolkit
5.1 Créez votre dataset dans AI Toolkit
Dans le panneau Datasets / section Dataset du job :
- Target Dataset : votre dataset uploadé
- Default Caption : laissez vide sauf si vous avez besoin d'un suffixe global
- Caption Dropout Rate : commencez autour de 0.05 (aide à la généralisation)
- Cache Latents : ON si vous pouvez vous permettre l'espace disque (gros gain de vitesse sur les répétitions, mais les caches de latents vidéo grossissent vite)
- Num Frames :
- 1 pour les datasets image uniquement
- 49 / 81 / 121 pour la vidéo, selon votre objectif
- Resolutions : commencez avec 512 + 768 activés ; évitez 1024+ jusqu'à ce que vous ayez prouvé votre setup
Si vous faites un LoRA d'identité étroit, ajoutez une deuxième entrée de dataset et marquez-la Is Regularization (et gardez son poids inférieur ou égal, selon l'agressivité de préservation souhaitée).
5.2 Nouveau Training Job → Model
Dans la section Model :
- Model Architecture : LTX-2 (si disponible dans votre build)
- Name or Path : l'id de modèle Hugging Face pour le modèle de base (ex.
Lightricks/LTX-2) - Sélection de checkpoint : choisissez le checkpoint dev pour le LTX-2 trainer LoRA :
- ltx-2-19b-dev est le modèle complet et est entraînable en bf16.
- Le checkpoint distilled est principalement pour l'inférence rapide (8 étapes, CFG=1) et n'est pas le point de départ par défaut pour l'entraînement LoRA sauf si vous voulez spécifiquement adapter le comportement distillé.
5.3 Quantification + options VRAM
LTX-2 est gros, donc vous utiliserez souvent quantification/offload :
- Si vous êtes sur une VRAM classe H100/H200, vous pouvez souvent exécuter bf16 plus confortablement.
- Si vous êtes sur des GPUs de 24–48 Go, la quantification et les modes "Low VRAM" deviennent essentiels.
Deux notes pratiques :
- LTX-2 lui-même est livré avec des variantes quantifiées officielles (fp8 / nvfp4) du modèle complet ; si vous pouvez entraîner à partir de ces poids dépend de votre implémentation de trainer.
- Séparément, les optimiseurs 8 bits (ex. AdamW8bit) sont couramment utilisés pour rendre l'entraînement pratique sur du matériel grand public.
5.4 Target = LoRA + Rang
C'est là que l'Entraînement LoRA LTX-2 diffère des modèles plus petits.
- Target Type : LoRA
- Linear Rank : commencez à 32
- Beaucoup de trainers LoRA LTX-2 rapportent que le rang 32 est un minimum pratique pour des résultats solides.
- Si vous avez de la marge VRAM et voulez plus de capacité (style complexe, multi-concept), testez 64.
5.5 Hyperparamètres d'entraînement (une première exécution solide)
Commencez avec des valeurs qui n'exploseront pas :
- Batch Size : 1 (la vidéo finit presque toujours ici)
- Gradient Accumulation : 2–4 si vous voulez un batch effectif plus stable (et pouvez vous permettre le temps)
- Steps :
- 2 000–3 000 pour une première passe
- allez plus long si vous avez un dataset plus grand ou un style subtil
- Optimizer : AdamW8bit (choix courant pour l'efficacité VRAM)
- Learning Rate : 0.0001 pour commencer, 0.00005 si vous voyez du sur-ajustement ou un "burn-in" d'identité trop rapide
- Weight Decay : ~0.0001
- Timestep Type / Bias : gardez les valeurs par défaut sauf si vous savez pourquoi vous les changez
- DOP / Blank Prompt Preservation : activez DOP si vous voyez une fuite de style ou une perte de polyvalence de base.
5.6 Sampling pendant l'entraînement (ne sautez pas cette étape)
Le sampling est votre système d'alerte précoce pour l'Entraînement LoRA LTX-2. Utilisez-le.
- Sample Every : 250 étapes (bonne cadence)
- Sampler / Scheduler : commencez avec ce que votre preset LTX-2 utilise par défaut, et n'expérimentez qu'après avoir une baseline.
- Guidance + étapes dépendent de quel checkpoint vous samplez :
- Pour les exécutions dev, un point de départ courant est
guidance ~4avec25–30étapes de sampling. - Pour distilled, le comportement publié est 8 étapes, CFG=1, donc samplez avec
guidance = 1etsteps = 8(sinon vous aurez de la confusion "pourquoi ça a l'air pire ?"). - Width/Height/Frames : correspondez à votre bucket d'entraînement (ou une cible représentative)
Écrivez des prompts d'échantillon qui correspondent à votre utilisation réelle :
- Incluez votre mot trigger (pour les LoRAs d'identité).
- Incluez des descripteurs de caméra/mouvement si ceux-ci comptent.
- Gardez un prompt "ennuyeux" qui révèle le sur-ajustement (éclairage simple, action simple).
6. Attentes de temps pour l'Entraînement LoRA LTX-2
Il n'y a pas de nombre universel, traitez le temps d'exécution comme une estimation pratique qui peut varier avec les frames/résolution, les choix d'offload/quantification et la fréquence de sampling.
Un modèle mental réaliste :
- Frames sont souvent le plus grand levier : 121 → 81 → 49 peut être la différence entre "ça s'entraîne" et "ça rame / OOMs."
- L'overhead du sampling peut rivaliser avec le temps d'entraînement si vous samplez de grandes vidéos fréquemment.
Comme point de référence approximatif : sur un H100, avec un petit dataset vidéo (~20 clips, 3–5s chacun), batch=1, rank=32 et gradient checkpointing activé, il est courant de voir des secondes à un chiffre par étape d'entraînement à un bucket de résolution 768-ish avec un bucket de frames de longueur moyenne (ex., 49–81 frames). Votre temps exact par étape variera beaucoup avec l'I/O, le caching et si vous faites du prétraitement conscient de l'audio.
Budgétez aussi pour le sampling : une prévisualisation "3 prompts × 25 étapes × 121 frames @ 1024×768" peut facilement prendre des minutes à chaque exécution. Si vous samplez tous les 250 étapes, cet overhead peut s'accumuler rapidement sur une exécution de 2 000 étapes.
7. Problèmes courants dans l'Entraînement LoRA LTX-2 (et comment les résoudre)
- Nombres de frames incorrects : si votre dataset utilise 120 frames au lieu de 121, vous aurez des erreurs ou un décalage silencieux. Restez sur des nombres de frames 8n+1 (1, 9, 17, 25, …, 49, 81, 121, …).
- Tailles incorrectes : largeur/hauteur doivent être divisibles par 32. Si vous utilisez un pipeline qui ne fait pas d'auto-pad, redimensionnez/bucketez en conséquence.
- Rang trop bas : les symptômes sont "ça s'entraîne mais rien ne change," ou une force d'identité/style faible même à l'échelle LoRA 1.0. Essayez rang 32.
- Sur-ajustement / fuite LoRA : votre sujet apparaît dans des prompts non liés. Activez DOP et ajoutez un dataset de reg.
- Captions trop courts : l'adhérence au prompt s'effondre. Développez les captions (quoi, où, caméra, mouvement, humeur ; plus indices audio/transcription si pertinent).
- Confusion de sampling distillé : si vous samplez le checkpoint distillé avec 25+ étapes ou CFG>1, vous ne le testez pas comme prévu. Utilisez 8 étapes, CFG=1 pour les prévisualisations distillées.
- VRAM OOM : réduisez d'abord les frames (121 → 81 → 49), puis la résolution (768 → 512), puis activez offload/quantification/caching.
8. Entraînement LoRA LTX-2 : FAQ Rapide
Puis-je entraîner un LoRA LTX-2 à partir d'images uniquement ?
Oui, utilisez un dataset image uniquement et définissez le nombre de frames à 1. Excellent pour l'identité et le style. Pas génial pour apprendre le mouvement.
Checkpoint dev vs distillé pour l'entraînement LoRA ?
Commencez avec ltx-2-19b-dev pour l'Entraînement LoRA LTX-2 ; il est explicitement décrit comme flexible/entraînable en bf16. Les checkpoints distillés sont principalement pour l'inférence rapide (8 étapes, CFG=1).
Quel rang devrais-je utiliser ?
Commencez à 32. C'est là que beaucoup de trainers LTX-2 précoces atterrissent pour "ça apprend vraiment."
Pourquoi mes échantillons semblent saccadés ou incohérents ?
Généralement un mélange de : clips trop longs pour votre VRAM (forçant un offload agressif), captions ne décrivant pas le mouvement/caméra, ou paramètres de sampling qui ne correspondent pas au checkpoint (surtout sampler distillé comme dev). Réduisez les frames, resserrez les captions et alignez guidance/étapes au checkpoint que vous samplez.
9. En savoir plus : Autres guides d'entraînement LoRA AI Toolkit
Si vous voulez comparer les workflows, datasets et compromis de paramètres à travers les familles de modèles, ces guides sont de bons points de référence :
- Wan 2.2 T2V 14B entraînement LoRA texte-vers-vidéo
- Wan 2.2 I2V 14B entraînement LoRA image-vers-vidéo
- Qwen Image 2512 entraînement LoRA
- Qwen-Image-Edit-2511 entraînement LoRA avec AI Toolkit (édition multi-image)
- Qwen-Image-Edit-2509 entraînement LoRA avec AI Toolkit (édition multi-image)
- FLUX.2 Dev entraînement LoRA avec AI Toolkit
- Z-Image Turbo entraînement LoRA avec AI Toolkit (8-step Turbo)
Ready to start training?

