LTX 2.3 ID-LoRA dans ComfyUI | Créateur de Vidéo Contrôlé par Identité

ComfyUI LTX 2.3 ID-LoRA Workflow

LTX 2.3 ID-LoRA in ComfyUI | Identity-Controlled Video Creator

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 ID-LoRA Examples

Workflow vidéo‑parlant LTX 2.3 ID-LoRA pour ComfyUI#

Ce workflow transforme une seule image de visage, un court clip vocal, et une invite en une vidéo parlante entièrement synchronisée. Construit sur LTX‑2.3, il fusionne l'audio et les visuels dans un processus de diffusion unique et ajoute un adaptateur d'identité In‑Context LoRA pour que la personne de votre image de référence reste cohérente sur tous les cadres. LTX 2.3 ID-LoRA est idéal pour les avatars, les hôtes virtuels et tout scénario où la synchronisation labiale, la ressemblance et le contrôle de l'invite doivent s'aligner en une seule passe.

Vous fournissez trois éléments : une image de référence, une ou deux phrases d'audio, et une invite textuelle décrivant l'apparence et la performance. Le chemin LTX 2.3 ID-LoRA gère l'identité tandis qu'un préprocesseur audio léger améliore la clarté vocale pour des indices buccaux plus forts. Le résultat est une vidéo cohérente, préservant l'identité avec un discours synchronisé qui ne nécessite pas d'entraînement par sujet.

Modèles clés dans le workflow Comfyui LTX 2.3 ID-LoRA#

Checkpoint de base Lightricks LTX‑2.3 22B. Le modèle de fondation audio‑vidéo conjoint qui génère des cadres et sons synchronisés à partir du texte, de l'image et de l'audio. C'est le générateur principal utilisé par ce pipeline ComfyUI. Model card
LTX‑2.3 LoRA distillé 384. Adaptateur LoRA officiel qui applique des conseils distillés au modèle de base pour stabiliser et accélérer l'échantillonnage sans sacrifier la qualité. Il est branché en tant que modèle de deuxième étape dans ce workflow. Voir le tableau des checkpoints sur la page LTX‑2.3. Model card
Sur-échantillonneur spatial LTX‑2.3 x2. Sur-échantillonneur d'espace latent utilisé dans le sous-graphe de l'échantillonneur pour élever le détail spatial avant le décodage, améliorant la fidélité des visages et des bords dans la vidéo finale. Model card
Encodeur de texte Instruct Gemma 3 12B pour LTX‑2.3. Fournit le conditionnement textuel qui pilote le style, la scène et la performance. Ce workflow utilise l'encodeur Gemma 3 empaqueté pour LTX‑2 dans ComfyUI. Comfy‑Org text encoders
VAEs LTX‑2.3 pour vidéo et audio. VAEs conçus sur mesure qui décodent les latents visuels et acoustiques produits par le modèle en images et en une forme d'onde. Les constructions compatibles bf16 sont référencées dans le graphe. Sources d'exemple : Video VAE · Audio VAE
RoFormer de bande de Mel pour la séparation vocale. Préprocesseur optionnel qui extrait les voix claires de l'audio de référence afin que le modèle puisse suivre les syllabes et les formes buccales plus fiablement. Paper · ComfyUI node
LTX 2.3 ID‑LoRA (IC‑LoRA). Un LoRA d'identité in‑context entraîné pour l'utilisation de vidéo parlante qui incline le générateur vers le visage de votre image de référence tout en respectant les indices d'invite et de voix. Lightricks documente l'utilisation de LoRA et IC‑LoRA avec LTX‑2.3 sur la page du modèle. Model card

Comment utiliser le workflow Comfyui LTX 2.3 ID-LoRA#

Flux global. Le pipeline charge la base LTX‑2.3 avec des encodeurs de texte et des VAEs, prépare votre image et votre audio, puis exécute un échantillonneur LTX à deux étapes qui combine le texte, la référence faciale et une piste vocale pour générer des cadres et un discours synchronisés. Un échantillonneur parallèle sans ID‑LoRA est inclus pour des comparaisons rapides. Les cadres finaux et l'audio sont multiplexés en un MP4.

Modèle
- Le graphe charge le checkpoint de base avec CheckpointLoaderSimple (#5493), les encodeurs de texte basés sur Gemma via LTXAVTextEncoderLoader (#5494), et les VAEs dédiés pour la vidéo VAELoader (#5651) et l'audio VAELoaderKJ (#5649). Il applique ensuite deux adaptateurs : le LoRA distillé officiel pour former un modèle de deuxième étape et le LTX 2.3 ID-LoRA pour le conditionnement de l'identité via LoraLoaderModelOnly (#5573).
- Cette étape garantit que le générateur comprend votre invite, a les bonnes piles de décodage, et est optimisé avec à la fois des conseils d'efficacité et un biais d'identité.
- Vous ne modifiez généralement rien ici au-delà de l'échange de checkpoints ou de LoRAs si vous avez des alternatives.
Réglage Vidéo
- Contrôle les dimensions de sortie, la fréquence d'images, les étapes, et la durée. Width (#5284), Height (#5286), et Frame Rate (#5289) alimentent un petit utilitaire qui calcule le nombre total de cadres à partir des secondes, maintenant une synchronisation cohérente entre l'audio et la vidéo.
- Les paramètres sont stockés une fois et lus par tous les nœuds en aval pour que les deux échantillonneurs et le multiplexeur restent alignés.
- Ajustez ces valeurs d'abord lorsque vous voulez un aspect, une fluidité ou une durée différente.
Charger l'Image de Référence
- Fournissez une seule image de visage claire via Load Image (Input) (#5525). L'image est redimensionnée avec ImageResizeKJv2 (#5280) pour correspondre à votre sortie choisie.
- Cette image prétraitée devient l'ancre pour l'identité dans l'étape LTX 2.3 ID-LoRA, guidant la ressemblance et la composition du plan.
- Utilisez une photo bien éclairée, frontale avec un flou de mouvement minimal pour de meilleurs résultats.
Prétraitement Audio
- Déposez un court WAV ou MP3 en utilisant Reference Audio (Input) (#5652). Le clip est coupé si nécessaire puis passé à MelBandRoFormerSampler (#5473) pour isoler les voix.
- Les voix claires aident le modèle à déduire les phonèmes et le timing pour des mouvements labiaux précis et un rythme de discours.
- Si votre audio est déjà uniquement vocal, vous pouvez sauter la séparation et l'alimenter directement.
Échantillonnage LTX Avec ID Lora
- C'est le chemin principal. Le sous-graphe de l'échantillonneur (Samplers (#5278)) mélange votre invite positive de Enhanced Prompt (Positive) (#5174), la liste négative, la référence faciale, et la piste vocale à travers le pipeline latent AV de LTX‑2.3.
- LTXVReferenceAudio aligne le mouvement avec le discours tandis que LTXVImgToVideoInplace injecte l'image faciale dans le latent comme ancre. L'adaptateur LTX 2.3 ID-LoRA oriente le générateur vers l'identité de votre sujet.
- L'étape comprend un sur-échantillonneur latent interne pour élever le détail avant le décodage. Il produit des cadres plus un flux audio synchronisé.
Échantillonnage LTX Sans ID Lora
- Un échantillonneur miroir (Samplers (#5643)) exécute le même conditionnement mais sans l'adaptateur ID‑LoRA. Utilisez ceci pour des vérifications A/B ou lorsque vous voulez plus de liberté par rapport à l'identité de référence.
- Tout le reste reste identique, donc les différences que vous remarquez sont dues uniquement au conditionnement de l'identité.
- Ce chemin peut être utile pour des brouillons rapides ou des départs créatifs.
Combiner et Sortir Vidéo
- Les cadres et l'audio généré sont multiplexés en MP4 avec Video Combine (Output) (#5218). Le taux de trame provient de votre paramètre global, donc le mouvement et la synchronisation labiale correspondent au timing de l'échantillonneur.
- Le Video Combine secondaire (#5645) prévisualise la branche sans ID‑LoRA si vous l'avez activée, ce qui est utile pour des comparaisons.
- Le workflow nettoie le cache entre les exécutions pour garder la VRAM stable sur de longues sessions.

Nœuds clés dans le workflow Comfyui LTX 2.3 ID-LoRA#

LoraLoaderModelOnly (#5573)
- Charge le LTX 2.3 ID-LoRA qui préserve l'identité faciale. Réduisez son poids si vous voulez plus de variance créative ou augmentez-le pour verrouiller la ressemblance plus étroitement. Associez-le judicieusement avec la force de l'invite pour que l'identité et le style ne se concurrencent pas. Référence : utilisation de LoRA LTX‑2.3 sur la page du modèle. Model card
LTXVReferenceAudio (#5589)
- Convertit votre audio de référence en conditionnement pour le timing des syllabes, la prosodie, et les formes buccales. Fournissez un discours clair pour le meilleur alignement. Si vous entendez des pompages ou une articulation décalée, raccourcissez ou simplifiez le clip plutôt que de renforcer la force.
LTXVImgToVideoInplace (#5245, aussi utilisé plus tard)
- Injecte l'image faciale dans le flux vidéo latent comme un préalable spatial. Le contrôle de la force de l'image équilibre l'adhérence à la photo par rapport à la liberté de mouvement. Pour une forte identité avec un mouvement naturel, gardez la force de l'image modérée et laissez l'ID‑LoRA porter la ressemblance.
LTXVConditioning (#5621)
- Emballe le conditionnement textuel et les indices de timing pour les échantillonneurs LTX. Assurez-vous que son entrée de fréquence d'images correspond à votre fréquence d'images de sortie pour que les champs de mouvement et le timing des phonèmes restent cohérents.
VHS_VideoCombine (#5218)
- Multiplexe les cadres et l'audio dans le fichier final. Si votre audio est légèrement plus long que les cadres, activez le découpage ici pour éviter une queue noire traînante. Pour la compatibilité des plateformes, gardez les paramètres H.264 par défaut sauf si vous avez une raison de les changer. Référence de nœud : ComfyUI‑VideoHelperSuite
MelBandRoFormerSampler (#5473)
- Sépare les voix de la musique en utilisant un transformateur de bande de Mel pour que le générateur se verrouille sur le discours. Si les sibilantes se mélangent ou les plosives éclatent, essayez un fichier modèle différent de la même famille ou réduisez la sonorité d'entrée. Lecture de fond : arXiv

Extras optionnels#

Pour les générations les plus stables avec LTX‑2.3, utilisez une largeur et une hauteur divisibles par 32 et choisissez un nombre de cadres de 8n + 1 comme documenté par Lightricks. Model card
Gardez l'image de référence cohérente avec votre invite. Si vous décrivez un éclairage extérieur mais fournissez une photo intérieure, l'identité peut se maintenir tandis que la couleur et l'ombrage luttent contre l'invite.
Donnez à l'audio 2 à 8 secondes avec un rythme naturel. Les clips trop compressés ou réverbérants réduisent la fidélité de la synchronisation labiale même après la séparation vocale.
Lorsque les visages dérivent, réduisez légèrement la force de l'image et reposez-vous davantage sur le LTX 2.3 ID-LoRA. Lorsque les visages errent trop, faites l'inverse.
Pour des prises plus longues, générez en segments qui partagent la même graine et les mêmes paramètres globaux, puis joignez les clips en montage vidéo si nécessaire.

Références et dépôts utiles#

Poids ouverts LTX‑2.3 et notes : Page du modèle Hugging Face
Nœuds ComfyUI officiels pour la vidéo LTX : Lightricks/ComfyUI‑LTXVideo
Codebase et article LTX‑2 : Lightricks/LTX‑Video · arXiv
Encodeurs IT Gemma 3 12B pour LTX dans ComfyUI : Comfy‑Org/ltx‑2 text_encoders
Fond RoFormer de bande de Mel : arXiv

Remerciements#

Ce workflow met en œuvre et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement les créateurs de LTX 2.3 ID-LoRA Source pour le workflow LTX 2.3 ID-LoRA Source pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources#

LTX 2.3 ID-LoRA Source
- Docs / Notes de version : YouTube @Benji’s AI Playground

Note : L'utilisation des modèles, jeux de données, et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

InfiniteTalk | Générateur d'Avatar Synchronisé sur les Lèvres

Photo + Voix = Avatar Parlant Parfaitement Synchronisé en Minutes

DreamID-Omni | Créateur de Vidéos Parlantes à partir de Photos

Transforme les photos en vidéos parlantes ultra-réalistes en quelques secondes.

EchoMimic | Animations de Portraits Dirigées par l'Audio

Générez des têtes parlantes réalistes et des gestes corporels synchronisés avec l'audio fourni.

Hallo2 | Animation de portrait synchronisée sur les lèvres

Synchronisation labiale pilotée par audio pour l'animation de portrait en 4K.

LatentSync| Modèle de Synchronisation Labiale

Technologie avancée de synchronisation labiale pilotée par l'audio.

Qwen Image 2512 | Générateur d'images AI de précision

Création artistique ultra-détaillée avec une précision visuelle et un contrôle de niveau supérieur.

Omni Kontext | Intégration de scène fluide

Ajustements de scène parfaits. Style unique. L'identité reste. Kontext garde ça réel.

ComfyUI MOSS TTS | Générateur de Voix & Parole AI

Transformez instantanément le texte en voix naturelles avec le clonage zéro-coup.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

LTX 2.3 ID-LoRA | Générateur d'Avatar Parlant