Workflow vidéo d'identité multi-sujet LTX 2.3 MSR pour ComfyUI#
Ce workflow transforme plusieurs références de personnages ou d'objets en une seule vidéo cohérente, prête à raconter une histoire, en utilisant LTX 2.3 MSR. Il préserve l'identité à travers plusieurs sujets tout en exploitant le modèle audio-visuel LTX‑2.3 pour le mouvement, la cinématographie et le son synchronisé. Les créateurs peuvent combiner jusqu'à quatre images de sujets plus un arrière-plan, puis guider la scène avec des invites pour le dialogue, les plans de groupe et les séquences de style de vie dynamique.
Conçu pour les conteurs, les annonceurs et les créateurs sociaux, le graphe assemble des références dans un guide MSR, injecte l'identité via un passage LoRA conditionné par l'image, et échantillonne un latent audio-visuel qui se décode en images et audio optionnel. LTX 2.3 MSR est l'ancre pour la fidélité de l'identité ; le reste de la chaîne gère la composition, la guidance du mouvement et l'exportation.
Modèles clés dans le workflow Comfyui LTX 2.3 MSR#
- LTX‑2.3 22B distillé (1.1) par Lightricks. Le modèle de base audio-visuel qui génère le mouvement, les visuels et l'audio synchronisé. Les poids sont publiés sur Hugging Face sous LTX‑2.3. Lightricks/LTX-2.3
- Gemma 3 12B Instruct text encoder (fp4 mixed). Utilisé pour le codage des invites dans la pile LTX pour traduire le texte en signaux de conditionnement pour la génération. Emballé avec les actifs LTX pour ComfyUI. Comfy-Org/ltx-2
- LTX 2.3 MSR LoRA (Licon MSR V1). Un LoRA de Référence Multi-Sujet spécialisé pour LTX‑2.3 qui verrouille plusieurs identités à la fois, stabilisant les visages, les vêtements et les caractéristiques des objets à travers tout le clip. liconstudio/ComfyUI-Licon-MSR
- LTX‑2 Audio VAE. Fournit l'espace audio latent et le décodage utilisé lors de la génération ou de l'attachement de son synchronisé avec les actifs LTX‑2.x. Comfy-Org/ltx-2
Comment utiliser le workflow Comfyui LTX 2.3 MSR#
Ce graphe a trois phases : construire un guide MSR à partir de références, conditionner le latent vidéo avec une guidance multi-images et des invites, puis échantillonner et décoder en images et audio.
- Comfig
- Définissez votre
width,height, totalframes, etfpsdans les nœuds de configuration. Ceux-ci alimentent les latents vidéo et audio vides et la phase d'exportation, gardant le timing cohérent du conditionnement jusqu'au rendu final. - Choisissez l'aspect et la durée qui conviennent à votre histoire. Un nombre d'images plus élevé augmente la continuité du mouvement mais aussi la VRAM et le temps d'exécution.
- Définissez votre
- Chargeurs de références
- Chargez jusqu'à quatre images de sujet (
img1,img2,img3,img4) et un arrière-plan (bg). Ceux-ci se mappent aux gettersrefimg1..4etrefbgpour que vous puissiez rapidement échanger les sources sans recâblage. - Utilisez des images claires, bien éclairées avec le sujet centré et non obstrué. Pour les vêtements ou accessoires que vous souhaitez préserver, assurez-vous qu'ils soient visibles dans au moins une référence.
- Chargez jusqu'à quatre images de sujet (
- Compositeur MSR
LiconMSR(#28) assemble les références de sujet et l'arrière-plan en une seule sortie d'image MSR. Cela devient le plan d'identité visuelle pour LTX 2.3 MSR, alignant les traits du visage, la tenue et les détails des objets avant l'échantillonnage.- Un petit
VHS_VideoCombine(#66) crée un aperçu rapide à faible FPS à partir de la sortie MSR pour que vous puissiez vérifier la composition avant de lancer le rendu complet.
- Conditionnement multi-guide
LTXVAddGuideMulti(#108) ingère jusqu'à cinq images (vos quatre sujets plus l'arrière-plan) avec les invites positives et négatives pour produire un latent vidéo initial avec une guidance spatiale et d'apparence.- Le texte d'invite positive décrit la scène, la caméra et l'ambiance ; le texte négatif évite les artefacts et les looks hors style.
LTXVConditioning(#7) attache votrefpspour que le timing du mouvement corresponde à l'exportateur.
- Contrôle d'identité LoRA
- Le LTX 2.3 MSR LoRA est chargé dans le modèle, et
LTXAddVideoICLoRAGuide(#9) applique un passage LoRA conditionné par l'image en utilisant l'image MSR. Cela renforce l'identité à travers les images sans figer le mouvement. - Utilisez cette étape pour équilibrer la force de l'identité avec la liberté pour un mouvement et des expressions naturels.
- Le LTX 2.3 MSR LoRA est chargé dans le modèle, et
- Échantillonnage
- La pile d'échantillonneurs utilise
CFGGuider(#37),KSamplerSelect(#13),ManualSigmas(#27), etRandomNoise(#15) alimentantSamplerCustomAdvanced(#16). Le résultat est un latent audio-visuel commun qui reflète vos références, invites et contraintes MSR. - Si vous avez besoin de nouvelles variations, changez la graine de bruit ou l'échantillonneur tout en gardant les références et les paramètres MSR fixes pour la cohérence.
- La pile d'échantillonneurs utilise
- Guidance de recadrage et décodage
LTXVCropGuides(#17) ajuste le latent vidéo à la taille de cadre cible, évitant les coupes indésirables. Les latents vidéo et audio sont ensuite séparés parLTXVSeparateAVLatent(#24).VAEDecode(#38) convertit les latents vidéo en images ;LTXVAudioVAEDecode(#25) reconstruit l'audio.
- Exportation
VHS_VideoCombine(#96) assemble les images et l'audio optionnel en H.264 MP4 à votrefpschoisi, en utilisant votrefilename_prefix. C'est la vidéo finale produite par le workflow LTX 2.3 MSR.
Nœuds clés dans le workflow Comfyui LTX 2.3 MSR#
LiconMSR (#28)#
Assemble 1–4 références de sujet plus un arrière-plan en un seul guide MSR. Définissez width et height pour correspondre à votre toile cible afin que le guide composé et les images finales s'alignent. Si vous voyez une dérive d'identité, revisitez les références d'entrée ou augmentez la proéminence des sujets clés dans leurs images sources.
LTXVAddGuideMulti (#108)#
Combine plusieurs images de guidance avec vos invites pour former le latent vidéo initial. Utilisez-le pour prioriser quelles références dominent la scène en favorisant légèrement les sujets héros. Gardez la guidance de l'arrière-plan active pour des environnements stables et moins de sauts de scène.
LTXAddVideoICLoRAGuide (#9)#
Injecte le MSR LoRA conditionné par l'image en utilisant l'image MSR composée. Augmentez la strength pour renforcer la préservation de l'identité pour les visages, tenues ou accessoires ; réduisez-la si le mouvement semble trop contraint. Les choix de recadrage doivent refléter où les sujets apparaissent le plus souvent dans le cadre.
CFGGuider (#37)#
Contrôle la force avec laquelle l'échantillonneur suit vos invites. Un cfg plus élevé améliore l'adhérence à l'intention textuelle mais peut réduire la variété ; des valeurs modérées gardent un aspect naturel tout en respectant la guidance MSR.
SamplerCustomAdvanced (#16)#
Effectue le processus de débruitage en utilisant votre échantillonneur, sigmas et graine de bruit choisis. Les échantillonneurs de style Euler ou DPM fonctionnent bien avec LTX‑2.3 ; explorez les graines pour des alternatives tout en gardant les mêmes références pour conserver l'identité.
VHS_VideoCombine (#96)#
Construit le MP4 final avec audio optionnel. Faites correspondre frame_rate à l'étape de conditionnement et définissez un filename_prefix clair pour la version. Utilisez l'aperçu de ce nœud pour réviser le rythme et la cohérence de l'identité avant de partager.
Extras optionnels#
- Préparez des références avec des angles neutres, de face et une occlusion minimale ; ajoutez un deuxième angle pour les coiffures complexes ou les accessoires.
- Gardez les références de garde-robe et d'accessoires assez grandes pour que les textures et logos soient visibles ; évitez le flou de mouvement important dans les images sources.
- Lorsque l'identité est parfaite mais que le mouvement est rigide, réduisez légèrement la force du guide LoRA dans l'étape LTX 2.3 MSR et ajoutez des indices d'invite pour le mouvement.
- Pour des histoires plus longues, augmentez
frameset gardezfpsconstant pour préserver le timing ; pour des montages plus rapides, augmentezfpset raccourcissezframes. - Utilisez une référence d'arrière-plan similaire en éclairage et perspective à votre scène prévue pour moins d'incohérences.
Remerciements#
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement le projet LTX pour le workflow LTX 2.3 MSR (Multi-Subject Reference) pour leurs contributions et maintenance. Pour des détails autorisés, veuillez vous référer à la documentation originale et aux référentiels liés ci-dessous.
Ressources#
- LTX/LTX 2.3 MSR Workflow Source
- Docs / Release Notes: RunningHub post
Remarque : L'utilisation des modèles, ensembles de données et code référencés est soumise aux licences respectives et termes fournis par leurs auteurs et mainteneurs.

