LTX 2.3 Movie Builder Workflow : réalisation de films cohérente, multi-scènes et sensible à l'audio dans ComfyUI#
Le LTX 2.3 Movie Builder Workflow est un système de réalisation de films cinématographiques IA qui associe l'intelligence des invites Qwen/Gemma au modèle vidéo LTX-2.3 pour produire des films multi-scènes cohérents, des clips axés sur l'histoire et des vidéos musicales. Il automatise la planification des scènes, la séquence des invites et l'assemblage des prises tout en préservant l'identité des personnages, la continuité des mouvements et le rythme cinématographique. Vous pouvez obtenir des résultats avec uniquement du texte, des débuts d'image à vidéo ou une référence audio pour la synchronisation labiale et le timing des gestes, en gardant le contrôle créatif sur le style, le mouvement de la caméra, la longueur et l'ordre de montage.
Créé par Mickmumpitz.ai pour les flux de production, ce graphique ComfyUI intègre la création d'images de début avec FLUX.2, des invites de discours structurées, un conditionnement sensible à l'audio, un upscaling latent optionnel et un assembleur de prises final. Si vous avez besoin d'un pipeline prêt à tourner, le LTX 2.3 Movie Builder Workflow vous emmène des références et des lignes de script à une coupe finale avec un minimum de configuration manuelle.
Modèles clés dans Comfyui LTX 2.3 Movie Builder Workflow#
- Lightricks LTX-2.3 22B (transformer only, FP8) : l'épine dorsale principale de texte à vidéo utilisée pour la génération d'image à vidéo et de texte à vidéo. Model
- LTX-2.3 Distilled LoRA 384 1.1 : poids distillés qui accélèrent et stabilisent l'échantillonnage LTX-2.3. LoRA
- LTX-2.3 Spatial Upscaler x2 1.1 : upscaler latent optionnel pour des vidéos plus grandes et plus nettes. Model
- LTX-2.3 Video VAE (BF16) et Audio VAE (BF16) : VAEs pour les latents vidéo et audio LTX. Video VAE · Audio VAE
- LTX-2.3 ID LoRA TalkVid 3k : LoRA sensible à l'identité qui améliore l'identité parlante et le mouvement de la bouche. LoRA
- Gemma 3 12B IT + LTX-2.3 Text Projection : pile d'encodage de texte utilisée pour les invites LTX. Encoder · Projection
- FLUX.2-klein-9B FP8 : générateur d'images rapide pour les images de départ, accessoires et look-dev. Model
- FLUX.2-klein-9B Consistency LoRA V2 et 360 ERP Outpaint LoRA : améliorent la stabilité temporelle et le contexte large dans les actifs. Consistency · 360 ERP
- Flux2 VAE et Qwen 3 8B text encoder pour FLUX : encodeurs utilisés dans le chemin de création d'actifs. Flux2 VAE · Qwen 3 8B
- Chemin optionnel à faible VRAM : LTX-2.3 GGUF quantized UNet. GGUF
Comment utiliser Comfyui LTX 2.3 Movie Builder Workflow#
En résumé : choisissez votre résolution de film et fps, chargez des images de protagonistes (visage/corps), ajoutez une référence vocale optionnelle, générez une image de départ avec FLUX ou fournissez votre propre image fixe, écrivez une invite structurée, puis rendez la prise. Dupliquez la prise pour de nouvelles scènes et réorganisez-les dans l'assembleur pour exporter le film final.
PARAMÈTRES#
Définissez votre canevas vidéo et rythme dans le LtxResolutionPicker (#13492) et Frame Rate (#13480). Les contrôles d'échantillonnage globaux se trouvent dans Set_steps (#845) et Set_cfg (#851) et affectent à la fois la création d'actifs et la génération de vidéos LTX. Si vous itérez uniquement sur des images fixes, activez le bypass ENABLE / DISABLE VIDEO GENERATION (#13715) pour gagner du temps. Ces paramètres définissent la durée de chaque clip et comment il se compose dans la chronologie finale.
CHARGER LES MODÈLES LTX#
La pile LTX se charge avec UNETLoader (#13450), deux nœuds Load Distilled LoRA (#10370, #10159), et le ID LoRA LoraLoaderModelOnly (#10324) pour la cohérence des personnages. Les invites sont encodées par DualCLIPLoader (#13451) utilisant Gemma + projection LTX. Les VAEs vidéo et audio se chargent via VAELoader (#13449) et VAELoader (#13832), et l'upscaler latent optionnel est fourni par LatentUpscaleModelLoader (#10349). Le graphique stocke ces valeurs en tant que valeurs "Get/Set" réutilisables pour que chaque prise lise le même pack de modèles.
CHARGER LES MODÈLES FLUX#
Pour la création d'images de départ et le développement de look, le chemin FLUX charge UNETLoader (#1992) avec les LoRAs Consistency et 360 ERP (LoraLoaderModelOnly #6228, #13261). Le texte est encodé avec CLIPLoader (#362) utilisant Qwen, et les images sont décodées avec VAELoader (#360). Cette étape est indépendante, vous pouvez donc itérer rapidement sur les accessoires, les environnements ou les plans d'établissement avant de les transmettre à LTX.
CHARGER LES IMAGES DU PROTAGONISTE#
Ajoutez vos références de visage et de corps avec LoadImage (#4867, #1284) et l'ensemble compagnon (#13472, #13473) si nécessaire. La chaîne d'outils intégrée "REMOVE BG" recadre automatiquement les visages et supprime les arrière-plans pour produire les ensembles FACE, BODY, et FACEBODY (Set_FACE #3093, Set_BODY #3291, Set_FACEBODY #1334). Des références propres sont essentielles pour la rétention de l'identité à travers les prises.
CRÉATEUR D'ACTIFS (optionnel)#
Si vous souhaitez que le workflow crée une image de départ précise, écrivez une description dans Text Prompt (#13442) et exécutez l'échantillonneur FLUX KSampler (#13361). L'image résultante est mise en cache sous OUT_01 et sauvegardée via SaveImage (#13439), puis harmonisée optionnellement avec vos références en utilisant ColorMatch (#13478). Cela devient l'ancre visuelle pour le passage image-à-vidéo qui suit.
RÉFÉRENCE AUDIO (optionnel)#
Chargez une voix ou un indice de performance avec LoadAudio (#10343) et découpez-la dans TrimAudioDuration (#10344); prévisualisez avec PreviewAudio (#10346). L'audio est passé à LTXVReferenceAudio (#13329) lorsque Enable Voice Reference (#13320) est activé, guidant les formes de bouche, le phrasé et les temps des gestes. Un second emplacement de référence (AUDIO REFERENCE 02) est disponible si vous souhaitez comparer ou changer de prise en cours d'itération.
PRISE 01#
Chaque prise lit les modèles et paramètres du pool partagé, puis mélange vos actifs, invite et audio optionnel en une vidéo. Entrez une description cinématographique ou une invite axée sur le discours dans Text Prompt (#13384); utilisez le format inclus [VISUAL] / [SPEECH] / [SOUNDS] pour obtenir les meilleurs résultats. L'image de départ est prétraitée dans LTXVPreprocess (#13308) et animée dans LTXVImgToVideoInplace (#13289), avec un conditionnement audio fourni par LTXVReferenceAudio (#13329) lorsqu'il est activé. Le pipeline exécute un échantillonneur en deux étapes (SamplerCustomAdvanced #13316, #13331) et, si Enable Upscale (#13322) est activé, affine les détails avec LTXVLatentUpsampler (#13306). CreateVideo (#13310) multiplexe les images et l'audio; vous pouvez enregistrer les sorties par prise via ShotVideoOutput (#13379) et Video Output (#13393).
SORTIE FINALE DU FILM#
Organisez l'ordre des prises avec les nœuds d'aide MickmumpitzShotOrder (#8230) et MickmumpitzShotDuplicator (#6357), puis assemblez votre coupe dans Video Output - Shot Assembler (#5598). L'assembleur recadre et concatène les clips, préparant une seule chronologie pour l'exportation. Rendez le film final avec Video Output (#5521). Pour construire des films plus longs, dupliquez SHOT 01, ajustez les invites et les positions d'entrée/sortie, et réexportez.
Nœuds clés dans Comfyui LTX 2.3 Movie Builder Workflow#
LTXVImgToVideoInplace (#13289)#
Transforme une image fixe de haute qualité en un latent vidéo temporellement cohérent tout en préservant l'identité et la composition. Utilisez-le pour convertir les débuts créés par FLUX ou vos propres références en mouvement. Associez-le à une direction de scène claire dans Text Prompt et gardez la même graine à travers les prises lorsque vous voulez des alternates comparables.
LTXVReferenceAudio (#13329)#
Injecte des indices de timing et de phonèmes à partir d'une voix ou d'une piste musicale pour que la parole et les gestes s'alignent naturellement. Fonctionne mieux avec des invites qui séparent [VISUAL], [SPEECH], et [SOUNDS]. Activez Enable Voice Reference pour passer entre le mouvement guidé par l'audio et uniquement par l'invite.
LTXVLatentUpsampler (#13306)#
Affiner les détails dans l'espace latent en utilisant l'upscaler spatial LTX-2.3 pour des textures et des bords plus nets. Activez-le lorsque les prises seront intercalées avec des gros plans ou des superpositions de texte; désactivez-le pour itérer plus rapidement lors du développement de look.
ColorMatch (#13478)#
Assortit la couleur entre votre image de départ et une sortie de référence pour maintenir la continuité entre les scènes. Utile lors de la composition de multiples actifs générés par FLUX ou de la mixité des configurations d'éclairage.
KSampler (#13361)#
Le générateur d'actifs FLUX qui crée des accessoires, des lieux, et des images de héros pour la phase vidéo. Verrouillez les graines pour garder un langage visuel cohérent à travers les séquences, puis ajustez le texte pour explorer de petits changements de style sans rompre la continuité.
Video Output - Shot Assembler (#5598)#
Rassemble les rendus de prises individuelles et produit une seule coupe. Utilisez-le pour réorganiser les scènes, recadrer de manière cohérente, et exporter le film en une seule passe.
Extras optionnels#
- Utilisez la structure d'invite montrée dans le conseil du graphique : description de la scène [VISUAL], mots exacts [SPEECH], style vocal et ambiance [SOUNDS]. Cela aide les encodeurs de texte et audio LTX à coopérer.
- Gardez l'identité des personnages stable en fournissant à la fois des références de visage et de corps et en activant le LTX-2.3 ID LoRA.
- Pour une itération rapide, désactivez l'upscaler et la référence vocale, raccourcissez la durée de la prise, et utilisez le bypass vidéo pour générer uniquement les images de départ.
- Sur les systèmes à faible VRAM, essayez la version GGUF de LTX-2.3 et évitez de superposer des LoRAs supplémentaires jusqu'aux passes finales. GGUF
- Dupliquez SHOT 01 pour de nouvelles scènes, variez les invites minimalement à travers les prises, et réutilisez les graines pour garder le ton et l'éclairage stables de coupe à coupe à travers l'ensemble de votre LTX 2.3 Movie Builder Workflow.
Remerciements#
Ce workflow implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement Mickmumpitz pour le LTX 2.3 Movie Builder Workflow Source pour leurs contributions et leur maintenance. Pour des détails autoritaires, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.
Ressources#
- Mickmumpitz/LTX 2.3 Movie Builder Workflow Source
- Docs / Notes de version : mickmumpitz.ai/posts/new-video-free-i-157336696
Note : L'utilisation des modèles, jeux de données, et code référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.


