logo
RunComfy
  • Models
  • ComfyUI
  • TrainerNew
  • API
  • Pricing
discord logo
ComfyUI>Workflows>LTX-2 First Last Frame | Générateur de vidéos à partir d'images clés

LTX-2 First Last Frame | Générateur de vidéos à partir d'images clés

Workflow Name: RunComfy/LTX-2-First-Last-Frame
Workflow ID: 0000...1334
Basé sur le modèle LTX-2, ce flux de travail de génération vidéo vous permet de créer des animations fluides et visuellement cohérentes avec un contrôle précis entre vos images de départ et de fin choisies. Il maintient intelligemment la cohérence temporelle tout en générant un son synchronisé pour aligner visuels et audio en douceur. Parfait pour les transitions cinématographiques, les plans narratifs et le design de mouvement créatif, il offre une itération rapide et un contrôle sur le timing et le flux de mouvement. Avec un traitement à faible latence, les concepteurs peuvent affiner chaque aspect de la scène vidéo rapidement et efficacement.

LTX-2 First Last Frame : génération vidéo contrôlée de bout en bout, synchronisée avec audio dans ComfyUI

LTX-2 First Last Frame est un flux de travail ComfyUI pour les créateurs qui veulent un mouvement cinématographique précis entre une image de départ et une image de fin définies tout en générant un audio et des visuels synchronisés en une seule passe. En se basant sur les images (et éventuellement une image intermédiaire guidante), le pipeline préserve l'identité, le cadrage et l'éclairage tout au long de la prise, puis dirige le mouvement pour atterrir exactement sur la dernière image. Il est conçu pour les moments narratifs, les transitions de titre ou de scène, les mouvements de caméra, et tout moment où la continuité temporelle et l'alignement audio sont importants.

Propulsé par le modèle en temps réel LTX-2, le flux de travail maintient une itération rapide tout en offrant un contrôle précis sur les invites, le comportement de la caméra via LoRAs, et la force des premières/dernières images. Le résultat est une séquence fluide et cohérente dont le timing, le look et le son suivent vos instructions de la première à la dernière image.

Note : Pour les types de machines inférieurs à 2x Large, veuillez utiliser le modèle "ltx-2-19b-dev-fp8.safetensors" !

Modèles clés dans le flux de travail Comfyui LTX-2 First Last Frame

  • LTX-2 19B (dev). Le modèle principal de génération vidéo qui produit des latents audio-vidéo conjoints à partir de texte et de contrôles de cadre ; prend en charge l'itération en temps réel et les LoRAs sensibles à la caméra. Voir le dépôt officiel et les poids : Lightricks/LTX-2 sur GitHub et Lightricks/LTX-2 sur Hugging Face.
  • Gemma 3 12B Instruct text encoder pour LTX-2. Fournit une compréhension linguistique robuste et adaptée aux instructions pour les invites visuelles et audio dans ce pipeline ; emballé pour ComfyUI comme un encodeur de texte compatible LTX. Référence des poids : Comfy-Org/ltx-2 split text encoders.
  • LTXV Audio VAE (24 kHz vocoder). Encode et décode les latents audio pour que la bande sonore soit générée en même temps que la vidéo et reste synchronisée avec l'action à l'écran. Voir le contexte de la famille de modèles dans Lightricks/LTX-2.
  • LTX-2 Spatial Upscaler x2. Un sur-échantillonneur latent pour des résultats haute résolution plus propres après la passe de base, utilisé pendant l'étape d'échantillonnage d'agrandissement. Les poids sont disponibles sous Lightricks/LTX-2.
  • Pack LoRA LTX-2 pour le contrôle de la caméra et le détail. LoRAs optionnels tels que Dolly In/Out/Left/Right, Jib Up/Down, Static, et un Image-Conditioning Detailer façonnent le mouvement de la caméra et le détail fin. Parcourez la collection officielle : Lightricks LTX-2 LoRAs.

Comment utiliser le flux de travail Comfyui LTX-2 First Last Frame

Ce flux de travail passe des entrées et des invites à un échantillon audio-vidéo de base, puis effectue une passe d'agrandissement guidée x2 avant de décoder et de muxer en MP4 avec audio. Il repose sur des contrôles de première/dernière image aux étapes de base et d'agrandissement, avec une image intermédiaire optionnelle pour stabiliser la trajectoire.

Modèle

Le groupe Modèle charge le point de contrôle LTX-2, l'encodeur de texte Gemma 3 12B Instruct, et le LTXV Audio VAE. Utilisez le panneau ckpt_name pour sélectionner entre les variantes standard et FP8 en fonction de votre GPU. L'encodeur de texte est fourni par LTXAVTextEncoderLoader et alimente à la fois les invites positives et négatives. Le VAE audio permet une génération audio-vidéo conjointe pour que le dialogue, les effets ou l'ambiance décrits dans l'invite émergent avec les visuels.

Invite

Écrivez la scène dans l'invite positive et listez les traits indésirables dans l'invite négative. Décrivez les actions au fil du temps, les spécificités visuelles clés, et les événements sonores dans l'ordre où ils doivent se produire. Le bloc LTXVConditioning applique votre invite avec le taux de trame choisi pour que le timing et le mouvement soient interprétés de manière cohérente. Traitez l'audio comme faisant partie de l'invite lorsque vous avez besoin de discours, d'effets ou d'ambiance.

Paramètres vidéo

Réglez la Largeur, la Hauteur, et le nombre total de Trames vidéo, puis choisissez la Longueur pour l'espacement de contrôle de première/dernière image si nécessaire. Le flux de travail garantit que les dimensions correspondent aux exigences du modèle et redimensionne les entrées de manière appropriée. Si vos images d'entrée sont plus grandes, le graphique lit leur taille pour initialiser la toile latente et redimensionne les trames fournies pour s'adapter. Choisissez un taux de trame qui correspond à votre livraison prévue.

Latent

Ce groupe construit un latent vidéo vide et un latent audio correspondant, puis les concatène pour que le modèle échantillonne l'audio et la vidéo ensemble. C'est là que le guidage de première/dernière image est d'abord injecté lors de la passe de base. Fournir une image intermédiaire est optionnel mais utile pour stabiliser l'identité ou la pose clé en milieu de prise. Le résultat est un seul latent AV prêt pour l'échantillonnage de base.

Échantillonneur de base

La passe de base utilise du bruit aléatoire, un planificateur, et le guide configuré pour résoudre votre invite en un latent AV cohérent. Le guide reçoit un conditionnement positif et négatif ainsi que tout modèle modifié par LoRA. Après l'échantillonnage, le latent est divisé de nouveau en vidéo et audio pour que la vidéo puisse être agrandie tandis que l'audio reste aligné. Cette étape définit le mouvement global, le rythme et le rythme audio que la passe d'agrandissement affinera.

Agrandissement

L'agrandisseur élève le latent à une résolution spatiale plus élevée avant une deuxième passe d'échantillonnage. Le contrôle de première/dernière image est réappliqué à cette résolution plus élevée pour verrouiller précisément les images d'ouverture et de fermeture. Vous pouvez également alimenter une image intermédiaire ici pour garder les caractéristiques stables tout au long de l'agrandissement. Le résultat est un latent AV plus net qui préserve le mouvement planifié.

Modèle

Ce groupe Modèle charge l'agrandisseur latent LTX-2 utilisé par le groupe d'agrandissement. Il prépare le modèle spatial x2 spécifique et l'expose au nœud d'agrandissement latent. Changez de modèle ici si vous maintenez plusieurs agrandisseurs. Laissez ce groupe intact si vous êtes satisfait du comportement par défaut x2.

Échantillonnage d'agrandissement (2x)

La deuxième passe effectue un échantillonnage guidé sur le latent agrandi en utilisant un échantillonneur séparé et un plan sigma. Un guide sensible aux cultures aligne le conditionnement à la nouvelle résolution pour que les détails restent cohérents. La sortie est de nouveau divisée en vidéo et audio pour le décodage. Cette passe affine principalement les bords, améliore les petits textes ou textures, et maintient la correspondance de première/dernière image.

LTX-2-19b-IC-LoRA-Detailer

Ce groupe applique un LoRA orienté détail adapté au cheminement d'image-conditionnement de LTX-2. Activez-le lorsque vous souhaitez plus de micro-détails ou des textures plus serrées après le conditionnement sur des images réelles. Gardez la force modérée pour éviter de submerger votre invite ou les contraintes de cadre. Si vos entrées sont déjà nettes et bien éclairées, vous pouvez contourner ce LoRA.

Contrôle de la caméra-Dolly-In

Utilisez ce LoRA lorsque la caméra doit se rapprocher du sujet au fil du temps. Il incline le modèle vers un mouvement vers l'avant tout en respectant les cibles de première/dernière. Associez-le à des indices textuels décrivant le mouvement pour un effet maximal. Réduisez la force si le mouvement dépasse votre cadrage prévu.

Contrôle de la caméra-Dolly-Out

Sélectionnez ceci lorsque le plan doit s'éloigner du sujet. Il aide à créer un parallaxe négatif et un contexte élargi au fur et à mesure que la séquence progresse. Gardez la dernière image alignée avec votre composition de sortie pour terminer le mouvement proprement. Combinez avec des invites audio atmosphériques pour des révélations cinématographiques.

Contrôle de la caméra-Dolly-Left

Applique un mouvement latéral vers la gauche qui se lit comme un dolly ou un truck. Bon pour les moments de conversation ou les révélations à travers un décor. Si les objets s'étalent ou dérivent, augmentez légèrement la force de première/dernière image ou ajoutez une image intermédiaire. Équilibrez avec de petites indications textuelles comme "mouvement lent vers la gauche" pour compléter le LoRA.

Contrôle de la caméra-Dolly-Right

Le miroir de Dolly-Left, cela incline le mouvement vers le côté droit. Il fonctionne bien pour suivre un personnage ou faire un panoramique vers un nouveau sujet. Gardez la force de LoRA modeste si vous demandez également un mouvement vers l'avant pour éviter les signaux conflictuels. Assurez-vous que la composition de la dernière image correspond à votre point final souhaité.

Contrôle de la caméra-Jib-Up

Crée une montée verticale, utile pour des révélations ascendantes ou des plans d'établissement. Combinez avec des invites peu profondes sur le changement de perspective et le déplacement de l'horizon pour plus de clarté. Lorsque le mouvement est fort, surveillez les plafonds ou l'exposition du ciel ; ajustez l'invite négative pour éviter les hautes lumières brûlées. Si nécessaire, ajoutez une image intermédiaire montrant un cadrage de mi-montée.

Contrôle de la caméra-Jib-Down

Produit une descente contrôlée, souvent utilisée pour se concentrer sur un détail ou un personnage. Il peut être associé à une ambiance audio plus calme pour l'accentuation. Assurez-vous que la dernière image contient l'objet ou le visage cible pour que le mouvement se résolve de manière décisive. Ajustez la force de LoRA si la descente semble trop rapide.

Contrôle de la caméra-Statique

Verrouille la caméra virtuelle en place lorsque vous souhaitez de l'action sans mouvement de caméra. Ceci est utile pour les dialogues ou les plans de produits où seul le sujet bouge. Combinez avec le contrôle de première/dernière image pour garder la composition parfaitement stable. Ajoutez un léger mouvement via l'invite textuelle plutôt qu'un LoRA de caméra.

Nœuds clés dans le flux de travail Comfyui LTX-2 First Last Frame

LTXVFirstLastFrameControl_TTP (#227)

Injecte des contraintes d'image de première et dernière dans le latent AV de base. Ajustez first_strength pour contrôler la rigueur avec laquelle la première image est respectée et last_strength pour déterminer la force avec laquelle la séquence atterrit sur l'image finale. Si le milieu du clip dérive, fournissez une image intermédiaire via LTXVMiddleFrame_TTP et gardez les forces modérées pour éviter de sur-contraindre le mouvement.

LTXVMiddleFrame_TTP (#181)

Insère éventuellement une image guide à une position choisie entre le début et la fin pour stabiliser l'identité ou la pose. Augmentez strength lorsque le sujet change trop en milieu de prise. Utilisez-le avec parcimonie ; les meilleurs résultats proviennent d'une seule référence intermédiaire bien choisie plutôt que de nombreuses contraintes concurrentes.

LTXVLatentUpsampler (#217)

Effectue l'agrandissement spatial x2 dans l'espace latent en utilisant l'agrandisseur spatial LTX-2. Utilisez cela avant la passe d'échantillonnage x2 pour que les détails haute résolution soient affinés par le modèle plutôt qu'étirés. Si la mémoire est limitée, gardez l'utilisation de LoRA minimale pendant cette étape.

LTXVFirstLastFrameControl_TTP (#223)

Réapplique le guidage de début/fin (et éventuellement intermédiaire) après l'agrandissement x2. Cela garantit que les images finales décodées correspondent précisément à vos références de première et dernière à la résolution de livraison. Si l'agrandissement introduit des micro-décalages, augmentez légèrement last_strength ici plutôt qu'à l'étape de base.

LTXVSpatioTemporalTiledVAEDecode (#230)

Décode le latent vidéo haute résolution en trames en utilisant le carrelage spatio-temporel. Ajustez les paramètres de carrelage et de chevauchement uniquement lorsque vous voyez des coutures ou un scintillement temporel ; un chevauchement plus large coûte plus de VRAM mais améliore la cohérence. Gardez last_frame_fix pour les cas extrêmes où la dernière image montre un léger décalage.

VHS_VideoCombine (#254)

Muxe les trames décodées et l'audio généré en un seul MP4. Réglez le format de sortie, pix_fmt, et crf pour votre cible de livraison, et choisissez un frame_rate cohérent avec le conditionnement. Activez la sauvegarde des métadonnées pour garder des enregistrements de reproductibilité avec chaque rendu.

Extras optionnels

  • Utilisez les poids FP8 de LTX-2 si votre GPU est limité ; repassez à la pleine précision pour la plus haute fidélité lorsque la VRAM le permet. Les poids sont dans Lightricks/LTX-2.
  • Les dimensions fonctionnent mieux lorsque la largeur et la hauteur sont de la forme 32n + 1 ; le nombre total de trames fonctionne mieux comme 8n + 1. Le flux de travail corrige automatiquement les valeurs valides les plus proches si nécessaire.
  • Décrivez les indices audio directement dans votre invite positive (dialogue, effets, ambiance). Le latent AV conjoint du modèle garde les lèvres, les actions et les sons alignés.
  • Commencez avec des forces de première/dernière modérées ; augmentez la force de la dernière pour clouer la pose finale, ou ajoutez une image intermédiaire pour stabiliser l'identité.
  • Appliquez un seul LoRA de caméra à la fois pour une intention claire. Parcourez les options officielles dans la collection Lightricks LTX-2 LoRA.

Remerciements

Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement @AIKSK pour la référence de flux de travail LTX-2 First Last Frame pour leurs contributions et leur maintenance. Pour des détails faisant autorité, veuillez vous référer à la documentation originale et aux dépôts liés ci-dessous.

Ressources

  • RunningHub/LTX-2 First Last Frame Workflow Reference
    • Docs / Notes de version : LTX-2 First Last Frame Workflow Reference from AIKSK

Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

Wan 2.2 | Leader Open-Source en Génération Vidéo

Disponible maintenant ! Meilleure précision + mouvement plus fluide.

Wan 2.2 FLF2V | Génération de Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.2 FLF2V.

Wan 2.2 + Lightx2v V2 | I2V & T2V Ultra Rapide

Configuration Dual Light LoRA, 4X plus rapide.

Wan 2.2 Lightning T2V I2V | 4 Étapes Ultra Rapide

Wan 2.2 maintenant 20x plus rapide ! T2V + I2V en 4 étapes.

Wan 2.1 FLF2V | Vidéo Premier-Dernier Cadre

Générez des vidéos fluides à partir d'un cadre de début et de fin en utilisant Wan 2.1 FLF2V.

Cosmos-Predict2 | Text2Image & Video2World

Rapide et réel ! NVIDIA Cosmos avec une vraie physique.

Personnages Cohérents & Réalistes

Personnages Cohérents & Réalistes

Créez des personnages cohérents et réalistes avec un contrôle précis des traits du visage, des poses et des compositions.

Wan 2.1 Fun | Génération Vidéo ControlNet

Générez des vidéos avec des passes visuelles de style ControlNet comme Profondeur, Canny, et OpenPose.

Suivez-nous
  • LinkedIn
  • Facebook
  • Instagram
  • Twitter
Support
  • Discord
  • Email
  • État du système
  • affilié
Ressources
  • ComfyUI en ligne gratuit
  • Guides ComfyUI
  • RunComfy API
  • Tutoriels ComfyUI
  • Nœuds ComfyUI
  • En savoir plus
Légal
  • Conditions d'utilisation
  • Politique de confidentialité
  • Politique relative aux cookies
RunComfy
Droits d'auteur 2026 RunComfy. Tous droits réservés.

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.