LTX 2.3 Prompt Relay : génération image-à-vidéo multi-battements dans ComfyUI#
LTX 2.3 Prompt Relay est un flux de travail de ComfyUI pour diriger l'image-à-vidéo avec un routage de prompts segmenté à travers plusieurs battements dans un clip. Il utilise PromptRelayEncode comme contrôleur sans entraînement, au moment de l'inférence, pour assigner différentes instructions textuelles à différentes durées, vous permettant de scénariser les mouvements de caméra et les actions par battement tout en préservant la continuité du sujet et des transitions fluides. Un assistant Qwen VLM peut rédiger automatiquement ou affiner les battements de l'histoire à partir d'une image de référence avant la génération.
Ce flux de travail ComfyUI LTX 2.3 Prompt Relay est idéal pour les courts métrages cinématographiques, les prises de vue de produits et les teasers narratifs où vous souhaitez un contrôle scène par scène sans ajustement fin. Il produit une vidéo synchronisée avec audio décodé et écrit un MP4 H.264 avec conservation des métadonnées.
Modèles clés dans le flux de travail ComfyUI LTX 2.3 Prompt Relay#
- Point de contrôle de base LTX-Video 2.3. La colonne vertébrale générative qui synthétise une vidéo temporellement cohérente à partir de texte et d'une image de référence optionnelle. Voir la construction communautaire et le contexte des poids sur Hugging Face pour les utilisateurs de ComfyUI. Kijai/LTX2.3_comfy
- LTX-Video 2.3 Video VAE et Audio VAE. Décodeurs qui transforment la vidéo latente et l'audio latent du modèle en trames RGB et en une forme d'onde pour le multiplexage, utilisés ici pour exporter un MP4. Kijai/LTX2.3_comfy
- Qwen VLM (Instruct). Un modèle vision-langage qui lit l'image de référence et rédige des lignes d'action multi-battements que le flux de travail utilise comme prompts locaux. Intégré via l'extension ComfyUI-QwenVL. 1038lab/ComfyUI-QwenVL
- LTX 2.3 LoRAs optionnels. Adaptateurs de style ou d'efficacité tels qu'un LoRA distillé et un LoRA d'amélioration nette sont pré-câblés pour un basculement facile afin de changer la texture et la netteté sans altérer vos prompts. Kijai/LTX2.3_comfy
Comment utiliser le flux de travail ComfyUI LTX 2.3 Prompt Relay#
Flux global#
Le flux de travail lit une seule image comme image d'ouverture, rassemble un prompt global plus des prompts locaux spécifiques aux battements, les encode avec Prompt Relay, échantillonne un latent audio-vidéo conjoint, puis décode et combine les trames et l'audio en un MP4. Les groupes sont organisés comme Modèles, Paramètre Vidéo d'Entrée, VLM, Conditionnement, Création Latente, Échantillonnage et Décodage.
Modèles#
Le point de contrôle de base LTX-Video 2.3 se charge en premier, puis deux LoRAs optionnels sont appliqués en séquence pour ajuster la netteté et l'efficacité. Le patching d'attention est activé pour améliorer la fidélité sous de longs prompts. Vous pouvez conserver les deux LoRAs, en désactiver un ou les contourner entièrement si vous préférez un look de base neutre.
Paramètre Vidéo d'Entrée#
Choisissez la largeur, la hauteur, le nombre total de secondes et les FPS pour le clip. Le flux de travail calcule automatiquement le nombre de trames comme produit des secondes et des FPS, en gardant les longueurs d'image et d'audio synchronisées. Réglez-les avant d'écrire des prompts pour savoir combien de battements s'adapteront confortablement.
VLM#
Chargez ou déposez une image de référence. L'image est prétraitée et envoyée à un Qwen VLM qui suit un modèle d'instruction court pour proposer quatre lignes de battement concises séparées par le caractère pipe "|". Vous pouvez revoir et éditer le texte généré dans le visualiseur à l'écran avant qu'il ne passe à l'étape suivante, ou ignorer le VLM et écrire vos propres lignes.
Conditionnement avec Prompt Relay#
PromptRelayEncode prend un prompt global pour le style et le cadre plus vos prompts locaux pour les actions par battement. Séparez les battements avec "|" dans les prompts locaux ; l'encodeur route chaque segment à sa durée et les mélange entre eux pour des transitions fluides. Le nœud produit un conditionnement de prompt et un modèle patché afin que l'échantillonneur suive fidèlement votre script de battement. Les références et l'utilisation sont fournies par le projet ComfyUI-PromptRelay. kijai/ComfyUI-PromptRelay
Création Latente#
Un latent vidéo vide est initialisé à votre résolution et longueur choisies. L'image de référence prétraitée est écrite dans la première trame de la chronologie pour ancrer l'identité, la pose et l'éclairage. Un latent audio vide avec une durée correspondante est créé afin que le décodage produise une forme d'onde prête à être multiplexée aux côtés des trames.
Échantillonnage#
Un planificateur crée le calendrier de bruit, un visualiseur le prévisualise, et l'échantillonneur fonctionne sur le latent audio-vidéo concaténé en utilisant le modèle LTX 2.3 patché et le conditionnement Prompt Relay. Vous pouvez changer le type d'échantillonneur si vous préférez un compromis différent entre netteté et stabilité. Le résultat est un seul latent qui encode déjà à la fois la vidéo et l'audio.
Décodage et exportation#
Le latent est divisé en branches vidéo et audio, puis décodé par le LTX 2.3 Video VAE et Audio VAE. VideoHelperSuite combine les trames et la forme d'onde en un MP4 H.264 avec un format de pixel standard pour une large compatibilité des lecteurs et enregistre les métadonnées pour la reproductibilité. ComfyUI-VideoHelperSuite
Nœuds clés dans le flux de travail ComfyUI LTX 2.3 Prompt Relay#
PromptRelayEncode (#605)#
Le contrôleur principal qui applique le routage de prompts segmenté au moment de l'inférence. Utilisez global_prompt pour le style, le cadre, le sujet, et le langage d'objectif qui doivent persister, et utilisez local_prompts pour les actions spécifiques aux battements séparées par |. Gardez les battements concis et ciblés ; 3 à 6 battements se lisent généralement clairement. Si vous souhaitez synchroniser manuellement les transitions, gardez les battements adjacents sémantiquement compatibles pour que le mélange soit naturel. Référence : kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
Un assistant VLM qui lit l'image de référence et développe votre idée en lignes de battement à l'aide d'un prompt d'instruction court. Modifiez le texte de l'instruction pour ajuster le ton ou le vocabulaire de la caméra, puis examinez les battements générés dans le visualiseur. La sortie alimente directement local_prompts, et vous pouvez le remplacer par votre propre écriture à tout moment. Référence : 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
Ensemence la première trame de la vidéo latente avec votre image d'entrée, favorisant la stabilité de l'identité et de l'éclairage à travers les battements. Pour un pur texte-à-vidéo, contournez ce nœud et commencez à partir d'un latent vidéo vide. Pour une adhérence plus forte à la trame de départ, gardez votre prompt global cohérent avec le contenu de l'image.
BasicScheduler (#514) et VisualizeSigmasKJ (#358)#
Contrôlez et prévisualisez le calendrier de débruitage utilisé par l'échantillonneur. Utilisez le visualiseur pour vérifier la forme de la courbe lors du changement d'échantillonneurs ou de comptes d'étapes. Un calendrier plus fluide donne souvent un mouvement plus stable, tandis que des calendriers plus agressifs augmentent les détails.
VHS_VideoCombine (#604)#
Multiplexe les trames décodées et l'audio en un seul MP4 avec un format de pixel largement compatible. Assurez-vous que son taux de trame correspond à votre groupe Paramètre Vidéo d'Entrée pour une synchronisation précise. Déconnectez l'entrée audio ici si vous souhaitez une exportation silencieuse. Référence : ComfyUI-VideoHelperSuite
Extras optionnels#
- Conseils d'écriture de battement : écrivez au présent, gardez chaque battement à une action, ajoutez un court dialogue uniquement lorsqu'il fait avancer le battement, et commencez par un verbe de caméra tel que "zoom avant," "panoramique à droite," ou "dérive à main levée."
- Utilisez le prompt global pour la direction artistique et les optiques (éclairage, lentille, ambiance) ; utilisez des prompts locaux pour les mouvements, les gestes et les changements de cadrage.
- Pour une itération plus rapide, gardez une résolution modeste lors de la rédaction des battements, puis augmentez-la pour le rendu final.
- Si les LoRAs accentuent trop ou modifient la couleur, réduisez leurs poids ou désactivez-en un pour retrouver la neutralité.
Remerciements#
Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement gordonchen19 pour Prompt-Relay, kijai pour ComfyUI-PromptRelay, Kijai pour LTX2.3_comfy (contexte du modèle ComfyUI), 1038lab pour ComfyUI-QwenVL, et l'auteur du post Patreon (Innovate Futures @ Benji) pour la source du flux de travail, pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.
Ressources#
- Patreon/Source du flux de travail
- Docs / Notes de version : post @Benji
- gordonchen19/Prompt-Relay
- GitHub : gordonchen19/Prompt-Relay
- Docs / Notes de version : site
- kijai/ComfyUI-PromptRelay
- GitHub : kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face : Kijai/LTX2.3_comfy
- Docs / Notes de version : discussion #51
- 1038lab/ComfyUI-QwenVL
- GitHub : 1038lab/ComfyUI-QwenVL
Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

