LTX 2.3 Prompt Relay dans ComfyUI | Flux de travail Image-à-Vidéo

Flux de travail ComfyUI LTX 2.3 Prompt Relay

LTX 2.3 Prompt Relay in ComfyUI | Image-to-Video Workflow

Vous voulez exécuter ce workflow ?

Workflows entièrement opérationnels
Aucun nœud ou modèle manquant
Aucune configuration manuelle requise
Propose des visuels époustouflants

Exemples ComfyUI LTX 2.3 Prompt Relay

LTX 2.3 Prompt Relay : génération image-à-vidéo multi-battements dans ComfyUI#

LTX 2.3 Prompt Relay est un flux de travail de ComfyUI pour diriger l'image-à-vidéo avec un routage de prompts segmenté à travers plusieurs battements dans un clip. Il utilise PromptRelayEncode comme contrôleur sans entraînement, au moment de l'inférence, pour assigner différentes instructions textuelles à différentes durées, vous permettant de scénariser les mouvements de caméra et les actions par battement tout en préservant la continuité du sujet et des transitions fluides. Un assistant Qwen VLM peut rédiger automatiquement ou affiner les battements de l'histoire à partir d'une image de référence avant la génération.

Ce flux de travail ComfyUI LTX 2.3 Prompt Relay est idéal pour les courts métrages cinématographiques, les prises de vue de produits et les teasers narratifs où vous souhaitez un contrôle scène par scène sans ajustement fin. Il produit une vidéo synchronisée avec audio décodé et écrit un MP4 H.264 avec conservation des métadonnées.

Modèles clés dans le flux de travail ComfyUI LTX 2.3 Prompt Relay#

Point de contrôle de base LTX-Video 2.3. La colonne vertébrale générative qui synthétise une vidéo temporellement cohérente à partir de texte et d'une image de référence optionnelle. Voir la construction communautaire et le contexte des poids sur Hugging Face pour les utilisateurs de ComfyUI. Kijai/LTX2.3_comfy
LTX-Video 2.3 Video VAE et Audio VAE. Décodeurs qui transforment la vidéo latente et l'audio latent du modèle en trames RGB et en une forme d'onde pour le multiplexage, utilisés ici pour exporter un MP4. Kijai/LTX2.3_comfy
Qwen VLM (Instruct). Un modèle vision-langage qui lit l'image de référence et rédige des lignes d'action multi-battements que le flux de travail utilise comme prompts locaux. Intégré via l'extension ComfyUI-QwenVL. 1038lab/ComfyUI-QwenVL
LTX 2.3 LoRAs optionnels. Adaptateurs de style ou d'efficacité tels qu'un LoRA distillé et un LoRA d'amélioration nette sont pré-câblés pour un basculement facile afin de changer la texture et la netteté sans altérer vos prompts. Kijai/LTX2.3_comfy

Comment utiliser le flux de travail ComfyUI LTX 2.3 Prompt Relay#

Flux global#

Le flux de travail lit une seule image comme image d'ouverture, rassemble un prompt global plus des prompts locaux spécifiques aux battements, les encode avec Prompt Relay, échantillonne un latent audio-vidéo conjoint, puis décode et combine les trames et l'audio en un MP4. Les groupes sont organisés comme Modèles, Paramètre Vidéo d'Entrée, VLM, Conditionnement, Création Latente, Échantillonnage et Décodage.

Modèles#

Le point de contrôle de base LTX-Video 2.3 se charge en premier, puis deux LoRAs optionnels sont appliqués en séquence pour ajuster la netteté et l'efficacité. Le patching d'attention est activé pour améliorer la fidélité sous de longs prompts. Vous pouvez conserver les deux LoRAs, en désactiver un ou les contourner entièrement si vous préférez un look de base neutre.

Paramètre Vidéo d'Entrée#

Choisissez la largeur, la hauteur, le nombre total de secondes et les FPS pour le clip. Le flux de travail calcule automatiquement le nombre de trames comme produit des secondes et des FPS, en gardant les longueurs d'image et d'audio synchronisées. Réglez-les avant d'écrire des prompts pour savoir combien de battements s'adapteront confortablement.

VLM#

Chargez ou déposez une image de référence. L'image est prétraitée et envoyée à un Qwen VLM qui suit un modèle d'instruction court pour proposer quatre lignes de battement concises séparées par le caractère pipe "|". Vous pouvez revoir et éditer le texte généré dans le visualiseur à l'écran avant qu'il ne passe à l'étape suivante, ou ignorer le VLM et écrire vos propres lignes.

Conditionnement avec Prompt Relay#

PromptRelayEncode prend un prompt global pour le style et le cadre plus vos prompts locaux pour les actions par battement. Séparez les battements avec "|" dans les prompts locaux ; l'encodeur route chaque segment à sa durée et les mélange entre eux pour des transitions fluides. Le nœud produit un conditionnement de prompt et un modèle patché afin que l'échantillonneur suive fidèlement votre script de battement. Les références et l'utilisation sont fournies par le projet ComfyUI-PromptRelay. kijai/ComfyUI-PromptRelay

Création Latente#

Un latent vidéo vide est initialisé à votre résolution et longueur choisies. L'image de référence prétraitée est écrite dans la première trame de la chronologie pour ancrer l'identité, la pose et l'éclairage. Un latent audio vide avec une durée correspondante est créé afin que le décodage produise une forme d'onde prête à être multiplexée aux côtés des trames.

Échantillonnage#

Un planificateur crée le calendrier de bruit, un visualiseur le prévisualise, et l'échantillonneur fonctionne sur le latent audio-vidéo concaténé en utilisant le modèle LTX 2.3 patché et le conditionnement Prompt Relay. Vous pouvez changer le type d'échantillonneur si vous préférez un compromis différent entre netteté et stabilité. Le résultat est un seul latent qui encode déjà à la fois la vidéo et l'audio.

Décodage et exportation#

Le latent est divisé en branches vidéo et audio, puis décodé par le LTX 2.3 Video VAE et Audio VAE. VideoHelperSuite combine les trames et la forme d'onde en un MP4 H.264 avec un format de pixel standard pour une large compatibilité des lecteurs et enregistre les métadonnées pour la reproductibilité. ComfyUI-VideoHelperSuite

Nœuds clés dans le flux de travail ComfyUI LTX 2.3 Prompt Relay#

`PromptRelayEncode` (#605)#

Le contrôleur principal qui applique le routage de prompts segmenté au moment de l'inférence. Utilisez global_prompt pour le style, le cadre, le sujet, et le langage d'objectif qui doivent persister, et utilisez local_prompts pour les actions spécifiques aux battements séparées par |. Gardez les battements concis et ciblés ; 3 à 6 battements se lisent généralement clairement. Si vous souhaitez synchroniser manuellement les transitions, gardez les battements adjacents sémantiquement compatibles pour que le mélange soit naturel. Référence : kijai/ComfyUI-PromptRelay

`AILab_QwenVL_Advanced` (#610)#

Un assistant VLM qui lit l'image de référence et développe votre idée en lignes de battement à l'aide d'un prompt d'instruction court. Modifiez le texte de l'instruction pour ajuster le ton ou le vocabulaire de la caméra, puis examinez les battements générés dans le visualiseur. La sortie alimente directement local_prompts, et vous pouvez le remplacer par votre propre écriture à tout moment. Référence : 1038lab/ComfyUI-QwenVL

`LTXVImgToVideoInplaceKJ` (#582)#

Ensemence la première trame de la vidéo latente avec votre image d'entrée, favorisant la stabilité de l'identité et de l'éclairage à travers les battements. Pour un pur texte-à-vidéo, contournez ce nœud et commencez à partir d'un latent vidéo vide. Pour une adhérence plus forte à la trame de départ, gardez votre prompt global cohérent avec le contenu de l'image.

`BasicScheduler` (#514) et `VisualizeSigmasKJ` (#358)#

Contrôlez et prévisualisez le calendrier de débruitage utilisé par l'échantillonneur. Utilisez le visualiseur pour vérifier la forme de la courbe lors du changement d'échantillonneurs ou de comptes d'étapes. Un calendrier plus fluide donne souvent un mouvement plus stable, tandis que des calendriers plus agressifs augmentent les détails.

`VHS_VideoCombine` (#604)#

Multiplexe les trames décodées et l'audio en un seul MP4 avec un format de pixel largement compatible. Assurez-vous que son taux de trame correspond à votre groupe Paramètre Vidéo d'Entrée pour une synchronisation précise. Déconnectez l'entrée audio ici si vous souhaitez une exportation silencieuse. Référence : ComfyUI-VideoHelperSuite

Extras optionnels#

Conseils d'écriture de battement : écrivez au présent, gardez chaque battement à une action, ajoutez un court dialogue uniquement lorsqu'il fait avancer le battement, et commencez par un verbe de caméra tel que "zoom avant," "panoramique à droite," ou "dérive à main levée."
Utilisez le prompt global pour la direction artistique et les optiques (éclairage, lentille, ambiance) ; utilisez des prompts locaux pour les mouvements, les gestes et les changements de cadrage.
Pour une itération plus rapide, gardez une résolution modeste lors de la rédaction des battements, puis augmentez-la pour le rendu final.
Si les LoRAs accentuent trop ou modifient la couleur, réduisez leurs poids ou désactivez-en un pour retrouver la neutralité.

Remerciements#

Ce flux de travail implémente et s'appuie sur les travaux et ressources suivants. Nous remercions chaleureusement gordonchen19 pour Prompt-Relay, kijai pour ComfyUI-PromptRelay, Kijai pour LTX2.3_comfy (contexte du modèle ComfyUI), 1038lab pour ComfyUI-QwenVL, et l'auteur du post Patreon (Innovate Futures @ Benji) pour la source du flux de travail, pour leurs contributions et leur maintenance. Pour des détails autorisés, veuillez vous référer à la documentation et aux dépôts originaux liés ci-dessous.

Ressources#

Patreon/Source du flux de travail
- Docs / Notes de version : post @Benji
gordonchen19/Prompt-Relay
- GitHub : gordonchen19/Prompt-Relay
- Docs / Notes de version : site
kijai/ComfyUI-PromptRelay
- GitHub : kijai/ComfyUI-PromptRelay
Kijai/LTX2.3_comfy
- Hugging Face : Kijai/LTX2.3_comfy
- Docs / Notes de version : discussion #51
1038lab/ComfyUI-QwenVL
- GitHub : 1038lab/ComfyUI-QwenVL

Note : L'utilisation des modèles, ensembles de données et codes référencés est soumise aux licences et conditions respectives fournies par leurs auteurs et mainteneurs.

Want More ComfyUI Workflows?

AnimateDiff + Batch Prompt Schedule | Texte à Vidéo

Utilisez Prompts Travel avec Animatediff pour un contrôle précis des images spécifiques dans l'animation.

AnimateDiff + Planification par lots de prompts | Texte vers vidéo

La planification par lots de prompts avec AnimateDiff offre un contrôle précis sur la narration et les visuels dans la création d'animations.

LTX 2.3 First Last Frame | Générateur de Vidéo Sans Soudure

Transforme les keyframes en transitions vidéo ultra-fluides et réalistes rapidement.

Wan2.2 Fun Inp | Générateur Vidéo Cinématique

De 2 images à des vidéos époustouflantes avec des transitions fluides et contrôlables.

CogVideoX-5B | Modèle Avancé de Texte en Vidéo

CogVideoX-5B : Modèle avancé de texte en vidéo pour la génération de vidéos de haute qualité.

LivePortrait | Animer des Portraits | Img2Vid

Animez des portraits avec des expressions faciales et des mouvements en utilisant une seule image et une vidéo de référence.

Stable Diffusion 3.5

Stable Diffusion 3.5 (SD3.5) pour une génération d'images de haute qualité et diverse.

Modèle CHORD | Générateur de textures PBR IA

Transforme rapidement les images en véritables cartes de texture PBR.

Support

Ressources

Légal

RunComfy

RunComfy est la première ComfyUI plateforme, offrant des ComfyUI en ligne environnement et services, ainsi que des workflows ComfyUI proposant des visuels époustouflants. RunComfy propose également AI Models, permettant aux artistes d'utiliser les derniers outils d'IA pour créer des œuvres d'art incroyables.

LTX 2.3 Prompt Relay | Créateur de Vidéos Contrôlées par Scène