LTX 2.3 Prompt Relay: generazione di immagini multiple in video in ComfyUI#
LTX 2.3 Prompt Relay è un flusso di lavoro ComfyUI per dirigere il passaggio da immagine a video con instradamento segmentato dei prompt su più battiti in un clip. Utilizza PromptRelayEncode come controller senza bisogno di addestramento, al momento dell'inferenza, per assegnare istruzioni di testo diverse a diversi intervalli di tempo, così puoi sceneggiare movimenti di camera e azioni per ogni battito mantenendo la continuità del soggetto e transizioni fluide. Un assistente Qwen VLM può redigere automaticamente o perfezionare i battiti della storia da un'immagine di riferimento prima della generazione.
Questo flusso di lavoro ComfyUI LTX 2.3 Prompt Relay è ideale per cortometraggi cinematografici, scatti di prodotto e teaser narrativi dove vuoi il controllo scena per scena senza ulteriore messa a punto. Produce un video sincronizzato con audio decodificato e scrive un MP4 H.264 con metadati preservati.
Modelli chiave nel flusso di lavoro Comfyui LTX 2.3 Prompt Relay#
- LTX‑Video 2.3 checkpoint base. Lo scheletro generativo che sintetizza video temporalmente coerenti dal testo e un eventuale frame di riferimento. Vedi la build della comunità e il contesto dei pesi su Hugging Face per gli utenti di ComfyUI. Kijai/LTX2.3_comfy
- LTX‑Video 2.3 Video VAE e Audio VAE. Decoder che trasformano il video latente del modello e l'audio latente in frame RGB e una forma d'onda per muxing, usati qui per esportare un MP4. Kijai/LTX2.3_comfy
- Qwen VLM (Instruct). Un modello di visione-linguaggio che legge l'immagine di riferimento e redige linee d'azione multi-battito che il flusso di lavoro utilizza come prompt locali. Integrato tramite l'estensione ComfyUI-QwenVL. 1038lab/ComfyUI-QwenVL
- Opzionali LTX 2.3 LoRAs. Adattatori di stile o efficienza come un LoRA distillato e un LoRA per migliorare la nitidezza sono pre-cablati per un facile commutazione per cambiare texture e nitidezza senza alterare i tuoi prompt. Kijai/LTX2.3_comfy
Come usare il flusso di lavoro Comfyui LTX 2.3 Prompt Relay#
Flusso generale#
Il flusso di lavoro legge un'immagine singola come frame di apertura, raccoglie un prompt globale più prompt locali specifici per battiti, li codifica con Prompt Relay, campiona un audio-video latente congiunto, quindi decodifica e combina frame e audio in un MP4. I gruppi sono organizzati come Modelli, Impostazione Video di Input, VLM, Condizionamento, Creazione Latente, Campionamento e Decodifica.
Modelli#
Il checkpoint base LTX‑Video 2.3 viene caricato per primo, quindi due LoRAs opzionali vengono applicati in sequenza per regolare la nitidezza e l'efficienza. L'attenzione patching è abilitata per migliorare la fedeltà sotto lunghi prompt. Puoi mantenere entrambi i LoRAs, disabilitarne uno o ignorarli completamente se preferisci un aspetto neutro.
Impostazione Video di Input#
Scegli larghezza, altezza, secondi totali e FPS per il clip. Il flusso di lavoro calcola automaticamente il conteggio dei frame come prodotto di secondi e FPS, mantenendo le lunghezze di immagine e audio sincronizzate. Imposta questi parametri prima di scrivere i prompt così saprai quanti battiti si adatteranno comodamente.
VLM#
Carica o trascina un'immagine di riferimento. L'immagine viene preprocessata e inviata a un Qwen VLM che segue un breve modello di istruzioni per proporre quattro linee di battiti concise separate dal carattere pipe "|". Puoi rivedere e modificare il testo generato nel visualizzatore su schermo prima che proceda, o saltare il VLM e scrivere le tue linee.
Condizionamento con Prompt Relay#
PromptRelayEncode prende un prompt globale per stile e impostazione più i tuoi prompt locali per azioni per battito. Separa i battiti con "|" nei prompt locali; l'encoder instrada ogni segmento al suo intervallo di tempo e li mescola tra loro per passaggi fluidi. Il nodo emette il condizionamento del prompt e un modello patchato così il campionatore segue fedelmente il tuo script di battiti. Riferimento e utilizzo sono forniti dal progetto ComfyUI-PromptRelay. kijai/ComfyUI-PromptRelay
Creazione Latente#
Un video latente vuoto viene inizializzato alla risoluzione e lunghezza scelta. L'immagine di riferimento preprocessata viene scritta nel primo frame della timeline per ancorare identità, posa e illuminazione. Un audio latente vuoto con durata corrispondente viene creato così la decodifica produce una forma d'onda pronta per il muxing accanto ai frame.
Campionamento#
Un programmatore crea il programma del rumore, un visualizzatore lo anteprima, e il campionatore funziona sul latente audio-video concatenato usando il modello LTX 2.3 patchato e il condizionamento Prompt Relay. Puoi cambiare il tipo di campionatore se preferisci un compromesso diverso tra nitidezza e stabilità. Il risultato è un singolo latente che già codifica sia video che audio.
Decodifica ed esportazione#
Il latente viene diviso in rami video e audio, quindi decodificato dal LTX 2.3 Video VAE e Audio VAE. VideoHelperSuite combina i frame e la forma d'onda in un MP4 H.264 con un formato pixel standard per un'ampia compatibilità del lettore e salva i metadati per la riproducibilità. ComfyUI-VideoHelperSuite
Nodi chiave nel flusso di lavoro Comfyui LTX 2.3 Prompt Relay#
PromptRelayEncode (#605)#
Il controller principale che applica l'instradamento segmentato dei prompt al momento dell'inferenza. Usa global_prompt per stile, impostazione, soggetto e linguaggio dell'obiettivo che dovrebbero persistere, e usa local_prompts per azioni specifiche per battito separate da |. Mantieni i battiti concisi e focalizzati; 3 a 6 battiti di solito vengono letti chiaramente. Se vuoi temporizzare manualmente le transizioni, mantieni i battiti adiacenti semanticamente compatibili così la fusione è naturale. Riferimento: kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
Un assistente VLM che legge l'immagine di riferimento ed espande la tua idea in linee di battito usando un breve prompt di istruzioni. Modifica il testo delle istruzioni per indirizzare il tono o il vocabolario della camera, quindi rivedi i battiti generati nel visualizzatore. L'output alimenta direttamente local_prompts, e puoi sovrascriverlo con la tua scrittura in qualsiasi momento. Riferimento: 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
Semina il primo frame del video latente con la tua immagine di input, promuovendo stabilità di identità e illuminazione attraverso i battiti. Per puro testo-a-video, bypassa questo nodo e inizia da un video latente vuoto. Per una maggiore aderenza al frame seme, mantieni il tuo prompt globale coerente con il contenuto dell'immagine.
BasicScheduler (#514) e VisualizeSigmasKJ (#358)#
Controlla e visualizza in anteprima il programma di denoising utilizzato dal campionatore. Usa il visualizzatore per controllare la forma della curva quando si cambiano campionatori o conteggi di passi. Un programma più fluido spesso produce un movimento più stabile, mentre programmi più aggressivi spingono il dettaglio.
VHS_VideoCombine (#604)#
Muxa frame decodificati e audio in un singolo MP4 con un formato pixel ampiamente compatibile. Assicurati che il suo frame rate corrisponda al tuo gruppo di Impostazione Video di Input per una sincronizzazione accurata. Disconnetti l'input audio qui se vuoi un'esportazione silenziosa. Riferimento: ComfyUI-VideoHelperSuite
Extra opzionali#
- Suggerimenti per la scrittura dei battiti: scrivi al presente, mantieni ogni battito a una sola azione, aggiungi dialoghi brevi solo quando avanzano il battito, e inizia con un verbo della camera come "inquadra," "panoramica a destra," o "drift a mano libera."
- Usa il prompt globale per la direzione artistica e ottica (illuminazione, obiettivo, atmosfera); usa i prompt locali per movimento, gesti e cambiamenti di inquadratura.
- Per iterazioni più rapide, mantieni la risoluzione modesta mentre sviluppi i battiti, quindi aumentala per il rendering finale.
- Se i LoRAs sovraffilano o spostano il colore, abbassa i loro pesi o disabilitane uno per recuperare la neutralità.
Riconoscimenti#
Questo flusso di lavoro implementa e si basa sui seguenti lavori e risorse. Ringraziamo sinceramente gordonchen19 per Prompt-Relay, kijai per ComfyUI-PromptRelay, Kijai per LTX2.3_comfy (contesto modello ComfyUI), 1038lab per ComfyUI-QwenVL, e l'autore del post su Patreon (Innovate Futures @ Benji) per la fonte del flusso di lavoro, per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse#
- Patreon/Fonte del flusso di lavoro
- Documenti / Note di rilascio: post @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Documenti / Note di rilascio: sito
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Documenti / Note di rilascio: discussione #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
Nota: L'uso dei modelli, dataset e codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

