Workflow video di identità multi-soggetto LTX 2.3 MSR per ComfyUI#
Questo workflow trasforma diversi riferimenti di personaggi o oggetti in un singolo video coerente e pronto per la storia utilizzando LTX 2.3 MSR. Preserva l'identità attraverso soggetti multipli sfruttando il modello audio-visivo LTX-2.3 per il movimento, la cinematografia e il suono sincronizzato. I creatori possono combinare fino a quattro immagini di soggetti più uno sfondo, quindi guidare la scena con prompt per dialoghi, scatti di gruppo e sequenze dinamiche di lifestyle.
Costruito per narratori, pubblicitari e creatori sociali, il grafico assembla i riferimenti in una guida MSR, inietta l'identità tramite un passaggio LoRA condizionato dall'immagine e campiona un latente audio-visivo che decodifica in fotogrammi e audio opzionale. LTX 2.3 MSR è l'ancora per la fedeltà dell'identità; il resto della pipeline gestisce la composizione, la guida del movimento e l'esportazione.
Modelli chiave nel workflow LTX 2.3 MSR di ComfyUI#
- LTX-2.3 22B distilled (1.1) di Lightricks. Il modello base audio-visivo che genera movimento, visivi e audio sincronizzato. I pesi sono pubblicati su Hugging Face sotto LTX-2.3. Lightricks/LTX-2.3
- Gemma 3 12B Instruct text encoder (fp4 mixed). Utilizzato per la codifica dei prompt nello stack LTX per tradurre il testo in segnali di condizionamento per la generazione. Confezionato con le risorse LTX per ComfyUI. Comfy-Org/ltx-2
- LTX 2.3 MSR LoRA (Licon MSR V1). Un LoRA di Riferimento Multi-Soggetto specializzato per LTX-2.3 che blocca più identità contemporaneamente, stabilizzando volti, abiti e caratteristiche degli oggetti in tutto il clip. liconstudio/ComfyUI-Licon-MSR
- LTX-2 Audio VAE. Fornisce lo spazio audio latente e la decodifica utilizzati quando si genera o si allega suono sincronizzato con le risorse LTX-2.x. Comfy-Org/ltx-2
Come utilizzare il workflow LTX 2.3 MSR di ComfyUI#
Questo grafico ha tre fasi: costruire una guida MSR dai riferimenti, condizionare il latente video con guida multi-immagine e prompt, quindi campionare e decodificare in fotogrammi e audio.
- Comfig
- Imposta la tua tela
width,height, totaleframes, efpsnei nodi di configurazione. Questi alimentano i latenti video e audio vuoti e la fase di esportazione, mantenendo il tempo coerente dal condizionamento fino al rendering finale. - Scegli l'aspetto e la durata che si adattano alla tua storia. Un numero maggiore di fotogrammi aumenta la continuità del movimento ma anche VRAM e runtime.
- Imposta la tua tela
- Caricatori di riferimento
- Carica fino a quattro immagini di soggetti (
img1,img2,img3,img4) e uno sfondo (bg). Questi si mappano arefimg1..4erefbgper consentirti di scambiare rapidamente le fonti senza rifare i collegamenti. - Usa immagini chiare e ben illuminate con il soggetto centrato e non ostruito. Per abiti o oggetti di scena che desideri conservare, assicurati che siano visibili in almeno un riferimento.
- Carica fino a quattro immagini di soggetti (
- Compositore MSR
LiconMSR(#28) assembla i riferimenti dei soggetti e lo sfondo in un'unica uscita immagine MSR. Questo diventa il progetto di identità visiva per LTX 2.3 MSR, allineando le caratteristiche facciali, l'abbigliamento e i dettagli degli oggetti prima del campionamento.- Un piccolo
VHS_VideoCombine(#66) crea un'anteprima rapida a bassa FPS dall'uscita MSR così puoi controllare la composizione prima di eseguire il rendering completo.
- Condizionamento multi-guida
LTXVAddGuideMulti(#108) ingerisce fino a cinque immagini (i tuoi quattro soggetti più lo sfondo) insieme ai prompt positivi e negativi per produrre un latente video iniziale con guida spaziale e di apparenza.- Il testo del prompt positivo descrive la scena, la camera e l'atmosfera; il testo negativo evita artefatti e look fuori stile.
LTXVConditioning(#7) collega il tuofpsin modo che il tempo del movimento corrisponda all'esportatore.
- Controllo dell'identità LoRA
- Il LTX 2.3 MSR LoRA è caricato nel modello, e
LTXAddVideoICLoRAGuide(#9) applica un passaggio LoRA condizionato dall'immagine utilizzando l'immagine MSR. Questo rafforza l'identità attraverso i fotogrammi senza congelare il movimento. - Usa questa fase per bilanciare la forza dell'identità con la libertà per un movimento e un'espressione naturali.
- Il LTX 2.3 MSR LoRA è caricato nel modello, e
- Campionamento
- Lo stack di campionamento utilizza
CFGGuider(#37),KSamplerSelect(#13),ManualSigmas(#27), eRandomNoise(#15) alimentandoSamplerCustomAdvanced(#16). Il risultato è un latente audio-visivo congiunto che riflette i tuoi riferimenti, i prompt e i vincoli MSR. - Se hai bisogno di nuove variazioni, cambia il seme del rumore o il campionatore mantenendo fissi i riferimenti e le impostazioni MSR per la coerenza.
- Lo stack di campionamento utilizza
- Guida al ritaglio e decodifica
LTXVCropGuides(#17) regola il latente video alla dimensione del fotogramma target, evitando tagli indesiderati. I latenti video e audio sono quindi separati daLTXVSeparateAVLatent(#24).VAEDecode(#38) converte i latenti video in fotogrammi;LTXVAudioVAEDecode(#25) ricostruisce l'audio.
- Esportazione
VHS_VideoCombine(#96) assembla fotogrammi e audio opzionale in H.264 MP4 al tuofpsscelto, utilizzando il tuofilename_prefix. Questo è il video finale prodotto dal workflow LTX 2.3 MSR.
Nodi chiave nel workflow LTX 2.3 MSR di ComfyUI#
LiconMSR (#28)#
Assembla 1–4 riferimenti di soggetti più uno sfondo in una singola guida MSR. Imposta width e height per adattarsi alla tua tela target in modo che la guida composta e i fotogrammi finali siano allineati. Se noti una deriva dell'identità, rivedi i riferimenti di input o aumenta quanto prominente appaiono i soggetti chiave nelle loro immagini di origine.
LTXVAddGuideMulti (#108)#
Combina più immagini di guida con i tuoi prompt per formare il latente video iniziale. Usalo per dare priorità a quali riferimenti dominano la scena favorendo leggermente i soggetti eroi. Mantieni attiva la guida dello sfondo per ambienti stabili e meno salti di scena.
LTXAddVideoICLoRAGuide (#9)#
Inietta la LoRA MSR condizionata dall'immagine utilizzando l'immagine MSR composta. Aumenta strength per rafforzare la conservazione dell'identità per volti, abiti o oggetti di scena; riducilo se il movimento sembra troppo limitato. Le scelte di ritaglio dovrebbero riflettere dove i soggetti appaiono più spesso nel fotogramma.
CFGGuider (#37)#
Controlla quanto fortemente il campionatore segue i tuoi prompt. Un cfg più alto migliora l'aderenza all'intento testuale ma può ridurre la varietà; valori moderati mantengono un aspetto naturale rispettando la guida MSR.
SamplerCustomAdvanced (#16)#
Esegue il processo di denoising utilizzando il campionatore, i sigmas e il seme del rumore scelti. I campionatori in stile Euler o DPM funzionano bene con LTX-2.3; esplora i semi per alternative mantenendo gli stessi riferimenti per mantenere l'identità.
VHS_VideoCombine (#96)#
Costruisce l'MP4 finale con audio opzionale. Abbina frame_rate alla fase di condizionamento e imposta un chiaro filename_prefix per la versione. Usa l'anteprima di questo nodo per rivedere il ritmo e la coerenza dell'identità prima di condividere.
Extra opzionali#
- Prepara i riferimenti con angoli neutri, frontali e minima occlusione; aggiungi un secondo angolo per acconciature o accessori complessi.
- Mantieni i riferimenti di abbigliamento e oggetti di scena abbastanza grandi affinché le texture e i loghi siano visibili; evita il motion blur pesante nelle immagini di origine.
- Quando l'identità è perfetta ma il movimento è rigido, abbassa leggermente la forza della guida LoRA nella fase LTX 2.3 MSR e aggiungi suggerimenti di prompt per il movimento.
- Per storie più lunghe, aumenta
framese mantienifpscostante per preservare il tempo; per modifiche più rapide, aumentafpse riduciframes. - Usa un riferimento di sfondo simile in illuminazione e prospettiva alla tua scena prevista per meno incoerenze.
Ringraziamenti#
Questo workflow implementa e si basa sui seguenti lavori e risorse. Ringraziamo il progetto LTX per il workflow LTX 2.3 MSR (Multi-Subject Reference) per i loro contributi e manutenzione. Per dettagli autorevoli, si prega di fare riferimento alla documentazione originale e ai repository collegati di seguito.
Risorse#
- LTX/LTX 2.3 MSR Workflow Source
- Docs / Note di rilascio: RunningHub post
Nota: L'uso dei modelli, dei dataset e del codice di riferimento è soggetto alle rispettive licenze e termini forniti dai loro autori e manutentori.

