LTX 2.3 MSR Multi-Subject Identity Video Workflow für ComfyUI#
Dieser Workflow verwandelt mehrere Charakter- oder Objektreferenzen in ein einziges, konsistentes, geschichtsbereites Video unter Verwendung von LTX 2.3 MSR. Er bewahrt die Identität über mehrere Subjekte hinweg und nutzt das LTX-2.3 Audio-Visual-Modell für Bewegung, Kinematografie und synchronisierten Sound. Kreative können bis zu vier Subjektbilder plus einen Hintergrund kombinieren und dann die Szene mit Eingaben für Dialoge, Gruppenaufnahmen und dynamische Lifestyle-Sequenzen lenken.
Entwickelt für Geschichtenerzähler, Werbetreibende und soziale Kreative, fügt der Graph Referenzen zu einem MSR-Leitfaden zusammen, injiziert Identität über einen bildkonditionierten LoRA-Pass und sampelt ein audio-visuelles Latent, das zu Frames und optionalem Audio dekodiert wird. LTX 2.3 MSR ist der Anker für Identitätstreue; der Rest der Pipeline behandelt Komposition, Bewegungsguidance und Export.
Wichtige Modelle im ComfyUI LTX 2.3 MSR Workflow#
- LTX-2.3 22B distilled (1.1) von Lightricks. Das grundlegende audio-visuelle Basis-Modell, das Bewegung, visuelle Darstellungen und synchronisiertes Audio generiert. Gewichte sind auf Hugging Face unter LTX-2.3 veröffentlicht. Lightricks/LTX-2.3
- Gemma 3 12B Instruct Text Encoder (fp4 mixed). Wird für die Eingabecodierung im LTX-Stack verwendet, um Text in Konditionierungssignale für die Generierung zu übersetzen. Verpackt mit den LTX-Assets für ComfyUI. Comfy-Org/ltx-2
- LTX 2.3 MSR LoRA (Licon MSR V1). Eine Multi-Subject Reference LoRA, die speziell für LTX-2.3 entwickelt wurde und mehrere Identitäten gleichzeitig fixiert, indem Gesichter, Kleidung und Objekteigenschaften über den gesamten Clip stabilisiert werden. liconstudio/ComfyUI-Licon-MSR
- LTX-2 Audio VAE. Bietet den latenten Audio-Raum und die Dekodierung, die bei der Generierung oder dem Anfügen von synchronisiertem Sound mit LTX-2.x-Assets verwendet werden. Comfy-Org/ltx-2
Wie man den ComfyUI LTX 2.3 MSR Workflow benutzt#
Dieser Graph hat drei Phasen: Erstellen eines MSR-Leitfadens aus Referenzen, Konditionieren des Video-Latents mit Multi-Image-Guidance und Eingaben, dann Samplen und Dekodieren zu Frames und Audio.
- Konfiguration
- Stellen Sie Ihre Leinwand
Breite,Höhe, gesamteFramesundfpsin den Konfigurationsknoten ein. Diese speisen die leeren Video- und Audio-Latents und die Exportphase, um das Timing von der Konditionierung bis zum endgültigen Rendern konsistent zu halten. - Wählen Sie Aspekt und Dauer, die zu Ihrer Geschichte passen. Höhere Bildzahlen erhöhen die Bewegungs-Kontinuität, aber auch VRAM und Laufzeit.
- Stellen Sie Ihre Leinwand
- Referenzlader
- Laden Sie bis zu vier Subjektbilder (
img1,img2,img3,img4) und einen Hintergrund (bg). Diese werden aufrefimg1..4undrefbgGetter abgebildet, sodass Sie schnell Quellen austauschen können, ohne neu zu verdrahten. - Verwenden Sie klare, gut beleuchtete Bilder mit zentrierten und ungehinderten Subjekten. Für Kleidung oder Requisiten, die Sie erhalten möchten, stellen Sie sicher, dass sie in mindestens einer Referenz sichtbar sind.
- Laden Sie bis zu vier Subjektbilder (
- MSR-Komponist
LiconMSR(#28) fügt die Subjektreferenzen und den Hintergrund zu einem einzigen MSR-Bildausgang zusammen. Dies wird zum visuellen Identitätsplan für LTX 2.3 MSR, indem Gesichtsmerkmale, Kleidung und Objektdetails vor dem Samplen ausgerichtet werden.- Ein kleines
VHS_VideoCombine(#66) erstellt eine schnelle Vorschau mit niedriger FPS aus dem MSR-Ausgang, damit Sie die Komposition überprüfen können, bevor Sie das vollständige Rendern ausführen.
- Multi-Guide-Konditionierung
LTXVAddGuideMulti(#108) nimmt bis zu fünf Bilder (Ihre vier Subjekte plus Hintergrund) zusammen mit den positiven und negativen Eingaben auf, um ein anfängliches Video-Latent mit räumlicher und Erscheinungs-Guidance zu erzeugen.- Positiver Eingabetext beschreibt Szene, Kamera und Atmosphäre; negativer Text vermeidet Artefakte und unpassende Stile.
LTXVConditioning(#7) fügt Ihrefpshinzu, damit das Bewegungstiming mit dem Exporter übereinstimmt.
- LoRA-Identitätskontrolle
- Die LTX 2.3 MSR LoRA wird in das Modell geladen, und
LTXAddVideoICLoRAGuide(#9) wendet einen bildkonditionierten LoRA-Pass unter Verwendung des MSR-Bildes an. Dies verstärkt die Identität über die Frames hinweg, ohne die Bewegung einzufrieren. - Verwenden Sie diese Phase, um die Identitätsstärke mit der Freiheit für natürliche Bewegungen und Ausdrücke auszugleichen.
- Die LTX 2.3 MSR LoRA wird in das Modell geladen, und
- Sampling
- Der Sampler-Stack verwendet
CFGGuider(#37),KSamplerSelect(#13),ManualSigmas(#27), undRandomNoise(#15), derSamplerCustomAdvanced(#16) speist. Das Ergebnis ist ein gemeinsames audio-visuelles Latent, das Ihre Referenzen, Eingaben und MSR-Beschränkungen widerspiegelt. - Wenn Sie neue Variationen benötigen, ändern Sie den Rausch-Seed oder den Sampler, während Sie Referenzen und MSR-Einstellungen für Konsistenz beibehalten.
- Der Sampler-Stack verwendet
- Ernte-Guidance und Dekodierung
LTXVCropGuides(#17) passt das Video-Latent auf Ihre Ziel-Frame-Größe an, um unerwünschte Zuschnitte zu vermeiden. Die Video- und Audio-Latents werden dann durchLTXVSeparateAVLatent(#24) getrennt.VAEDecode(#38) konvertiert Video-Latents zu Frames;LTXVAudioVAEDecode(#25) rekonstruiert Audio.
- Export
VHS_VideoCombine(#96) fügt Frames und optionales Audio zu H.264 MP4 bei Ihrer gewähltenfpszusammen, unter Verwendung Ihresfilename_prefix. Dies ist das endgültige Video, das vom LTX 2.3 MSR-Workflow produziert wird.
Wichtige Knoten im ComfyUI LTX 2.3 MSR Workflow#
LiconMSR (#28)#
Fügt 1–4 Subjektreferenzen plus einen Hintergrund zu einem einzigen MSR-Leitfaden zusammen. Stellen Sie Breite und Höhe so ein, dass sie Ihrem Ziel-Leinwand entsprechen, sodass der zusammengestellte Leitfaden und die endgültigen Frames übereinstimmen. Wenn Sie Identitätsabweichungen sehen, überprüfen Sie die Eingabereferenzen oder erhöhen Sie, wie prominent die Hauptsubjekte in ihren Quellbildern erscheinen.
LTXVAddGuideMulti (#108)#
Kombiniert mehrere Guidance-Bilder mit Ihren Eingaben, um das anfängliche Video-Latent zu formen. Verwenden Sie es, um zu priorisieren, welche Referenzen die Szene dominieren, indem Sie Heldensubjekte leicht bevorzugen. Halten Sie die Hintergrund-Guidance aktiv für stabile Umgebungen und weniger Szenensprünge.
LTXAddVideoICLoRAGuide (#9)#
Injiziert das bildkonditionierte MSR LoRA unter Verwendung des zusammengesetzten MSR-Bildes. Erhöhen Sie Stärke, um die Identitätserhaltung für Gesichter, Kleidung oder Requisiten zu verstärken; reduzieren Sie sie, wenn sich die Bewegung zu eingeschränkt anfühlt. Ernteauswahlen sollten widerspiegeln, wo Subjekte am häufigsten im Frame erscheinen.
CFGGuider (#37)#
Kontrolliert, wie stark der Sampler Ihren Eingaben folgt. Höhere cfg verbessert die Einhaltung der textuellen Absicht, kann aber die Vielfalt reduzieren; moderate Werte halten ein natürliches Aussehen, während sie die MSR-Guidance respektieren.
SamplerCustomAdvanced (#16)#
Führt den Entstörungsprozess mit Ihrem gewählten Sampler, Sigmas und Rausch-Seed aus. Euler- oder DPM-Stil-Sampler arbeiten gut mit LTX-2.3; erkunden Sie Seeds für Alternativen, während Sie dieselben Referenzen beibehalten, um die Identität zu erhalten.
VHS_VideoCombine (#96)#
Erstellt das endgültige MP4 mit optionalem Audio. Passen Sie die frame_rate an die Konditionierungsphase an und setzen Sie ein klares filename_prefix für die Versionierung. Verwenden Sie die Vorschau dieses Knotens, um das Tempo und die Identitätskonsistenz zu überprüfen, bevor Sie es teilen.
Optionale Extras#
- Bereiten Sie Referenzen mit neutralen, frontalen Winkeln und minimaler Verdeckung vor; fügen Sie einen zweiten Winkel für komplexe Frisuren oder Accessoires hinzu.
- Halten Sie Garderoben- und Requisitenreferenzen groß genug, damit Texturen und Logos sichtbar sind; vermeiden Sie starke Bewegungsunschärfe in den Quellbildern.
- Wenn die Identität perfekt ist, aber die Bewegung steif, senken Sie leicht die LoRA-Guidance-Stärke in der LTX 2.3 MSR-Phase und fügen Sie Eingaben für Bewegung hinzu.
- Für längere Geschichten erhöhen Sie
Framesund haltenfpskonstant, um das Timing zu bewahren; für schnellere Schnitte erhöhen Siefpsund verkürzenFrames. - Verwenden Sie eine Hintergrundreferenz, die in Beleuchtung und Perspektive Ihrer beabsichtigten Szene ähnlich ist, um weniger Inkonsistenzen zu haben.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken dem LTX-Projekt für den LTX 2.3 MSR (Multi-Subject Reference) Workflow für ihre Beiträge und Wartung. Für autoritative Details beziehen Sie sich bitte auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen#
- LTX/LTX 2.3 MSR Workflow Source
- Docs / Release Notes: RunningHub post
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartungsdokumenten bereitgestellt werden.


