LTX 2.3 IC-LoRA in ComfyUI | V2V Motion Track Video Workflow

LTX 2.3 IC-LoRA: Motion Track Videoerstellung in ComfyUI#

Dieser Workflow bringt das LTX 2.3 IC-LoRA-System zu ComfyUI, sodass Sie Bewegung und Szenenstruktur steuern können, während Sie frei mit Prompts oder zusätzlichen LoRAs stylen. Es konditioniert den LTX-2.3-Video-Generator auf Referenzsignale wie Tiefe, Pose und Kanten, was Bewegungsübertragung, Kamerasperrung und vorhersehbare Komposition ermöglicht.

Ersteller, die an Video-zu-Video, Bewegungsübertragung und kontrollierter KI-Animation arbeiten, werden feststellen, dass LTX 2.3 IC-LoRA die Bewegungssteuerung vom visuellen Stil trennt. Sie steuern das Aussehen mit Text und Stil-LoRAs und die Bewegung mit strukturierten Leitfäden, alles innerhalb eines einzigen ComfyUI-Diagramms.

Schlüsselmodelle im Comfyui LTX 2.3 IC-LoRA-Workflow#

LTX-2.3 von Lightricks. Ein hochauflösender latenter Videodiffusionstransformator, der zeitlich konsistente Sequenzen generiert und Konditionierung für Struktur- und Bewegungssteuerung unterstützt. Hugging Face: Lightricks/LTX-2.3
LTX 2.3 IC-LoRA-Union-Control-Gewichte. In-Context LoRA-Gewichte, die entwickelt wurden, um strukturierte Leitungssignale in LTX-2.3 für präzise Bewegungs- und Geometriekontrolle einzuführen. Bereitgestellt mit der Modellkette des Workflows und vor der Generierung geladen.
LTX-2.3 VAEs für Video und Audio. Latente Encoder/Decoder, die mit LTX-2.3 gepaart sind, um Video- und Audiofeatures zu komprimieren und zu rekonstruieren, die während des Samplings verwendet werden. Vorab konfiguriert im Diagramm und umschaltbar bei Verwendung quantisierter Builds. Beispiele für aufgeteilte Pakete sind hier verfügbar: Hugging Face: unsloth/LTX-2.3-GGUF
Depth Anything V2. Robuste monokulare Tiefenschätzung, die verwendet wird, um Kamerabewegungen zu sperren oder das Szenenlayout während der Generierung zu erhalten. Hugging Face: LiheYoung/Depth-Anything-V2
DWPose. Leichter Mehrpersonen-Pose-Schätzer, der verwendet wird, um Charakterbewegungen über Schlüsselpunkte neu zu zielen oder zu bewahren. Hugging Face: yzd-v/DWPose

Verwendung des Comfyui LTX 2.3 IC-LoRA-Workflows#

Das Diagramm ist in klare Gruppen organisiert. Sie bereiten Prompts und ein Referenzvideo vor, wählen eine oder mehrere strukturelle Leitfäden aus, dann generieren und exportieren Sie.

Prompts festlegen#

Verwenden Sie CLIP Text Encode (Positive Prompt) (#2483) und CLIP Text Encode (Negative Prompt) (#2612), um den visuellen Stil zu beschreiben und unerwünschte Merkmale auszuschließen. Die Text-Encoder sind in der Modellgruppe geladen und in LTXVConditioning (#1241) geroutet, das auch die Arbeits-Bildrate erhält, damit die Konditionierung mit Ihrem Clip-Timing übereinstimmt. Halten Sie die Prompts auf das Erscheinungsbild fokussiert, da LTX 2.3 IC-LoRA Bewegung und Struktur übernimmt.

Vorverarbeitung#

Laden oder übergeben Sie einen Referenzclip in VHS_LoadVideo (#5182). Frames werden in ImageResizeKJv2 (#5080) angepasst und in die Leitfadenextraktoren eingespeist: DepthAnythingV2Preprocessor (#5064) für Tiefe, DWPreprocessor (#4986) für Pose und CannyEdgePreprocessor (#4991) für Kanten. Ein nachgelagerter Resize-Knoten stellt sicher, dass die Leitfadenkarten die modellfreundlichen Vielfachen entsprechen, und GetImageSize (#5029) zeichnet Breite, Höhe und Frame-Anzahl für den Rest der Pipeline auf. Die resultierende Leitfaden-Bildsequenz wird von Set_video_controlnet (#5100) gespeichert, damit IC-LoRA sie konsumieren kann.

Modelle laden#

Das Basismodell und die LoRAs werden in dieser Gruppe zusammengesetzt. CheckpointLoaderSimple (#3940) lädt LTX-2.3; LoraLoaderModelOnly (#4922) wendet ein destilliertes LTX LoRA für Qualität und Geschwindigkeit an; LTXICLoRALoaderModelOnly (#5011) fügt die LTX 2.3 IC-LoRA-Gewichte hinzu und veröffentlicht den erforderlichen latenten Downscale-Faktor. VAEs für Video und Audio werden geladen, und Boolean - Use GGUF? (#5158) kann über GGUFLoaderKJ (#5150) zu einem quantisierten GGUF-Build mit kompatiblen Text-Encodern und VAEs wechseln, wenn der VRAM knapp ist.

Bild laden (setze bypass=True, wenn t2v)#

Wenn Sie die Komposition mit einem festen Referenz- oder Erstbild verankern möchten, verwenden Sie LoadImage (#2004). Es wird von ImageResizeKJv2 (#5076) angepasst und zur schnellen Überprüfung vorab angezeigt. Der boolesche Wert bypass_i2v steuert, ob das Bild überhaupt verwendet wird; setzen Sie es auf True für reines Text-zu-Video mit LTX 2.3 IC-LoRA.

Generieren#

EmptyLTXVLatentVideo (#3059) erstellt die latente Leinwand. Wenn die Bildverankerung aktiviert ist, injiziert LTXVImgToVideoConditionOnly (#3159) nur strukturelle Informationen aus Ihrem Bild, ohne den Stil einzubrennen. Der Kernschritt erfolgt in LTXAddVideoICLoRAGuide (#5012), das Ihre gewählte Leitfaden-Sequenz mit dem latenten Downscale-Faktor des IC-LoRA-Laders an das Modell anhängt. Audio-Konditionierung fließt auch durch LTXVEmptyLatentAudio (#3980) oder den benutzerdefinierten Audiopfad in das Latente. CFGGuider (#4828), KSamplerSelect (#4831), ManualSigmas (#5025) und SamplerCustomAdvanced (#4829) führen dann das Denoising durch, um das endgültige latente Video zu synthetisieren, während sowohl Prompts als auch LTX 2.3 IC-LoRA-Kontrollen respektiert werden.

Dekodieren#

LTXVSeparateAVLatent (#4845) teilt die generierten Audio- und Videolatenten zur Dekodierung auf. LTXVCropGuides (#5013) richtet aus und schneidet bei Bedarf, dann rekonstruiert VAEDecodeTiled (#4851) Frames effizient. VHS_VideoCombine (#5070) muxiert Frames in eine MP4, wobei standardmäßig das Audio des Referenzclips verwendet wird. Sie können auch das generierte Audio-Latente mit LTXVAudioVAEDecode (#4848) dekodieren, wenn Sie es separat anhören möchten.

Referenzvideo vorbereiten#

Dieser Hilfsbereich zeigt die Referenzrahmen-Pipeline. VHS_VideoInfoLoaded (#5073) extrahiert fps und Dauer, die an die Konditionierungsknoten und Exporteure weitergegeben werden, damit das Timing synchron bleibt. Ein kleiner Kombi-Knoten bietet eine schnelle visuelle Vorschau der Quellsequenz für Plausibilitätsprüfungen.

Benutzerdefiniertes Audio#

Wenn Sie eine audioorientierte Generierung wünschen, wird das Referenz-Audio mit LTXVAudioVAEEncode (#5146) kodiert und eine einfache Maske in SetLatentNoiseMask (#5148) angewendet. Der Schalter mit dem Titel Switch - Custom Audio? (#5149) wählt zwischen leeren oder kodierten Audio-Latenten vor der Verkettung in LTXVConcatAVLatent (#4528). Der endgültige Export verwendet standardmäßig weiterhin das Referenz-Audio; wenn Sie das dekodierte Audio aus dem Modell bevorzugen, leiten Sie den Ausgang von LTXVAudioVAEDecode an den Audioeingang des Exporteurs.

LTX Offizielle Sigma-Einstellung#

Der Zeitplan-Knoten ManualSigmas (#5025) definiert ein prägnantes Sigma-Profil, das auf LTX-2.3 abgestimmt ist, und SigmasPreview (#5142) visualisiert es, damit Sie über die Rauschverteilung im Laufe der Zeit nachdenken können. Dies ermöglicht es Ihnen, Geschwindigkeit gegen Detail zu tauschen, während die charakteristische zeitliche Stabilität von LTX 2.3 IC-LoRA beibehalten wird.

Schlüssel-Knoten im Comfyui LTX 2.3 IC-LoRA-Workflow#

LTXICLoRALoaderModelOnly (#5011). Lädt die LTX 2.3 IC-LoRA-Gewichte und gibt den latenten Downscale-Faktor aus, der vom Leitfaden-Injektor benötigt wird. Wenn Sie zusätzliche Stil-LoRAs hinzufügen, platzieren Sie sie vor diesem Lader, um die Bewegungsführung dominant zu halten.
LTXAddVideoICLoRAGuide (#5012). Der Punkt, an dem Tiefen-, Pose- oder Kanten-Sequenzen als In-Context-Leitfaden in das Modell eintreten. Passen Sie seine Stärke an, um ein Gleichgewicht zwischen strikter struktureller Treue und stilistischer Freiheit aus Ihrem Prompt und Stil-LoRAs zu finden.
LTXVImgToVideoConditionOnly (#3159). Bietet optionale Bild-zu-Video-Konditionierung, die nur Komposition und grobe Struktur aus einem Standbild überträgt. Verwenden Sie seinen bypass-Schalter, wenn Sie zwischen i2v und reinem Text-zu-Video wechseln.
CFGGuider (#4828). Kontrolliert, wie stark das Modell Ihren Prompts im Vergleich zur LTX 2.3 IC-LoRA-Leitlinie folgt. Erhöhen Sie die Führung, wenn die Stiltreue am wichtigsten ist, verringern Sie sie, um Bewegung und Geometrie mit minimalem Drift zu bewahren.
SamplerCustomAdvanced (#4829) mit ManualSigmas (#5025). Ein kompakter Zeitplan und ein mehrstufiger Sampler, der eine gute zeitliche Kohärenz für LTX-2.3 liefert. Wenn Sie den Zeitplan ändern, halten Sie ihn gleichmäßig abnehmend und testen Sie kurze Clips vor längeren Rendern.

Optionale Extras#

Wählen Sie den richtigen Leitfaden. Verwenden Sie Tiefe, um Kamera und Layout zu sperren, Pose für Charakterbewegung und Kanten für starre Objekte oder saubere Silhouetten. Das Mischen von zwei Leitfäden ist möglich, wenn sie unterschiedliche Aspekte beschreiben.
Halten Sie Dimensionen samplerfreundlich. Die Vorprozessoren runden Größen bereits auf modellfreundliche Vielfache; halten Sie Ihre Quelle nahe am Ziel-Seitenverhältnis, um Polsterung zu minimieren.
Stil, ohne Bewegung zu brechen. Fügen Sie ein leichtes Stil-LoRA vor dem IC-LoRA-Lader hinzu und halten Sie sein Gewicht moderat, damit LTX 2.3 IC-LoRA Geometrie und Timing beibehalten kann.
Niedriger VRAM-Modus. Schalten Sie Use GGUF um, um das quantisierte destillierte Modell und passende Text-Encoder/VAEs aus dem GGUF-Paket zu verwenden, wenn Ihre GPU eingeschränkt ist. Hugging Face: unsloth/LTX-2.3-GGUF
Stabiles Timing. Die Bildrate, die aus dem Referenzvideo gelesen wird, wird in die Konditionierung und Exporteure eingespeist, damit Bewegung und Audio synchron bleiben. Wenn Sie fps überschreiben, tun Sie dies konsistent über Konditionierung und Export.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken @Benji’s AI Playground von LTX 2.3 IC-LoRA Source für die Bereitstellung von Quellenmaterialien und Anleitung. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und Repositories, die unten verlinkt sind.

Ressourcen#

LTX 2.3 IC-LoRA Source
- Docs / Release Notes: YouTube @Benji’s AI Playground

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.

LTX 2.3 IC-LoRA | Motion Track AI Video Generator

LTX 2.3 IC-LoRA: Motion Track Videoerstellung in ComfyUI#

Schlüsselmodelle im Comfyui LTX 2.3 IC-LoRA-Workflow#

Verwendung des Comfyui LTX 2.3 IC-LoRA-Workflows#

Prompts festlegen#

Vorverarbeitung#

Modelle laden#

Bild laden (setze bypass=True, wenn t2v)#

Generieren#

Dekodieren#

Referenzvideo vorbereiten#

Benutzerdefiniertes Audio#

LTX Offizielle Sigma-Einstellung#

Schlüssel-Knoten im Comfyui LTX 2.3 IC-LoRA-Workflow#

Optionale Extras#

Danksagungen#

Ressourcen#

Want More ComfyUI Workflows?

Uni3C Video-Referenced Kamera- & Bewegungstransfer

ComfyUI Vid2Vid Dance Transfer

CogVideoX Tora | Bild-zu-Video Modell

Omni Kontext | Nahtlose Szenenintegration

Qwen Image LoRA Inferenz | AI Toolkit ComfyUI

Flux Konsistente Charaktere | Eingabebild

LTX 2.3 VBVR | Kontextbewusster Video-Generator

ICEdit | Schnelle KI-Bildbearbeitung mit Nunchaku