LTX 2.3 First Last Frame in ComfyUI | Keyframe zu Smooth Video

LTX 2.3 First Last Frame zu Video#

LTX 2.3 First Last Frame zu Video ist ein ComfyUI-Workflow, der zwei Standbilder in ein flüssiges, kontinuierliches Video mit synchronisiertem Audio verwandelt. Sie liefern ein erstes Bild, ein letztes Bild und eine in natürlicher Sprache verfasste Eingabe, die Bewegung, Szenendetails und Ton beschreibt. Angetrieben vom LTX-2.3 22B Distilled FP8 Checkpoint interpoliert die Pipeline zwischen den Bildern und bewahrt dabei das konsistente Erscheinungsbild und Timing. Es ist ideal für Editoren, Motion Designer und Storyboard-Künstler, die einen nahtlosen Übergang oder einen kurzen Loop-Clip direkt in ComfyUI erstellen müssen.

Dieser LTX 2.3 First Last Frame-Workflow legt den Schwerpunkt auf effiziente Inferenz und hohe Eingabetreue. FP8-Gewichte halten die VRAM-Nutzung im Zaum, während ein Gemma 3 12B Text-Encoder das semantische Verständnis für sowohl visuelle als auch akustische Anweisungen verbessert. Das Ergebnis ist ein kohärenter visueller Übergang vom ersten zum letzten Bild, der Ihre Eingabe respektiert und synchron mit dem generierten Audio bleibt.

Wichtige Modelle im ComfyUI LTX 2.3 First Last Frame-Workflow#

LTX-2.3 22B Distilled FP8 Checkpoint von Lightricks. Kernmodell zur Videogenerierung, destilliert für effiziente Inferenz, hier verwendet, um zeitlich konsistente Frames zu synthetisieren, während es auf die beiden Bildanweisungen und die Texteingabe konditioniert wird. Model card
Gemma 3 12B IT Text-Encoder. Bietet robustes Sprachverständnis für sowohl visuelle als auch akustische Aspekte der Eingabe, was genaue Bewegungs-, Szenenattribute und Soundtrack-Hinweise ermöglicht. Model card
LTX-2.3 latente VAEs für Video und Audio. Diese Komponenten wandeln Bilder und Wellenform-Audio während der Dekodierung in kompakte Latents und zurück um, wobei die Qualität erhalten bleibt und das Sampling effizient bleibt. Geliefert mit der LTX-2.3 FP8-Veröffentlichung. Model card

Verwendung des ComfyUI LTX 2.3 First Last Frame-Workflows#

Dieser Workflow nimmt zwei Referenzbilder und eine Eingabe, baut eine Konditionierung mit ersten und letzten Bildanweisungen auf, sampelt ein Video-Latent mit synchronisiertem Audio und dekodiert alles in eine abspielbare Datei.

Einstellungen

Stellen Sie Ihre Zielauflösung, Bildanzahl und Bildrate in der Einstellungsgruppe ein. Breite und Höhe definieren die Arbeitsfläche; die Eingabebilder werden angepasst, damit das Modell sauber interpolieren kann. Die Bildanzahl steuert, wie lange der Übergang dauert, und die Bildrate legt die Wiedergabegeschwindigkeit fest. Wählen Sie ein Seitenverhältnis, das zu Ihren Quellen passt, um unerwünschtes Zuschneiden zu vermeiden. Die Knoten WIDTH (#113), HEIGHT (#98), Length (#102) und Frame Rate(int) (#114) verankern diese Entscheidungen.

Erstes Bild

Laden Sie Ihr Startbild in Load First Frame (#31). Es wird von ResizeImageMaskNode (#124) auf die Zielabmessungen angepasst und von LTXVPreprocess (#104) normalisiert. Dies bereitet das erste Bild darauf vor, als starke strukturelle und farbliche Leitlinie zu Beginn des Clips zu dienen. Verwenden Sie ein scharfes, gut beleuchtetes Bild für beste Ergebnisse.

Letztes Bild

Laden Sie Ihr Endbild in Load Last Frame (#39). Das Bild wird mit ResizeImageMaskNode (#125) auf die gleiche Größe angepasst und von LTXVPreprocess (#99) normalisiert. Dies stellt das gewünschte endgültige Aussehen und Layout sicher, das Sie am Ende des Übergangs haben möchten. Für Loops machen Sie das letzte Bild visuell kompatibel mit dem ersten.

Eingabe

Der LTXAVTextEncoderLoader (#103) liefert den Text-Encoder, und zwei CLIPTextEncode-Knoten erfassen Ihre positiven und negativen Eingaben. In der positiven Eingabe (CLIPTextEncode (#128)) beschreiben Sie Kamerabewegung, Motive, Beleuchtung und fügen auch akustische Hinweise wie "Musik: Ambient-Pads mit sanfter Percussion" oder "Dialog: kurzes Flüstern" hinzu. Die negative Eingabe (CLIPTextEncode (#112)) kann Artefakte oder Merkmale auflisten, die Sie unterdrücken möchten.

Konditionierung

LTXVConditioning (#109) kombiniert die Textkonditionierung mit Zeitinformationen, damit Bewegung und Audio mit Ihrer gewählten Bildrate übereinstimmen. EmptyLTXVLatentVideo (#108) erstellt ein Video-Latent in Ihrer Auflösung und Länge. Zwei Durchläufe von LTXVAddGuide fügen zunächst das erste Bild (LTXVAddGuide (#115)) und dann das letzte Bild (LTXVAddGuide (#111)) hinzu, damit das Modell weiß, wo es beginnen und wo es enden soll. LTXVEmptyLatentAudio (#101) initialisiert ein Audio-Latent von passender Dauer, und LTXVConcatAVLatent (#119) bündelt Audio- und Video-Latents zum Sampling.

Modell

CheckpointLoaderSimple (#127) lädt die LTX-2.3 22B destillierten FP8-Gewichte und das Video-VAE, während LTXVAudioVAELoader (#126) das Audio-VAE bereitstellt. Diese sind vorkonfiguriert, sodass Sie sich auf kreative Eingaben konzentrieren können, anstatt auf Einrichtung.

Sampling

CFGGuider (#116) balanciert die Einhaltung Ihrer Text- und Bildanweisungen gegen kreative Freiheit. RandomNoise (#100) setzt einen Samen für Reproduzierbarkeit. Der Sampler verwendet SamplerEulerAncestral (#117) mit einem benutzerdefinierten Zeitplan von ManualSigmas (#118), orchestriert von SamplerCustomAdvanced (#120), um das Latent schrittweise in eine kohärente Sequenz zu verfeinern, die Ihren Bewegungs- und Audioanweisungen folgt.

Dekodierung

Nach dem Sampling trennt LTXVSeparateAVLatent (#121) das kombinierte Latent wieder in Video und Audio. LTXVCropGuides (#106) verfeinert die räumliche Führung, um Kantenartefakte vor der Bilddekodierung zu reduzieren. VAEDecodeTiled (#105) erzeugt die Bildsequenz und LTXVAudioVAEDecode (#107) generiert die Audio-Wellenform. CreateVideo (#122) muxes Frames und Ton bei Ihrer ausgewählten fps und SaveVideo (#68) schreibt die endgültige Datei in Ihren ComfyUI-Ausgang.

Wichtige Knoten im ComfyUI LTX 2.3 First Last Frame-Workflow#

EmptyLTXVLatentVideo (#108)

Definiert die Arbeitsauflösung und Dauer Ihres Clips. Passen Sie Breite, Höhe und Länge hier an, um die visuelle Skala und Übergangszeit einzustellen. Längere Dauern benötigen stärkere Bewegungsanweisungen in der Eingabe, um Stagnation zu vermeiden.

LTXVAddGuide (#115)

Fügt das erste Bild als strukturelle und farbliche Anker am Anfang der Sequenz ein. Wenn der Beginn von Ihrer Quelle abweicht, erhöhen Sie den Einfluss dieses Guides; wenn es zu übermäßig eingeschränkt wirkt, reduzieren Sie ihn leicht, um mehr Bewegung zuzulassen.

LTXVAddGuide (#111)

Verankert das Zielbild am Ende des Clips mit dem letzten Bild. Wenn der Übergang überschießt oder nie ganz auf Ihrem letzten Bild landet, erhöhen Sie den Guide-Einfluss; wenn es zu stark am Ende einrastet, verringern Sie ihn.

CFGGuider (#116)

Kontrolliert, wie stark das Modell den Text- und Bildkonditionierungen folgt. Höhere Führung betont Ihre Eingaben und Guides, kann jedoch die Glätte reduzieren; niedrigere Werte fühlen sich freier an, können jedoch vom beabsichtigten Aussehen abweichen. Passen Sie in kleinen Schritten an und verwenden Sie denselben Samen, wenn Sie vergleichen.

SamplerCustomAdvanced (#120) mit SamplerEulerAncestral (#117) und ManualSigmas (#118)

Treibt das Denoising mit einem konsistenten Zeitplan für stabile Bewegung an. Kürzere Zeitpläne rendern schneller, können aber rau sein; längere oder sanftere Zeitpläne verbessern die Konsistenz bei zusätzlichen Rechenkosten. Halten Sie den Zeitplan konsistent, wenn Sie andere Parameter A/B-testen.

CreateVideo (#122)

Muxes dekodierte Frames und Audio in einen finalen Clip bei Ihrer gewählten Bildrate. Verwenden Sie dasselbe fps, das Sie konditioniert haben, damit Lippenformen, Schritte oder Musikpulse synchron bleiben.

Optionale Extras#

Schreiben Sie Eingaben mit Verben und Timing: "Kamera fährt vorwärts", "Lichter dimmen, wenn wir uns nähern", "Musik: spärliches Klavier mit sanftem Nachhall." Klare Verben helfen der LTX 2.3 First Last Frame-Pipeline, Bewegung und Rhythmus zu erkennen.
Passen Sie das Seitenverhältnis und die Ausrichtung Ihrer beiden Bilder an. Große Unterschiede können unerwünschtes Zuschneiden oder Dehnen verursachen.
Für nahtlose Loops machen Sie das letzte Bild zu einem nahezu gleichen wie das erste und halten Sie die Kamerabewegung zyklisch.
Verwenden Sie einen Samen in RandomNoise, um ein Aussehen zu reproduzieren, während Sie an Eingaben oder Guide-Stärken arbeiten; ändern Sie den Samen, um neue Variationen zu erkunden.
Wenn Sie Implementierungsdetails oder benutzerdefinierte Knotenreferenzen benötigen, siehe ComfyUI’s LTX-Integrationen und Hilfsmittel wie ComfyUI-LTXTricks. Repository

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Lightricks für den LTX-2.3 22B Distilled FP8 Checkpoint, Google für den Gemma 3 12B IT FP4 Text-Encoder, logtd für ComfyUI-LTXTricks Custom Nodes und Comfy.org für den Comfy.org Official Workflow für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen#

Lightricks/LTX-2.3 22B Distilled FP8 Checkpoint
- Hugging Face: Lightricks/LTX-2.3-fp8
Google/Gemma 3 12B IT FP4 Text Encoder
- Hugging Face: google/gemma-3-12b-it
logtd/ComfyUI-LTXTricks Custom Nodes
- GitHub: logtd/ComfyUI-LTXTricks
Comfy.org/Comfy.org Official Workflow
- Docs / Release Notes: comfy.org/workflows/video_ltx2_3_flf2v

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Betreuer.

LTX 2.3 First Last Frame | Nahtloser Video-Generator

LTX 2.3 First Last Frame zu Video#

Wichtige Modelle im ComfyUI LTX 2.3 First Last Frame-Workflow#

Verwendung des ComfyUI LTX 2.3 First Last Frame-Workflows#

Wichtige Knoten im ComfyUI LTX 2.3 First Last Frame-Workflow#

Optionale Extras#

Danksagungen#

Ressourcen#

Want More ComfyUI Workflows?

Wan 2.2 FLF2V | First-Last Frame Video Generation

Wan 2.1 FLF2V | First-Last Frame Video

Wan2.2 Fun Inp | Kinoreifer Video-Generator

LTX-2 Erste Letzte Frame | Schlüsselbilder Video-Generator

FLUX Kontext Face Swap | Nahtloser Gesichtsersatz

LTX 2.3 Cozy Felt | Weicher Text-zu-Video-Ersteller

Wan 2.1 Ditto | Generator für filmische Videoumgestaltung

SkyReels V3 ComfyUI | KI-Video-Generator