LTX 2.3 Bild zu Video für ComfyUI
Dieser Workflow verwandelt ein einzelnes Bild oder einen reinen Text-Prompt in ein flüssiges, filmisches KI-Video mit LTX 2.3 Bild zu Video. Es ist für Kreative gebaut, die hohe visuelle Kohärenz, starke Szenenkonsistenz und polierte Bewegungen ohne manuelle Verdrahtung wünschen. Verwenden Sie es auf RunComfy oder in jeder ComfyUI-Umgebung, um dynamische, stilisierte Ergebnisse zu erzeugen, die Ihrem Prompt treu bleiben.
Der Graph unterstützt zwei kreative Modi: Bild zu Video mit Ihrem ersten Frame als visuellem Anker oder Text zu Video, das vollständig durch Sprache geleitet wird. Es umfasst auch automatische Prompt-Verbesserung, latente Hochskalierung für schärfere Details und optionale Audio-Decodierung, sodass Ihr endgültiges LTX 2.3 Bild zu Video-Rendering bereit zur Veröffentlichung ist.
Schlüsselmodelle im ComfyUI LTX 2.3 Bild zu Video-Workflow
- Lightricks LTX 2.3 22B Videomodell. Der Kern-Videodiffusionstransformator, der zeitlich konsistente Bewegungen und visuelle Darstellungen aus Text und optionaler Bildführung synthetisiert. Mod-Dateien und Dokumentation sind auf Hugging Face verfügbar, und Code-Level-Referenzen auf GitHub.
- LTX Audio VAE. Der Audio-Variational Autoencoder, der das Audio-Latente des Modells in eine Audiospur dekodiert, um sie mit Frames zu muxen. Wird mit dem LTX 2.3-Release auf Hugging Face verteilt.
- LTX 2.3 Spatial Upscaler x2. Ein Super-Resolution-Modell im latenten Raum, das die Schärfe und räumliche Treue vor dem finalen Hochauflösungs-Sampling-Durchgang verbessert. Verfügbar im LTX 2.3-Repository auf Hugging Face.
- Gemma 3 12B Instruct Text-Encoder plus LoRA. Ein kompakter, instruktionstauglicher Text-Encoder und LoRA, der hier verwendet wird, um das Verständnis und die Formulierung von Prompts für Video zu verbessern. Der verpackte Encoder und die LoRA-Gewichte, die von dieser Vorlage verwendet werden, sind in den Comfy-Org LTX-2-Assets auf Hugging Face verfügbar.
Verwendung des ComfyUI LTX 2.3 Bild zu Video-Workflows
Auf hoher Ebene werden Ihr Prompt und optional der erste Frame kodiert, ein niedrigauflösendes latentes Video wird gesampelt, dann im latenten Raum hochskaliert und in höherer Auflösung verfeinert. Das Ergebnis wird in Frames und Audio dekodiert und dann in ein finales MP4 zusammengesetzt. Sie können jederzeit zwischen Bild zu Video und Text zu Video wechseln, bevor Sie es ausführen.
- Modell
- Diese Gruppe lädt den LTX 2.3-Checkpoint, den Audio VAE und den Text-Encoder. Es wendet auch die LTX 2.3 LoRA auf das Basismodell an, um die Befolgung von Anweisungen zu verbessern. Zusammen definieren sie die Grundlage, auf der der Rest der LTX 2.3 Bild zu Video-Pipeline aufbaut. In der Regel werden Sie hier nichts ändern, es sei denn, Sie tauschen Modellvarianten oder LoRA-Stile aus.
- Prompt
- Geben Sie Ihre Szenenbeschreibung und optionale Negative ein. Der Text wird sowohl für positive als auch für negative Konditionierung kodiert und mit Ihrer ausgewählten Bildrate gepaart, sodass die Bewegungsplanung mit dem Timing übereinstimmt. Halten Sie die Sprache zeitbewusst mit Verben, die Veränderungen beschreiben, zum Beispiel "Kamera schiebt sich vorwärts" oder "Blätter wirbeln im Wind". Negative Prompts helfen, unerwünschte Artefakte wie Wasserzeichen oder cartoonhafte Vereinfachungen zu vermeiden.
- Prompt-Verbesserung
- Der Graph enthält einen Helfer, der Ihr Bild und Ihren Text analysiert und dann einen stärkeren, zeitbewussten Prompt-Entwurf generiert, den Sie übernehmen oder bearbeiten können. Dies erleichtert es, LTX 2.3 Bild zu Video in Richtung filmischer, aktionsgetriebener Beschreibungen zu lenken. Es ist besonders hilfreich, wenn Sie von einem einzelnen Standbild ausgehen und eine Bewegung wünschen, die sich beabsichtigt anfühlt. Der Vorschau-Knoten ermöglicht es Ihnen, den verbesserten Text vor der Generierung zu inspizieren.
- Videoeinstellungen
- Wählen Sie, ob Sie Bild zu Video ausführen oder mit einem einfachen Schalter zu Text zu Video wechseln möchten. Stellen Sie Breite, Höhe, Dauer und Bildrate ein, um sie an Ihre Zielplattform anzupassen. Diese Einstellungen steuern die latente Allokation und die nachgelagerte Decodierung, halten Sie sie also im Einklang mit Ihrer kreativen Absicht. Wenn Sie planen, weit zu veröffentlichen, bevorzugen Sie Abmessungen und Timing, die codec-freundlich sind.
- Bildvorverarbeitung
- Ihr erster Frame wird auf einen modellfreundlichen Aspekt skaliert und normalisiert, wobei die Komposition erhalten bleibt. Ein leichter Vorfilter hilft, Kanten zu stabilisieren und Kompressionsrauschen zu reduzieren, das während der Bewegung zu Flimmern führen kann. Dieser Schritt ist wichtig, auch wenn Sie das Bild nur verwenden, um Layout und Farbe vorzuschlagen.
- Leeres Latent
- Der Workflow weist leere Video- und Audio-Latente basierend auf Ihren Abmessungen, Dauer und Bildrate zu. Dies bietet eine saubere Leinwand für den Sampler und stellt sicher, dass Audio und Video längenabgestimmt bleiben. Rauschen wird deterministisch erzeugt, wenn Sie Reproduzierbarkeit wünschen, oder randomisiert für Variation zwischen den Läufen.
- Erzeugen in niedriger Auflösung
- Ein erster Sampling-Durchgang meißelt Bewegung und Struktur in ein kompaktes latentes Video. Wenn Sie Bild zu Video verwenden, injiziert
LTXVImgToVideoInplace(#249) Ihren ersten Frame als visuellen Anker, damit sich die Bewegung von einem kohärenten Ausgangspunkt aus entwickelt. Konditionierung aus Ihrem positiven und negativen Text leitet Inhalt und Stil, währendManualSigmas(#252) undKSamplerSelectdefinieren, wie aggressiv Rauschen im Laufe der Zeit entfernt wird.LTXVCropGuides(#212) hilft, die Rahmung aufrechtzuerhalten, die Ihrem Prompt entspricht. Das resultierende Audio-Video-Latente wird dann für separate Verarbeitung aufgeteilt.
- Ein erster Sampling-Durchgang meißelt Bewegung und Struktur in ein kompaktes latentes Video. Wenn Sie Bild zu Video verwenden, injiziert
- Latent Hochskalieren
- Bevor Sie sich für eine hochauflösende Verfeinerung entscheiden, wendet
LTXVLatentUpsampler(#253) den x2 Spatial Upscaler auf das niedrigauflösende Latente an. Dies im latenten Raum zu tun, ist schnell und bewahrt erlernte Bewegungen, während die Detailkapazität gesteigert wird. Es ist ein sicherer Weg, um Schärfe hinzuzufügen, ohne Artefakte einzuführen.
- Bevor Sie sich für eine hochauflösende Verfeinerung entscheiden, wendet
- Erzeugen in hoher Auflösung
- Ein zweiter Sampler verfeinert das hochskalierte Latente in größerer räumlicher Größe, um Texturen, Beleuchtung und kleine Bewegungen zu verankern. Beim Ausführen von Text zu Video kann der frühere Bild-zu-Video-Schritt umgangen werden und
LTXVImgToVideoInplace(#230) leitet das Latente einfach durch.VAEDecodeTiled(#251) dekodiert dann das Video-Latente effizient in Frames. Parallel dazu wird das Audio-Latente mit dem LTX Audio VAE dekodiert, sodass beide Streams am Ende framegenau sind.
- Ein zweiter Sampler verfeinert das hochskalierte Latente in größerer räumlicher Größe, um Texturen, Beleuchtung und kleine Bewegungen zu verankern. Beim Ausführen von Text zu Video kann der frühere Bild-zu-Video-Schritt umgangen werden und
- Export
CreateVideo(#242) muxes Frames und Audio in ein einzelnes Video bei Ihrer gewählten Bildrate. Der obersteSaveVideo-Knoten schreibt die endgültige Datei in Ihren ComfyUI-Ausgang, sodass Sie sie sofort herunterladen können. Ihr LTX 2.3 Bild zu Video-Rendering ist nun bereit zur Vorschau oder Veröffentlichung.
Schlüssel-Knoten im ComfyUI LTX 2.3 Bild zu Video-Workflow
LTXVImgToVideoInplace(#249 und #230)- Wandelt ein Standbild in ein Video-Latente um oder leitet das Latente durch, wenn es deaktiviert ist. Verwenden Sie es, wenn Sie möchten, dass der erste Frame Layout, Palette und Charakterplatzierung definiert. Schalten Sie den Text-zu-Video-Schalter um, wenn Sie möchten, dass die Bewegung ausschließlich aus dem Prompt entsteht. Dokumentation für die Operator-Familie wird in der ComfyUI-Integration auf GitHub gepflegt.
LTXVConditioning(#239)- Kombiniert kodierten positiven und negativen Text mit Ihrer Bildrate, um eine Konditionierung zu erzeugen, die sowohl den Inhalt als auch das Bewegungstempo steuert. Bevorzugen Sie kurze, klare Sätze, die Veränderungen über die Zeit beschreiben, und reservieren Sie Negative für Artefakte, die Sie konsequent sehen und unterdrücken möchten. Dieser Knoten ist der effektivste Ort, um Stil und Szenenverhalten anzupassen, ohne Sampler zu berühren.
ManualSigmas(#252) mitKSamplerSelect- Der Rauschzeitplan und der Sampler arbeiten zusammen, um große Bewegungen gegen feine Details auszutauschen. Höheres frühes Rauschen fördert breitere Bewegungen, während spätere Schritte die Textur konsolidieren. Passen Sie diese nur an, nachdem Sie gute Prompts und Bildführung eingerichtet haben. Die zugrunde liegenden Sampling-Steuerungen folgen den Standard-ComfyUI-Semantiken, siehe Referenzimplementierungen im LTX-Repository auf GitHub.
LTXVLatentUpsampler(#253)- Wendet den LTX 2.3 Spatial Upscaler im latenten Raum an, sodass Sie in der nächsten Phase in höherer Auflösung verfeinern können. Verwenden Sie es, wenn Sie zusätzliche Schärfe benötigen oder planen, größere Formate zu liefern. Das x2-Modell wird mit LTX 2.3 auf Hugging Face verteilt.
VAEDecodeTiled(#251) undCreateVideo(#242)- Kachel-Dekodierung verhindert Speicher-Spitzen bei höheren Auflösungen und stellt gleichbleibende Frame-Qualität sicher.
CreateVideofügt dann Frames und den dekodierten Audio-Track in ein finales MP4 bei Ihrer ausgewählten fps zusammen. Halten Sie Ihre fps konsistent mit dem während der Konditionierung verwendeten Wert, um Wiedergabeverzögerungen zu vermeiden.
- Kachel-Dekodierung verhindert Speicher-Spitzen bei höheren Auflösungen und stellt gleichbleibende Frame-Qualität sicher.
Optionale Extras
- Sie müssen immer noch ein Erstbild hochladen, selbst wenn Sie Text zu Video verwenden. Der Schalter ignoriert es während der Generierung, aber die UI erfordert ein Platzhalterbild.
- Für LTX 2.3 Bild zu Video-Prompting beginnen Sie mit der Kernaktion, dann mit visuellen Details, dann mit Atmosphäre. Zeitwörter wie "langsam", "plötzlich" und "fortgesetzt" helfen dem Modell, Bewegungen zu planen.
- Verwenden Sie negative Prompts, um Überlagerungen und UI-Artefakte wie "Wasserzeichen", "Untertitel" oder "Standbild" zu vermeiden.
- Wenn der Stil zu stark oder zu schwach aussieht, versuchen Sie einen anderen LoRA oder passen Sie dessen Gewicht im LoRA-Loader an. Sie können auch die LoRA entfernen, um sich auf den Look des Basismodells zu stützen.
- Verwenden Sie einen festen Rausch-Seed zur Reproduzierbarkeit, wenn Sie am Text iterieren, und randomisieren Sie dann für Variation, sobald Sie die Aufnahme festgelegt haben.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Lightricks für LTX-2.3 und EyeForAILabs für das EyeForAILabs YouTube Tutorial für ihre Beiträge und Pflege. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.
Ressourcen
- Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model
- EyeForAILabs/YouTube Tutorial
- Docs / Release Notes: EyeForAILabs YouTube Tutorial
Hinweis: Die Nutzung der genannten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen ihrer Autoren und Betreuer.
