LTX-2 ComfyUI Workflow | Echtzeit-Videoerzeugungsgeschwindigkeit

LTX-2 ComfyUI: Echtzeit-Text, Bild, Tiefe und Pose zu Video mit synchronisiertem Audio

Dieser All-in-One-LTX-2 ComfyUI-Workflow ermöglicht es Ihnen, in Sekunden kurze Videos mit Audio zu erstellen und zu iterieren. Er wird mit Routen für Text zu Video (T2V), Bild zu Video (I2V), Tiefe zu Video, Pose zu Video und Canny zu Video geliefert, sodass Sie mit einem Prompt, einem Standbild oder strukturierter Anleitung beginnen und denselben kreativen Zyklus beibehalten können.

Der Workflow basiert auf LTX-2's AV-Pipeline mit niedriger Latenz und Multi-GPU-Sequenzparallelität und betont schnelles Feedback. Beschreiben Sie Bewegung, Kamera, Aussehen und Klang einmal, dann passen Sie Breite, Höhe, Bildanzahl oder Control LoRAs an, um das Ergebnis zu verfeinern, ohne etwas neu verdrahten zu müssen.

Hinweis: Hinweis zur LTX-2-Workflow-Kompatibilität — LTX-2 umfasst 5 Workflows: Text-to-Video und Image-to-Video laufen auf allen Maschinentypen, während Depth to Video, Canny to Video und Pose to Video eine 2X-Large-Maschine oder größer erfordern; das Ausführen dieser ControlNet-Workflows auf kleineren Maschinen kann zu Fehlern führen.

Wichtige Modelle im LTX-2 ComfyUI-Workflow

LTX-2 19B (dev FP8) Checkpoint. Kernmodell für audiovisuelle Generierung, das Video-Frames und synchronisiertes Audio aus multimodaler Konditionierung erzeugt. Lightricks/LTX-2
LTX-2 19B Distilled Checkpoint. Leichtere, schnellere Variante, nützlich für schnelle Entwürfe oder Canny-kontrollierte Abläufe. Lightricks/LTX-2
Gemma 3 12B IT Text-Encoder. Primäre Textverstehensgrundlage, die von den Prompt-Encodern des Workflows verwendet wird. Comfy-Org/ltx-2 split files
LTX-2 Spatial Upscaler x2. Latenter Upsampler, der die räumlichen Details in der Mitte des Graphen verdoppelt, um sauberere Ausgaben zu erzielen. Lightricks/LTX-2
LTX-2 Audio VAE. Kodiert und dekodiert Audiolatenten, sodass Ton zusammen mit Video erzeugt und gemultiplext werden kann. In der oben genannten LTX-2-Veröffentlichung enthalten.
Lotus Depth D v1‑1. Depth UNet wird verwendet, um robuste Tiefenkarten aus Bildern abzuleiten, bevor eine tiefegeleitete Videoerstellung erfolgt. Comfy‑Org/lotus
SD VAE (MSE, EMA pruned). VAE wird im Tiefenprozessorzweig verwendet. stabilityai/sd-vae-ft-mse-original
Control LoRAs für LTX‑2. Optionale, Plug-and-Play-LoRAs zur Steuerung von Bewegung und Struktur:
- Distilled LoRA 384 (allgemeine Verfeinerung) link
- Kamera-Steuerung: Dolly Left link
- Pose Control link
- Depth Control link
- Canny Control link

So verwenden Sie den LTX-2 ComfyUI-Workflow

Der Graph enthält fünf Routen, die Sie unabhängig ausführen können. Alle Routen teilen denselben Exportpfad und verwenden dieselbe Prompt-zu-Konditionierungslogik, sodass sich die anderen vertraut anfühlen, sobald Sie eine gelernt haben.

T2V: Video und Audio aus einem Prompt generieren

Der T2V-Pfad beginnt mit CLIP Text Encode (Prompt) (#3) und einem optionalen negativen in CLIP Text Encode (Prompt) (#4). LTXVConditioning (#22) bindet Ihren Text und die gewählte Bildrate an das Modell. EmptyLTXVLatentVideo (#43) und LTX LTXV Empty Latent Audio (#26) erstellen Video- und Audiolatenten, die von LTX LTXV Concat AV Latent (#28) zusammengeführt werden. Der Entrauschungszyklus durchläuft LTXVScheduler (#9) und SamplerCustomAdvanced (#41), danach erzeugen VAE Decode (#12) und LTX LTXV Audio VAE Decode (#14) Frames und Audio. Video Combine 🎥🅥🅗🅢 (#15) speichert eine H.264 MP4 mit synchronisiertem Ton.

I2V: Ein Standbild animieren

Laden Sie ein Standbild mit LoadImage (#98) und passen Sie die Größe mit ResizeImageMaskNode (#99) an. Im T2V-Subgraphen injiziert LTX LTXV Img To Video Inplace das erste Bild in die latente Sequenz, sodass die Bewegung von Ihrem Standbild anstatt von reinem Rauschen aufgebaut wird. Halten Sie Ihren Textprompt auf Bewegung, Kamera und Ambiente fokussiert; der Inhalt stammt aus dem Bild.

Tiefe zu Video: Struktur-bewusste Bewegung aus Tiefenkarten

Verwenden Sie den "Image to Depth Map (Lotus)"-Prozessor, um einen Eingang in ein Tiefenbild zu transformieren, das von VAEDecode dekodiert und optional invertiert wird, um die richtige Polarität zu erhalten. Die "Depth to Video (LTX 2.0)"-Route speist dann Tiefenführung durch LTX LTXV Add Guide, sodass das Modell die globale Szenenstruktur respektiert, während es animiert. Der Pfad verwendet dieselben Scheduler-, Sampler- und Upscaler-Stufen und endet mit gekacheltem Dekodieren zu Bildern und gemultiplextem Audio für den Export.

Pose zu Video: Bewegung aus menschlicher Pose steuern

Importieren Sie einen Clip mit VHS_LoadVideo (#198); DWPreprocessor (#158) schätzt die menschliche Pose zuverlässig über die Frames hinweg. Der "Pose to Video (LTX 2.0)"-Subgraph kombiniert Ihren Prompt, die Pose-Konditionierung und eine optionale Pose Control LoRA, um Glieder, Orientierung und Beats konsistent zu halten, während Stil und Hintergrund aus dem Text fließen. Verwenden Sie dies für Tanz, einfache Stunts oder Talk-to-Camera-Aufnahmen, bei denen das Timing des Körpers wichtig ist.

Canny zu Video: Kantengetreue Animation und destillierter Geschwindigkeitsmodus

Füttern Sie Frames an Canny (#169), um eine stabile Kantenkarte zu erhalten. Der "Canny to Video (LTX 2.0)"-Zweig akzeptiert die Kanten plus eine optionale Canny Control LoRA für hohe Treue zu Silhouetten, während "Canny to Video (LTX 2.0 Distilled)" ein schnelleres destilliertes Checkpoint für schnelle Iterationen bietet. Beide Varianten lassen Sie optional den ersten Frame injizieren und die Bildstärke wählen, dann entweder über CreateVideo oder VHS_VideoCombine exportieren.

Videoeinstellungen und Export

Stellen Sie Breite und Höhe über Width (#175) und height (#173) ein, die Gesamtanzahl der Frames mit Frame Count (#176) und aktivieren Sie Enable First Frame (#177), wenn Sie eine anfängliche Referenz sperren möchten. Verwenden Sie VHS_VideoCombine-Knoten am Ende jeder Route, um crf, frame_rate, pix_fmt und Metadatenspeicherung zu steuern. Ein dedizierter SaveVideo (#180) wird für die destillierte Canny-Route bereitgestellt, wenn Sie eine direkte VIDEO-Ausgabe bevorzugen.

Leistung und Multi-GPU

Der Graph wendet LTXVSequenceParallelMultiGPUPatcher (#44) mit aktiviertem torch_compile an, um Sequenzen über GPUs zu teilen und die Latenz zu reduzieren. KSamplerSelect (#8) lässt Sie zwischen Samplern wählen, einschließlich Euler- und Gradienten-Schätzungsstilen; kleinere Bildanzahlen und niedrigere Schritte reduzieren die Bearbeitungszeit, sodass Sie schnell iterieren und skalieren können, wenn Sie zufrieden sind.

Wichtige Knoten im LTX-2 ComfyUI-Workflow

LTX Multimodal Guider (#17). Koordiniert, wie Textkonditionierung sowohl die Video- als auch die Audiostränge lenkt. Passen Sie cfg und modality in den verknüpften LTX Guider Parameters (#18 für VIDEO, #19 für AUDIO) an, um Treue vs. Kreativität auszugleichen; erhöhen Sie cfg für engere Prompt-Treue und erhöhen Sie modality_scale, um einen bestimmten Zweig zu betonen.
LTXVScheduler (#9). Erstellt einen Sigma-Zeitplan, der auf den latenten Raum von LTX‑2 zugeschnitten ist. Verwenden Sie steps, um Geschwindigkeit gegen Qualität einzutauschen; beim Prototyping reduzieren weniger Schritte die Latenz, dann erhöhen Sie die Schritte für finale Renderings.
SamplerCustomAdvanced (#41). Der Entrauscher, der RandomNoise, den gewählten Sampler aus KSamplerSelect (#8), die Sigmas des Schedulers und den AV-Latent zusammenführt. Wechseln Sie die Sampler für unterschiedliche Bewegungstexturen und Konvergenzverhalten.
LTX LTXV Img To Video Inplace (siehe I2V-Zweige, z.B. #107). Injiziert ein Bild in einen Video-Latent, sodass der erste Frame den Inhalt verankert, während das Modell Bewegung synthetisiert. Passen Sie strength an, wie strikt der erste Frame beibehalten wird.
LTX LTXV Add Guide (in geführten Routen, z.B. Tiefe/Pose/Canny). Fügt einen strukturellen Leitfaden (Bild, Pose oder Kanten) direkt im latenten Raum hinzu. Verwenden Sie strength, um die Leitfaden-Treue mit generativer Freiheit auszugleichen, und aktivieren Sie den ersten Frame nur, wenn Sie eine zeitliche Verankerung wünschen.
Video Combine 🎥🅥🅗🅢 (#15 und Geschwister). Verpackt dekodierte Frames und das generierte Audio in eine MP4. Für Vorschauen erhöhen Sie crf (mehr Kompression); für Endversionen senken Sie crf und bestätigen Sie, dass frame_rate mit dem übereinstimmt, was Sie in der Konditionierung gesetzt haben.
LTXVSequenceParallelMultiGPUPatcher (#44). Ermöglicht sequenz-parallele Inferenz mit Kompilierungsoptimierungen. Lassen Sie es aktiviert für den besten Durchsatz; deaktivieren Sie es nur, wenn Sie das Geräte-Placement debuggen.

Optionale Extras

Prompting-Tipps für LTX-2 ComfyUI
- Beschreiben Sie Kernaktionen im Laufe der Zeit, nicht nur das statische Erscheinungsbild.
- Geben Sie wichtige visuelle Details an, die Sie im Video sehen müssen.
- Schreiben Sie den Soundtrack: Ambiente, Foley, Musik und jeglichen Dialog.
Größenregeln und Bildrate
- Verwenden Sie Breiten und Höhen, die Vielfache von 32 sind (zum Beispiel 1280×720).
- Verwenden Sie Bildzahlen, die Vielfache von 8 sind (121 in dieser Vorlage ist eine gute Länge).
- Halten Sie die Bildrate konsistent, wo sie erscheint; der Graph enthält sowohl Float- als auch Int-Boxen und sie sollten übereinstimmen.
LoRA-Anleitung
- Kamera-, Tiefen-, Pose- und Canny-LoRAs sind integriert; beginnen Sie mit Stärke 1 für Kamerabewegungen, dann fügen Sie nur bei Bedarf eine zweite LoRA hinzu. Durchsuchen Sie die offizielle Sammlung bei Lightricks/LTX‑2.
Schnellere Iterationen
- Reduzieren Sie die Bildanzahl, verringern Sie die Schritte im LTXVScheduler und versuchen Sie den destillierten Checkpoint für die Canny-Route. Wenn die Bewegung funktioniert, skalieren Sie Auflösung und Schritte für Endversionen.
Reproduzierbarkeit
- Sperren Sie noise_seed in den Random Noise-Knoten, um reproduzierbare Ergebnisse zu erzielen, während Sie Prompts, Größen und LoRAs abstimmen.

Danksagungen

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Lightricks für das LTX-2-Multimodal-Video-Generierungsmodell und den LTX-Video-Forschungs-Codebase sowie Comfy Org für die ComfyUI LTX-2-Partnerknoten/Integration für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und Repositories, die unten verlinkt sind.

Ressourcen

Comfy Org/LTX-2 jetzt in ComfyUI verfügbar!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 jetzt in ComfyUI verfügbar!

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.

Want More ComfyUI Workflows?

Wan 2.1 | Revolutionäre Videogenerierung

Erstellen Sie unglaubliche Videos aus Text oder Bildern mit bahnbrechender KI, die auf alltäglichen CPUs läuft.

PuLID Flux II | Konsistente Charaktererzeugung

Erzeugen Sie Bilder mit präziser Charakterkontrolle und bewahren Sie dabei den künstlerischen Stil.

CogvideoX Fun | Video-zu-Video Modell

CogVideoX Fun: Fortschrittliches Video-zu-Video-Modell für hochwertige Videogenerierung.

Wan 2.1 Fun | I2V + T2V

Stärken Sie Ihre KI-Videos mit Wan 2.1 Fun.

Wan 2.2 | Open-Source Video Gen Leader

Jetzt verfügbar! Bessere Präzision + flüssigere Bewegungen.

Qwen Image Edit 2511 | Intelligenter Bildbearbeitungs-Workflow

Bearbeitet Ihr Bild genau so, wie Sie es anweisen—schnell und präzise.

FLUX.1 Dev LoRA Inferenz | AI Toolkit ComfyUI

Führen Sie Ihr AI Toolkit-trainiertes FLUX.1 Dev LoRA in ComfyUI mit training-übereinstimmendem Verhalten mit einem einzigen RCFluxDev benutzerdefinierten Knoten aus.

Face Restore + ControlNet + Reactor | Alte Fotos restaurieren

Lassen Sie verblasste Fotos zu lebendigen Erinnerungen wiederaufleben und bewahren Sie jedes Detail für eine wertvolle Erinnerung.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

LTX-2 ComfyUI | Echtzeit-Video-Generator

LTX-2 ComfyUI: Echtzeit-Text, Bild, Tiefe und Pose zu Video mit synchronisiertem Audio

Wichtige Modelle im LTX-2 ComfyUI-Workflow

So verwenden Sie den LTX-2 ComfyUI-Workflow

T2V: Video und Audio aus einem Prompt generieren

I2V: Ein Standbild animieren

Tiefe zu Video: Struktur-bewusste Bewegung aus Tiefenkarten

Pose zu Video: Bewegung aus menschlicher Pose steuern

Canny zu Video: Kantengetreue Animation und destillierter Geschwindigkeitsmodus

Videoeinstellungen und Export

Leistung und Multi-GPU

Wichtige Knoten im LTX-2 ComfyUI-Workflow

Optionale Extras

Danksagungen

Ressourcen

Want More ComfyUI Workflows?

Wan 2.1 | Revolutionäre Videogenerierung

PuLID Flux II | Konsistente Charaktererzeugung

CogvideoX Fun | Video-zu-Video Modell

Wan 2.1 Fun | I2V + T2V

Wan 2.2 | Open-Source Video Gen Leader

Qwen Image Edit 2511 | Intelligenter Bildbearbeitungs-Workflow

FLUX.1 Dev LoRA Inferenz | AI Toolkit ComfyUI

Face Restore + ControlNet + Reactor | Alte Fotos restaurieren