LTX-2 ComfyUI: Echtzeit-Text, Bild, Tiefe und Pose zu Video mit synchronisiertem Audio
Dieser All-in-One-LTX-2 ComfyUI-Workflow ermöglicht es Ihnen, in Sekunden kurze Videos mit Audio zu erstellen und zu iterieren. Er wird mit Routen für Text zu Video (T2V), Bild zu Video (I2V), Tiefe zu Video, Pose zu Video und Canny zu Video geliefert, sodass Sie mit einem Prompt, einem Standbild oder strukturierter Anleitung beginnen und denselben kreativen Zyklus beibehalten können.
Der Workflow basiert auf LTX-2's AV-Pipeline mit niedriger Latenz und Multi-GPU-Sequenzparallelität und betont schnelles Feedback. Beschreiben Sie Bewegung, Kamera, Aussehen und Klang einmal, dann passen Sie Breite, Höhe, Bildanzahl oder Control LoRAs an, um das Ergebnis zu verfeinern, ohne etwas neu verdrahten zu müssen.
Hinweis: Hinweis zur LTX-2-Workflow-Kompatibilität — LTX-2 umfasst 5 Workflows: Text-to-Video und Image-to-Video laufen auf allen Maschinentypen, während Depth to Video, Canny to Video und Pose to Video eine 2X-Large-Maschine oder größer erfordern; das Ausführen dieser ControlNet-Workflows auf kleineren Maschinen kann zu Fehlern führen.
Wichtige Modelle im LTX-2 ComfyUI-Workflow
- LTX-2 19B (dev FP8) Checkpoint. Kernmodell für audiovisuelle Generierung, das Video-Frames und synchronisiertes Audio aus multimodaler Konditionierung erzeugt. Lightricks/LTX-2
- LTX-2 19B Distilled Checkpoint. Leichtere, schnellere Variante, nützlich für schnelle Entwürfe oder Canny-kontrollierte Abläufe. Lightricks/LTX-2
- Gemma 3 12B IT Text-Encoder. Primäre Textverstehensgrundlage, die von den Prompt-Encodern des Workflows verwendet wird. Comfy-Org/ltx-2 split files
- LTX-2 Spatial Upscaler x2. Latenter Upsampler, der die räumlichen Details in der Mitte des Graphen verdoppelt, um sauberere Ausgaben zu erzielen. Lightricks/LTX-2
- LTX-2 Audio VAE. Kodiert und dekodiert Audiolatenten, sodass Ton zusammen mit Video erzeugt und gemultiplext werden kann. In der oben genannten LTX-2-Veröffentlichung enthalten.
- Lotus Depth D v1‑1. Depth UNet wird verwendet, um robuste Tiefenkarten aus Bildern abzuleiten, bevor eine tiefegeleitete Videoerstellung erfolgt. Comfy‑Org/lotus
- SD VAE (MSE, EMA pruned). VAE wird im Tiefenprozessorzweig verwendet. stabilityai/sd-vae-ft-mse-original
- Control LoRAs für LTX‑2. Optionale, Plug-and-Play-LoRAs zur Steuerung von Bewegung und Struktur:
So verwenden Sie den LTX-2 ComfyUI-Workflow
Der Graph enthält fünf Routen, die Sie unabhängig ausführen können. Alle Routen teilen denselben Exportpfad und verwenden dieselbe Prompt-zu-Konditionierungslogik, sodass sich die anderen vertraut anfühlen, sobald Sie eine gelernt haben.
T2V: Video und Audio aus einem Prompt generieren
Der T2V-Pfad beginnt mit CLIP Text Encode (Prompt) (#3) und einem optionalen negativen in CLIP Text Encode (Prompt) (#4). LTXVConditioning (#22) bindet Ihren Text und die gewählte Bildrate an das Modell. EmptyLTXVLatentVideo (#43) und LTX LTXV Empty Latent Audio (#26) erstellen Video- und Audiolatenten, die von LTX LTXV Concat AV Latent (#28) zusammengeführt werden. Der Entrauschungszyklus durchläuft LTXVScheduler (#9) und SamplerCustomAdvanced (#41), danach erzeugen VAE Decode (#12) und LTX LTXV Audio VAE Decode (#14) Frames und Audio. Video Combine 🎥🅥🅗🅢 (#15) speichert eine H.264 MP4 mit synchronisiertem Ton.
I2V: Ein Standbild animieren
Laden Sie ein Standbild mit LoadImage (#98) und passen Sie die Größe mit ResizeImageMaskNode (#99) an. Im T2V-Subgraphen injiziert LTX LTXV Img To Video Inplace das erste Bild in die latente Sequenz, sodass die Bewegung von Ihrem Standbild anstatt von reinem Rauschen aufgebaut wird. Halten Sie Ihren Textprompt auf Bewegung, Kamera und Ambiente fokussiert; der Inhalt stammt aus dem Bild.
Tiefe zu Video: Struktur-bewusste Bewegung aus Tiefenkarten
Verwenden Sie den "Image to Depth Map (Lotus)"-Prozessor, um einen Eingang in ein Tiefenbild zu transformieren, das von VAEDecode dekodiert und optional invertiert wird, um die richtige Polarität zu erhalten. Die "Depth to Video (LTX 2.0)"-Route speist dann Tiefenführung durch LTX LTXV Add Guide, sodass das Modell die globale Szenenstruktur respektiert, während es animiert. Der Pfad verwendet dieselben Scheduler-, Sampler- und Upscaler-Stufen und endet mit gekacheltem Dekodieren zu Bildern und gemultiplextem Audio für den Export.
Pose zu Video: Bewegung aus menschlicher Pose steuern
Importieren Sie einen Clip mit VHS_LoadVideo (#198); DWPreprocessor (#158) schätzt die menschliche Pose zuverlässig über die Frames hinweg. Der "Pose to Video (LTX 2.0)"-Subgraph kombiniert Ihren Prompt, die Pose-Konditionierung und eine optionale Pose Control LoRA, um Glieder, Orientierung und Beats konsistent zu halten, während Stil und Hintergrund aus dem Text fließen. Verwenden Sie dies für Tanz, einfache Stunts oder Talk-to-Camera-Aufnahmen, bei denen das Timing des Körpers wichtig ist.
Canny zu Video: Kantengetreue Animation und destillierter Geschwindigkeitsmodus
Füttern Sie Frames an Canny (#169), um eine stabile Kantenkarte zu erhalten. Der "Canny to Video (LTX 2.0)"-Zweig akzeptiert die Kanten plus eine optionale Canny Control LoRA für hohe Treue zu Silhouetten, während "Canny to Video (LTX 2.0 Distilled)" ein schnelleres destilliertes Checkpoint für schnelle Iterationen bietet. Beide Varianten lassen Sie optional den ersten Frame injizieren und die Bildstärke wählen, dann entweder über CreateVideo oder VHS_VideoCombine exportieren.
Videoeinstellungen und Export
Stellen Sie Breite und Höhe über Width (#175) und height (#173) ein, die Gesamtanzahl der Frames mit Frame Count (#176) und aktivieren Sie Enable First Frame (#177), wenn Sie eine anfängliche Referenz sperren möchten. Verwenden Sie VHS_VideoCombine-Knoten am Ende jeder Route, um crf, frame_rate, pix_fmt und Metadatenspeicherung zu steuern. Ein dedizierter SaveVideo (#180) wird für die destillierte Canny-Route bereitgestellt, wenn Sie eine direkte VIDEO-Ausgabe bevorzugen.
Leistung und Multi-GPU
Der Graph wendet LTXVSequenceParallelMultiGPUPatcher (#44) mit aktiviertem torch_compile an, um Sequenzen über GPUs zu teilen und die Latenz zu reduzieren. KSamplerSelect (#8) lässt Sie zwischen Samplern wählen, einschließlich Euler- und Gradienten-Schätzungsstilen; kleinere Bildanzahlen und niedrigere Schritte reduzieren die Bearbeitungszeit, sodass Sie schnell iterieren und skalieren können, wenn Sie zufrieden sind.
Wichtige Knoten im LTX-2 ComfyUI-Workflow
LTX Multimodal Guider(#17). Koordiniert, wie Textkonditionierung sowohl die Video- als auch die Audiostränge lenkt. Passen Siecfgundmodalityin den verknüpftenLTX Guider Parameters(#18 für VIDEO, #19 für AUDIO) an, um Treue vs. Kreativität auszugleichen; erhöhen Siecfgfür engere Prompt-Treue und erhöhen Siemodality_scale, um einen bestimmten Zweig zu betonen.LTXVScheduler(#9). Erstellt einen Sigma-Zeitplan, der auf den latenten Raum von LTX‑2 zugeschnitten ist. Verwenden Siesteps, um Geschwindigkeit gegen Qualität einzutauschen; beim Prototyping reduzieren weniger Schritte die Latenz, dann erhöhen Sie die Schritte für finale Renderings.SamplerCustomAdvanced(#41). Der Entrauscher, derRandomNoise, den gewählten Sampler ausKSamplerSelect(#8), die Sigmas des Schedulers und den AV-Latent zusammenführt. Wechseln Sie die Sampler für unterschiedliche Bewegungstexturen und Konvergenzverhalten.LTX LTXV Img To Video Inplace(siehe I2V-Zweige, z.B. #107). Injiziert ein Bild in einen Video-Latent, sodass der erste Frame den Inhalt verankert, während das Modell Bewegung synthetisiert. Passen Siestrengthan, wie strikt der erste Frame beibehalten wird.LTX LTXV Add Guide(in geführten Routen, z.B. Tiefe/Pose/Canny). Fügt einen strukturellen Leitfaden (Bild, Pose oder Kanten) direkt im latenten Raum hinzu. Verwenden Siestrength, um die Leitfaden-Treue mit generativer Freiheit auszugleichen, und aktivieren Sie den ersten Frame nur, wenn Sie eine zeitliche Verankerung wünschen.Video Combine 🎥🅥🅗🅢(#15 und Geschwister). Verpackt dekodierte Frames und das generierte Audio in eine MP4. Für Vorschauen erhöhen Siecrf(mehr Kompression); für Endversionen senken Siecrfund bestätigen Sie, dassframe_ratemit dem übereinstimmt, was Sie in der Konditionierung gesetzt haben.LTXVSequenceParallelMultiGPUPatcher(#44). Ermöglicht sequenz-parallele Inferenz mit Kompilierungsoptimierungen. Lassen Sie es aktiviert für den besten Durchsatz; deaktivieren Sie es nur, wenn Sie das Geräte-Placement debuggen.
Optionale Extras
- Prompting-Tipps für LTX-2 ComfyUI
- Beschreiben Sie Kernaktionen im Laufe der Zeit, nicht nur das statische Erscheinungsbild.
- Geben Sie wichtige visuelle Details an, die Sie im Video sehen müssen.
- Schreiben Sie den Soundtrack: Ambiente, Foley, Musik und jeglichen Dialog.
- Größenregeln und Bildrate
- Verwenden Sie Breiten und Höhen, die Vielfache von 32 sind (zum Beispiel 1280×720).
- Verwenden Sie Bildzahlen, die Vielfache von 8 sind (121 in dieser Vorlage ist eine gute Länge).
- Halten Sie die Bildrate konsistent, wo sie erscheint; der Graph enthält sowohl Float- als auch Int-Boxen und sie sollten übereinstimmen.
- LoRA-Anleitung
- Kamera-, Tiefen-, Pose- und Canny-LoRAs sind integriert; beginnen Sie mit Stärke 1 für Kamerabewegungen, dann fügen Sie nur bei Bedarf eine zweite LoRA hinzu. Durchsuchen Sie die offizielle Sammlung bei Lightricks/LTX‑2.
- Schnellere Iterationen
- Reduzieren Sie die Bildanzahl, verringern Sie die Schritte im
LTXVSchedulerund versuchen Sie den destillierten Checkpoint für die Canny-Route. Wenn die Bewegung funktioniert, skalieren Sie Auflösung und Schritte für Endversionen.
- Reduzieren Sie die Bildanzahl, verringern Sie die Schritte im
- Reproduzierbarkeit
- Sperren Sie
noise_seedin den Random Noise-Knoten, um reproduzierbare Ergebnisse zu erzielen, während Sie Prompts, Größen und LoRAs abstimmen.
- Sperren Sie
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Lightricks für das LTX-2-Multimodal-Video-Generierungsmodell und den LTX-Video-Forschungs-Codebase sowie Comfy Org für die ComfyUI LTX-2-Partnerknoten/Integration für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und Repositories, die unten verlinkt sind.
Ressourcen
- Comfy Org/LTX-2 jetzt in ComfyUI verfügbar!
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-ICLoRA-detailer-13b-0.9.8
- arXiv: 2501.00103
- Docs / Release Notes: LTX-2 jetzt in ComfyUI verfügbar!
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Wartenden bereitgestellt werden.
