LTX 2.3 Sulphur 2 Text-zu-Video-Workflow in ComfyUI

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Workflow

LTX 2.3 Sulphur 2 text to video workflow in ComfyUI | Cinematic Animation

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI LTX 2.3 Sulphur 2 text to video workflow Examples

LTX 2.3 Sulphur 2 Text-zu-Video-Workflow für kinoreife Charakteranimationen#

Diese ComfyUI-Pipeline verwandelt natürliche Sprachvorgaben in kurze, kinoreife, charakterfokussierte Videos mit optionalem Audio, die auf Lightricks LTX-2.3 und Sulphur 2 Komponenten basieren. Sie inszeniert die Generierung in niedriger Auflösung für die Bewegungsplanung, skaliert die latente Sequenz hoch und verfeinert dann bei hoher Auflösung, bevor sie in Frames dekodiert und eine synchronisierte Audiospur gemuxt wird.

Der LTX 2.3 Sulphur 2 Text-zu-Video-Workflow ist ideal für schnelle Charakteranimationstests, D-Human-Stil-Bewegungskonzepte und ausgefeilte Text-zu-Video-Experimente. Er erfordert keine Bild-zu-Video-Eingaben oder Vorgaben-Relais; alles beginnt mit Text, wobei die LTXV-Konditionierung sowohl Video- als auch Audio-Latents von Anfang bis Ende leitet.

Wichtige Modelle im ComfyUI LTX 2.3 Sulphur 2 Text-zu-Video-Workflow#

Lightricks LTX-2.3. Kern-Text-zu-Video-Generator, der für spatiotemporale Synthese und multimodale AV-Latents verwendet wird. Siehe das offizielle Modell-Repository für Gewichte und Hinweise zu Fähigkeiten und Einschränkungen. Hugging Face: Lightricks/LTX-2.3
Lightricks LTX-2.3 FP8 Checkpoint. Speicher-effiziente Variante von LTX-2.3, die die Inferenz beschleunigt und längere Clips oder höhere Auflösungen auf begrenzten GPUs ermöglicht. Hugging Face: Lightricks/LTX-2.3-fp8
Sulphur 2 Basismodell. Bietet Stil-Präferenzen und Charakterdetails über LoRA in diesem Workflow, was hilft, klare Gesichter und kinoreiche Tönungen zu erreichen. Hugging Face: SulphurAI/Sulphur-2-base
LTX-2.3 Spatial Upscaler x2 1.1. Latent-Raum Upscaler, der die räumlichen Details vor dem Hochauflösungs-Verfeinerungspass erhöht. Hugging Face: Lightricks/LTX-2.3 file ltx-2.3-spatial-upscaler-x2-1.1.safetensors
LTX Text Encoder (Gemma 3 12B IT verpackt für LTX). Liefert den Text-Einbettungsraum, der zur LTX-2.3-Konditionierung passt, um eine treue Vorgabenverfolgung zu gewährleisten. Hugging Face: Comfy-Org/ltx-2
LTX Audio VAE. Dekodiert das Audio-Latent, das zusammen mit dem Video generiert wird, sodass das endgültige Rendering einen synchronisierten Soundtrack enthalten kann. Hugging Face: Lightricks/LTX-2.3

Verwendung des ComfyUI LTX 2.3 Sulphur 2 Text-zu-Video-Workflows#

Gesamtlogik Die Pipeline läuft in drei Akten: Niedrigauflösende Generierung zur Festlegung von Bewegung und Komposition, latentes Upscaling zur Erhöhung der räumlichen Details und ein Hochauflösungs-Verfeinerungspass, der auch das endgültige Audio liefert. Latents werden in Frames und Wellenform dekodiert und dann in einen MP4-Container gemuxt, der zur Lieferung bereit ist.

Videoeinstellungen Verwenden Sie die Gruppe "Videoeinstellungen", um Breite, Höhe, Bildrate und Dauer zu definieren. Die Bildanzahl wird automatisch aus Ihrer Dauer und fps berechnet, sodass Timing und Rhythmus konsistent bleiben. Diese Werte steuern die latente Zuordnung und Dekodierung, stellen Sie sie also zuerst ein, um das gewünschte Seitenverhältnis und die Laufzeit zu erreichen. Die Anpassung der fps hier informiert auch die Konditionierung, sodass Bewegungsglätte und Audioausrichtung dieselbe Uhr verwenden.

Vorgabe Laden Sie im Abschnitt "Vorgabe" den LTX-Text-Encoder mit LTXAVTextEncoderLoader (#316), schreiben Sie dann Ihre positive Beschreibung in CLIPTextEncode (#303) und alle unerwünschten Eigenschaften in CLIPTextEncode (#312). Der Knoten LTXVConditioning (#304) kombiniert positive und negative Konditionierung und fügt die gewählte Bildrate hinzu, sodass die zeitliche Führung zu Ihrer fps passt. Behandeln Sie die positive Vorgabe wie ein Shot-Briefing: Subjekt, Kamera, Beleuchtung, Stimmung und Stilhinweise. Halten Sie die Negativliste auf Artefakte fokussiert, die Sie regelmäßig sehen und entfernen möchten.

Modell Die Gruppe "Modell" lädt das Haupt-Checkpoint über CheckpointLoaderSimple (#315) und wendet eine Sulphur 2 LoRA mit LoraLoaderModelOnly (#285) an, um kinoreiche Texturen und Charaktertreue einzuführen. Hier können Sie Checkpoints oder LoRAs austauschen, um das Gesamterscheinungsbild und die Bewegungspräferenzen zu ändern. Der Modellausgang wird sowohl zu den anfänglichen als auch zu den Verfeinerungsleitern geleitet, sodass Stil und Identität über die Durchgänge hinweg konsistent bleiben. Die Kombination von LTX-2.3 mit Sulphur 2 ergibt kräftige Kontraste und detaillierte Gesichter, die sich gut in Bewegung lesen lassen.

Zahlkonvertierung Dienstprogramm-Ausdrücke konvertieren Ihre fps und Sekunden in die ganzzahlige Bildanzahl, die downstream verwendet wird. Dies hält die Audio- und Videotimelines ohne manuelle Mathematik ausgerichtet. Wenn Sie später fps oder Dauer überarbeiten, aktualisiert der Graph abhängige Knoten automatisch.

Leeres Latent "Leeres Latent" erstellt ausgerichtete Container für die Generierung: EmptyLTXVLatentVideo (#295) definiert die räumliche Größe und Länge des Video-Latents, LTXVEmptyLatentAudio (#305) weist das Audio-Latent bei derselben Bildrate zu, und LTXVConcatAVLatent (#321) kombiniert sie zu einem einzigen AV-Latent. Ausgangspunkt leere Latents stellt sicher, dass der Diffusionsdurchgang vollständig Ihre Vorgabe und Konditionierung widerspiegelt, anstatt vorhandene Inhalte.

Niedrigauflösende Generierung Die erste Abtastphase legt Bewegung und Komposition zu geringeren Kosten fest. CFGGuider (#313), KSamplerSelect (#291) und ManualSigmas (#306) steuern, wie stark die Vorgabe die Generierung lenkt und den allgemeinen Geräuschplan. SamplerCustomAdvanced (#283) entstört dann das AV-Latent zu einem kohärenten Clip. Das Ergebnis wird durch LTXVSeparateAVLatent (#307) aufgeteilt und LTXVCropGuides (#284) verfeinert die räumliche Aufmerksamkeit, sodass die gewünschte Subjekt-Rahmung bei späterem Upscaling erhalten bleibt.

Latent-Upscaling LTXVLatentUpsampler (#287) verwendet den LTX-2.3 x2-Upscaler, um räumliche Details zu erhöhen, während er im Latent-Raum bleibt, um Geschwindigkeit und Stabilität zu gewährleisten. Das vorgespielte Video-Latent vorwärts zu füttern, verbessert Textur und Lesbarkeit vor der Hochauflösungs-Verfeinerung. Dies bewahrt die Bewegung, die Ihnen im ersten Durchgang gefallen hat, während es Spielraum für schärfere Kanten und reichere Materialien eröffnet.

Hochauflösende Generierung Das hochskalierte Video-Latent wird mit dem Audio-Latent in LTXVConcatAVLatent (#278) wiedervereint und erneut zur endgültigen Qualität geleitet. CFGGuider (#282), KSamplerSelect (#280) und ManualSigmas (#281) geben das letzte Wort zur Vorgabenstärke, Detailgenauigkeit und zeitlichen Kohärenz, wobei SamplerCustomAdvanced (#308) das verfeinerte AV-Latent produziert. LTXVSeparateAVLatent (#309) übergibt das Video an VAEDecodeTiled (#314) für speicherfreundliches Frame-Dekodieren und das Audio an LTXVAudioVAEDecode (#297) für die Wellenformrekonstruktion. CreateVideo (#310) muxt Frames und Audio bei Ihrem Ziel-fps, und SaveVideo (#75) schreibt eine MP4/H.264-Datei.

Bildvorverarbeitung Dieser Bereich leitet die Basis-VAEs und Upscaler-Modelle, sodass Kachelung und latentes Upscaling innerhalb Ihres VRAM-Budgets arbeiten. Wenn Sie Speicherprobleme haben, bevorzugen Sie die FP8 LTX-2.3-Gewichte und halten Sie das gekachelte Dekodieren aktiviert, um Durchsatz und Qualität zu erhalten.

Wichtige Knoten im ComfyUI LTX 2.3 Sulphur 2 Text-zu-Video-Workflow#

LTXVConditioning (#304) Vereint positive und negative Textkonditionierung und fügt die Arbeitsbildrate hinzu, sodass die zeitliche Führung Ihrer Wiedergabe entspricht. Starke, spezifische Szenensprache verbessert die Shot-Struktur; prägnante Negative reduzieren Artefakte. Siehe die LTX-2.3 Modellkarte für Konditionierungshinweise. Hugging Face: Lightricks/LTX-2.3

LTXVCropGuides (#284) Lenkt sanft die Komposition, um das Hauptsubjekt wie beabsichtigt eingerahmt zu halten. Verwenden Sie es, um die Gesichtgröße, die Horizontplatzierung oder ein zentriertes Subjekt vor dem Upscaling und der Verfeinerung zu schützen. Es ist besonders hilfreich für Dialogstil-Aufnahmen und mittlere Nahaufnahmen.

CFGGuider (#313, #282) Steuert, wie aggressiv die Vorgabe die Diffusionstrajektorie in beiden Durchgängen beeinflusst. Verwenden Sie den ersten Guider, um Bewegung und Inszenierung festzulegen, dann den zweiten, um Klarheit hinzuzufügen, ohne sich vom etablierten Shot zu entfernen.

ManualSigmas (#306, #281) Definiert den Geräuschplan. Mehr Rauschen am Anfang fördert größere Bewegungserkundung; ein sanfterer Plan betont die zeitliche Konsistenz. Halten Sie die niedrigen und hohen Auflösungspläne komplementär statt identisch.

LTXVLatentUpsampler (#287) Führt x2 latentes Upscaling mit dem offiziellen LTX-Upscaler durch, damit Sie Details vor dem Verfeinerungssampler erhalten. Der Wechsel zu einer anderen LTX-2.3-Upscaler-Variante kann die Schärfe und das Korn leicht verändern. Hugging Face: Lightricks/LTX-2.3

VAEDecodeTiled (#314) Dekodiert lange oder große Clips in handhabbare Kacheln, um VRAM-Spitzen zu vermeiden. Wenn Sie die räumliche Größe oder die Clip-Länge ändern, passen Sie die Kachelung an, um das Speicherpotenzial und die Dekodierungsgeschwindigkeit auszugleichen.

LoraLoaderModelOnly (#285) Wendet die Sulphur 2 LoRA auf den Basismodellpfad an, sodass Charaktertreue und Stilhinweise in beide Abtaststufen übertragen werden. Verwenden Sie dies, um Looks schnell zu wechseln und dennoch das gleiche LTX-2.3-Rückgrat beizubehalten. Hugging Face: SulphurAI/Sulphur-2-base

Optionale Extras#

Seed-Kontrolle: Setzen Sie feste Werte in beiden RandomNoise-Knoten, sodass Takes reproduzierbar sind; ändern Sie einen Seed, um Alternativen zu erkunden.
Prompting: Schreiben Sie Vorgaben als Shot-Anweisungen (Subjekt, Kamera, Beleuchtung, Stimmung). Halten Sie die Negativliste fokussiert und kurz.
Leistung: Wenn VRAM begrenzt ist, bevorzugen Sie die FP8 LTX-2.3-Gewichte und halten Sie das gekachelte Dekodieren aktiviert.
Ausgabe: Der Graph schreibt MP4/H.264; ändern Sie Container oder Codec in SaveVideo, wenn Sie ProRes-Proxy-Workflows benötigen.

Dieser LTX 2.3 Sulphur 2 Text-zu-Video-Workflow bietet einen sauberen, End-to-End-Pfad von der Vorgabe zum polierten Video mit synchronisiertem Audio, entwickelt für schnelle Iterationen bei kinoreifer Charakteranimation.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken RunningHub für den Sulphur2 Basic Workflow for Video Production, SulphurAI für das Sulphur-2-base Modell, Lightricks für die LTX-2.3 und LTX-2.3-fp8 Modelle und Comfy-Org für den LTX-2 Text-Encoder für ihre Beiträge und Wartung. Für autoritative Details verweisen wir auf die Originaldokumentation und die unten verlinkten Repositories.

Ressourcen#

RunningHub/Sulphur2 Basic Workflow for Video Production
- Docs / Release Notes: Sulphur2 Basic Workflow for Video Production
SulphurAI/Sulphur-2-base
- Hugging Face: SulphurAI/Sulphur-2-base
Lightricks/LTX-2.3
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Lightricks/LTX-2.3-fp8
- GitHub: Lightricks/LTX-2
- Hugging Face: Lightricks/LTX-2.3-fp8
- arXiv: LTX-2: Efficient Joint Audio-Visual Foundation Model (2601.03233)
Comfy-Org/ltx-2
- Hugging Face: Comfy-Org/ltx-2

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der Autoren und Betreuer.

Want More ComfyUI Workflows?

LTX 2.3 Sulphur 2 Prompt Relay Workflow | Cinematic Video Maker

Verwandelt Standbilder sofort in filmische, bewegungsgesteuerte Videos.

LTX-2 ControlNet | Präzisions-Video-Generator

Präzise Kontrolle, perfekte Synchronisation, super klare KI-Videoerstellung.

LTX-2 Erste Letzte Frame | Schlüsselbilder Video-Generator

Verwandeln Sie Standbilder schnell in nahtlose Video- und Tonübergänge.

LTX 2.3 Movie Builder Workflow | AI-Film-Generator

Verwandeln Sie Eingaben in vollständige filmische Geschichten mit vollständiger kreativer Kontrolle.

LTX 2.3 Bild zu Video | Filmischer Bewegungsersteller

Verwandeln Sie Bilder in realistische, filmische Videos mit flüssiger, konsistenter Bewegung.

Clay-Stil mit Unsampling

Konvertieren Sie Ihr Video in Clay-Stil mit der Unsampling-Methode.

daVinci-MagiHuman | Realistischer sprechender Menschengenerator

Erstellt lebensechte Avatare mit synchronisierter Sprache und ausdrucksstarker Bewegung.

Qwen Image LoRA Inferenz | AI Toolkit ComfyUI

Halten Sie die AI Toolkit-trainierte Qwen Image LoRA-Inferenz in ComfyUI vorschau-abgestimmt, indem Sie einen einzigen RCQwenImage-Benutzerdefinierten Knoten verwenden.

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

LTX 2.3 Sulphur 2 Text-zu-Video-Workflow | Kinogenerator