LTX 2.3 Prompt Relay: Multi-Beat-Bild-zu-Video-Generierung in ComfyUI#
LTX 2.3 Prompt Relay ist ein ComfyUI-Workflow zur Steuerung von Bild-zu-Video mit segmentierter Prompt-Weiterleitung über mehrere Beats in einem Clip. Es verwendet PromptRelayEncode als trainingsfreien, inferencesbasierten Controller, um verschiedene Textanweisungen unterschiedlichen Zeitspannen zuzuweisen, sodass Sie Kamerabewegungen und Aktionen pro Beat skripten können, während die Themenkontinuität und fließende Übergänge erhalten bleiben. Ein Qwen VLM-Helfer kann die Story-Beats automatisch entwerfen oder verfeinern, bevor sie generiert werden.
Dieser ComfyUI LTX 2.3 Prompt Relay Workflow ist ideal für filmische Kurzfilme, Produktaufnahmen und narrative Teaser, bei denen szenenweise Kontrolle ohne Feinabstimmung gewünscht ist. Er erzeugt ein synchronisiertes Video mit dekodiertem Audio und schreibt einen H.264 MP4 mit erhaltenen Metadaten.
Wichtige Modelle im ComfyUI LTX 2.3 Prompt Relay Workflow#
- LTX-Video 2.3 Basis-Checkpoint. Das generative Rückgrat, das zeitlich konsistente Videos aus Text und einem optionalen Referenzrahmen synthetisiert. Siehe den Community-Build und Gewichte-Kontext auf Hugging Face für ComfyUI-Nutzer. Kijai/LTX2.3_comfy
- LTX-Video 2.3 Video VAE und Audio VAE. Decoder, die das latente Video und den latenten Audio des Modells in RGB-Frames und eine Wellenform zum Muxen umwandeln, die hier zum Exportieren eines MP4 verwendet werden. Kijai/LTX2.3_comfy
- Qwen VLM (Instruct). Ein Vision-Language-Modell, das das Referenzbild liest und mehrschichtige Aktionslinien entwirft, die der Workflow als lokale Prompts verwendet. Integriert über die ComfyUI-QwenVL-Erweiterung. 1038lab/ComfyUI-QwenVL
- Optionale LTX 2.3 LoRAs. Stil- oder Effizienzadapter wie ein destilliertes LoRA und ein crisp-enhance LoRA sind für einfaches Umschalten vorverkabelt, um Textur und Schärfe zu ändern, ohne Ihre Prompts zu verändern. Kijai/LTX2.3_comfy
Wie man den ComfyUI LTX 2.3 Prompt Relay Workflow verwendet#
Gesamtablauf#
Der Workflow liest ein einzelnes Bild als Eröffnungsrahmen, sammelt einen globalen Prompt plus beat-spezifische lokale Prompts, kodiert sie mit Prompt Relay, sampelt ein gemeinsames Audio-Video-Latent, dekodiert und kombiniert dann Frames und Audio in ein MP4. Gruppen sind organisiert als Modelle, Eingabevideoeinstellung, VLM, Konditionierung, Latent erstellen, Sampling und Dekodierung.
Modelle#
Der Basis-LTX-Video 2.3 Checkpoint wird zuerst geladen, dann werden zwei optionale LoRAs nacheinander angewendet, um Schärfe und Effizienz zu optimieren. Attention Patching ist aktiviert, um die Wiedergabetreue bei langen Prompts zu verbessern. Sie können beide LoRAs behalten, einen deaktivieren oder sie vollständig umgehen, wenn Sie ein neutrales Basisbild bevorzugen.
Eingabevideoeinstellung#
Wählen Sie Breite, Höhe, Gesamtsekunden und FPS für den Clip. Der Workflow berechnet die Frame-Anzahl automatisch als Produkt von Sekunden und FPS und hält Bild- und Audiolängen synchron. Legen Sie diese fest, bevor Sie Prompts schreiben, damit Sie wissen, wie viele Beats bequem passen.
VLM#
Laden oder legen Sie ein Referenzbild ab. Das Bild wird vorverarbeitet und an ein Qwen VLM gesendet, das einer kurzen Anweisungsvorlage folgt, um vier prägnante Beat-Linien vorzuschlagen, die durch das Pipe-Zeichen „|“ getrennt sind. Sie können den generierten Text im On-Screen-Viewer überprüfen und bearbeiten, bevor er weitergeht, oder das VLM überspringen und Ihre eigenen Zeilen schreiben.
Konditionierung mit Prompt Relay#
PromptRelayEncode nimmt einen globalen Prompt für Stil und Setting sowie Ihre lokalen Prompts für beat-spezifische Aktionen. Trennen Sie Beats mit „|“ in lokalen Prompts; der Encoder leitet jedes Segment an seine Zeitspanne weiter und mischt zwischen ihnen für fließende Übergänge. Der Knoten gibt Prompt-Konditionierung und ein gepatchtes Modell aus, sodass der Sampler Ihrem Beat-Skript treu folgt. Referenz und Nutzung werden vom ComfyUI-PromptRelay-Projekt bereitgestellt. kijai/ComfyUI-PromptRelay
Latent erstellen#
Ein leeres Video-Latent wird auf Ihre gewählte Auflösung und Länge initialisiert. Das vorverarbeitete Referenzbild wird in den ersten Frame der Zeitachse geschrieben, um Identität, Pose und Beleuchtung zu verankern. Ein leeres Audio-Latent mit passender Dauer wird erstellt, sodass die Dekodierung eine gebrauchsfertige Wellenform neben den Frames erzeugt.
Sampling#
Ein Scheduler erstellt den Rauschzeitplan, ein Visualizer zeigt ihn an, und der Sampler läuft auf dem verketteten Audio-Video-Latent mit dem gepatchten LTX 2.3 Modell und der Prompt Relay Konditionierung. Sie können den Samplertyp ändern, wenn Sie eine andere Balance zwischen Schärfe und Stabilität bevorzugen. Das Ergebnis ist ein einzelnes Latent, das bereits sowohl Video als auch Audio kodiert.
Dekodierung und Export#
Das Latent wird in Video- und Audiozweige aufgeteilt und dann von der LTX 2.3 Video VAE und Audio VAE dekodiert. VideoHelperSuite kombiniert die Frames und die Wellenform in ein H.264 MP4 mit einem Standard-Pixelformat für weite Player-Kompatibilität und speichert die Metadaten zur Reproduzierbarkeit. ComfyUI-VideoHelperSuite
Wichtige Knoten im ComfyUI LTX 2.3 Prompt Relay Workflow#
PromptRelayEncode (#605)#
Der Kerncontroller, der segmentierte Prompt-Weiterleitung zur Inferenzzeit anwendet. Verwenden Sie global_prompt für Stil, Setting, Subjekt und Linsensprache, die bestehen bleiben sollten, und verwenden Sie local_prompts für beat-spezifische Aktionen, getrennt durch |. Halten Sie Beats prägnant und fokussiert; 3 bis 6 Beats werden in der Regel sauber gelesen. Wenn Sie Übergänge von Hand timen möchten, halten Sie benachbarte Beats semantisch kompatibel, damit die Mischung natürlich ist. Referenz: kijai/ComfyUI-PromptRelay
AILab_QwenVL_Advanced (#610)#
Ein VLM-Assistent, der das Referenzbild liest und Ihre Idee in Beat-Linien erweitert, indem er ein kurzes Anweisungsprompt verwendet. Bearbeiten Sie den Anweisungstext, um den Ton oder die Kamerasprache zu beeinflussen, und überprüfen Sie dann die generierten Beats im Viewer. Die Ausgabe wird direkt in local_prompts eingespeist, und Sie können sie jederzeit mit Ihrem eigenen Schreiben überschreiben. Referenz: 1038lab/ComfyUI-QwenVL
LTXVImgToVideoInplaceKJ (#582)#
Setzt das erste Frame des latenten Videos mit Ihrem Eingabebild ein, um Identität und Beleuchtungsstabilität über Beats hinweg zu fördern. Für reines Text-zu-Video, umgehen Sie diesen Knoten und starten Sie von einem leeren Video-Latent. Um eine stärkere Einhaltung des Seed-Frames zu erreichen, halten Sie Ihren globalen Prompt konsistent mit dem Bildinhalt.
BasicScheduler (#514) und VisualizeSigmasKJ (#358)#
Kontrollieren und visualisieren Sie den Denoising-Zeitplan, der vom Sampler verwendet wird. Verwenden Sie den Visualizer, um die Kurvenform zu überprüfen, wenn Sie Sampler oder Schrittanzahl wechseln. Ein sanfterer Zeitplan führt häufig zu stabileren Bewegungen, während aggressivere Zeitpläne Details fördern.
VHS_VideoCombine (#604)#
Muxed dekodierte Frames und Audio in ein einzelnes MP4 mit einem weit kompatiblen Pixelformat. Stellen Sie sicher, dass die Bildrate mit Ihrer Input Video Setting-Gruppe übereinstimmt, um eine genaue Synchronisation zu gewährleisten. Trennen Sie den Audioeingang hier, wenn Sie einen stummen Export wünschen. Referenz: ComfyUI-VideoHelperSuite
Optionale Extras#
- Beat-Schreibtipps: Schreiben Sie im Präsens, halten Sie jeden Beat auf eine Aktion, fügen Sie nur dann kurzen Dialog hinzu, wenn er den Beat vorantreibt, und beginnen Sie mit einem Kameraverb wie „hineinzoomen“, „rechts schwenken“ oder „Handheld-Drift“.
- Verwenden Sie den globalen Prompt für künstlerische Richtung und Optik (Beleuchtung, Linse, Stimmung); verwenden Sie lokale Prompts für Bewegungs-, Gesten- und Rahmenänderungen.
- Für schnellere Iterationen, halten Sie die Auflösung während des Entwurfs der Beats bescheiden und erhöhen Sie sie dann für das endgültige Rendern.
- Wenn LoRAs übermäßig schärfen oder die Farbe verschieben, reduzieren Sie ihre Gewichte oder deaktivieren Sie einen von ihnen, um die Neutralität wiederherzustellen.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken gordonchen19 für Prompt-Relay, kijai für ComfyUI-PromptRelay, Kijai für LTX2.3_comfy (ComfyUI-Modellkontext), 1038lab für ComfyUI-QwenVL und dem Patreon-Post-Autor (Innovate Futures @ Benji) für die Workflow-Quelle, für ihre Beiträge und Pflege. Für autoritative Details verweisen wir auf die Originaldokumentation und -repositories, die unten verlinkt sind.
Ressourcen#
- Patreon/Workflow-Quelle
- Docs / Release Notes: post @Benji
- gordonchen19/Prompt-Relay
- GitHub: gordonchen19/Prompt-Relay
- Docs / Release Notes: site
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- Kijai/LTX2.3_comfy
- Hugging Face: Kijai/LTX2.3_comfy
- Docs / Release Notes: discussion #51
- 1038lab/ComfyUI-QwenVL
- GitHub: 1038lab/ComfyUI-QwenVL
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von den Autoren und Betreuern bereitgestellt werden.
