LTX 2.3 Sulphur 2 Prompt Relay Workflow: Bild-zu-Video Mikroaktionssequenzierung in ComfyUI#
Dieser ComfyUI Workflow verwandelt ein einzelnes Referenzbild plus eine segmentierte Bewegungsaufforderung in einen kurzen filmischen Clip. Er kombiniert die destillierte LTX-2.3 Videogenerierung mit einer Sulphur 2 Bewegungs-LoRA und Prompt Relay Smart Encoding, sodass Sie Mikroaktionen als Sequenz beschreiben können, anstatt sich auf eine flache Aufforderung zu verlassen. Der Graph ist für synchronisierte Audio-Latents, ein validiertes Regenstraßen-Bild-zu-Video-Beispiel und normalisierte Eingaben/Ausgaben für direkte Cloud-Wiedergabe vorverdrahtet.
Verwenden Sie diesen LTX 2.3 Sulphur 2 Prompt Relay Workflow, wenn Sie eine enge visuelle Verankerung an einem Referenzrahmen und kontrollierte Bewegungen wünschen, die Schlag für Schlag entfaltet werden. Filmemacher, Editoren und Bewegungsdesigner können "Beats" wie "geht im Regen | streicht sich durchs Haar | dreht sich um und winkt | verlässt" gestalten und kohärente Bewegung und Rahmung über den gesamten Shot erhalten.
Wichtige Modelle im ComfyUI LTX 2.3 Sulphur 2 Prompt Relay Workflow#
- LTX-2.3 audio-visuelles Basismodell (destilliert, nur Transformer). Generiert Video- und synchronisierte Audiotoken in einem Diffusionsdurchgang; dieser Workflow verwendet die destillierte 22B Variante, die für ComfyUI verpackt ist. Gewichte: Lightricks/LTX-2.3 und Knoten/Dienstprogramme: Lightricks/ComfyUI-LTXVideo. Siehe auch den Forschungs-Hintergrund in LTX-Video und das Papier LTX-Video: Realtime Video Latent Diffusion.
- LTX-Video VAE Paar (Video VAE + Audio VAE). Kodiert/Dekodiert latente Videoframes und den Audiostream, der für die Zeitausrichtung genutzt wird. Vorgefertigte VAE-Dateien, die für ComfyUI geeignet sind, sind in den LTX-2.3 Paketen verfügbar, beispielsweise Kijai/LTX2.3_comfy und das offizielle ComfyUI-LTXVideo Repository.
- Gemma-basierter Text-Encoder und LTX-Textprojektion. Bietet langkontextiges Aufforderungsverständnis für LTX-2.3 über CLIP-ähnliche Encoder und eine modell-spezifische Projektionsebene, die mit der LTX-Integration gebündelt ist. Siehe Encoder und Konfigurationen in ComfyUI-LTXVideo.
- Sulphur 2 Bewegungs-LoRA (optional). Ein Feintuning, das als LoRA geladen wird, um die Bewegungsgeschwindigkeit und -kontinuität für Bild-zu-Video zu beeinflussen. Es passt gut zu Prompt Relay, wenn Sie eine explizite Schlag-für-Schlag-Steuerung wünschen.
Wie man den ComfyUI LTX 2.3 Sulphur 2 Prompt Relay Workflow verwendet#
Der Workflow folgt einem klaren Pfad vom Referenzbild zur latenten Einrichtung, Modell und LoRAs, Aufforderungssequenzierung, Abtastung, dann Dekodieren und Exportieren. Ersetzen Sie die Demo-Eingaben durch Ihre eigenen und konzentrieren Sie sich auf die wenigen unten genannten Steuerungen.
- Referenzbild und Größenanpassung
LoadImage(#620) ermöglicht es Ihnen, das Ankerbild auszuwählen. Der nächste Knoten,ImageScaleByAspectRatio V2(#621), passt es an die Arbeitsfläche an und hält dabei die Komposition stabil.LTXVPreprocess(#586) wendet eine LTX-freundliche Vorverarbeitung an, sodass der erste Frame das Subjekt, die Beleuchtung und die Farbpalette festlegt. Verwenden Sie ein sauberes, gut beleuchtetes Referenzbild, das bereits Ihrem gewünschten Rahmen entspricht.
- Latente Einrichtung (Video + Audio)
EmptyLTXVLatentVideo(#577) definiert die Leinwandgröße und die Shot-Länge.Get_video_vae(#583) undLTXVImgToVideoInplaceKJ(#617) injizieren das Referenzbild direkt in das latente Video, sodass das Aussehen ab dem ersten Frame konsistent bleibt. Parallel dazu erzeugtGet_audio_vae(#576) mitLTXVEmptyLatentAudio(#547) ein synchronisiertes Audio-Latent (standardmäßig stumm), um die Zeitabstimmung beizubehalten.LTXVConcatAVLatent(#548) fusioniert beide Streams für eine einheitliche Diffusion.
- Modellladen und Bewegungssteuerung
UNETLoader(#632) lädt den destillierten LTX-2.3 Transformer. Der LoRA-Stack fügt Verhalten hinzu:LoraLoaderModelOnly(#630) wendet einen destillierten LTX-Helfer an,LoraLoaderModelOnly(#628) lädt die Sulphur 2 Bewegungs-LoRA, undLoraLoaderModelOnly(#606) kann einen I2V-Stabilisator hinzufügen.PathchSageAttentionKJ(#542) patcht die Aufmerksamkeit für Leistung/Konsistenz. Zusammen bestimmen diese Knoten, wie stark Ihre Aufforderungen die Bewegung steuern im Vergleich zur Erhaltung des Referenzbildes.
- Aufforderungssequenzierung mit Prompt Relay
DualCLIPLoader(#416) lädt den Text-Encoder.PromptRelaySmartEncode(#610) akzeptiert einglobal_promptfür unveränderliche Details und einsmart_promptfür die Aktionssequenz. Verwenden Sie durch Pipes getrennte Segmente wie "Frau geht im Regen | streicht sich durchs Haar | dreht sich um und winkt | geht in die Ferne," oder verwenden Sie Blocküberschriften wie "Szene 1: ... Szene 2: ..." um die Bildschirmzeit zu gewichten. Der Knoten verteilt die Zeit automatisch auf die Segmente, sodass Sie Beats schreiben können, anstatt Frames zu zählen. Siehe Syntaxreferenz in ComfyUI-PromptRelay.
- Konditionierung und Bildrate
LTXVConditioning(#164) erhält die Prompt Relay-Ausgabe für positive Führung und einen minimalen negativen Grundwert (ConditioningZeroOut, #420). Es setzt auch die Zielbildrate für den Shot, die nachfolgende Knoten verwenden, um die Zeitabstimmung mit Ihrer Segmentgewichtung konsistent zu halten.
- Abtaster und Vorschau
BasicScheduler(#514) formt den Rauschplan;KSamplerSelect(#154) wählt den Abtaster.VisualizeSigmasKJ(#358) zeigt den Plan an, sodass Sie sehen können, wie die Denoising-Kurve fortschreitet.LTX2SamplingPreviewOverride(#588) ermöglicht reaktionsschnelle Vorschauen während der Diffusion.SamplerCustom(#561) führt die einheitliche Audio-Video-Diffusion mit Ihrem AV-Latent, Aufforderungen, LoRAs und Plan aus.
- Dekodieren und Exportieren
LTXVSeparateAVLatent(#549) trennt das finale AV-Latent.VAEDecode(#471) produziert Frames;LTXVAudioVAEDecode(#550) dekodiert das Audio-Latent.VHS_VideoCombine(#604) mischt Frames und Audio in ein H.264 MP4 mit Standard-yuv420p-Formatierung, bereit für Wiedergabe und Bearbeitung.
Wichtige Knoten im ComfyUI LTX 2.3 Sulphur 2 Prompt Relay Workflow#
PromptRelaySmartEncode(#610)- Zweck: Übersetzt Ihren Schlag-für-Schlag "Smart Prompt" in richtig getimte Textkonditionierung für den gesamten Clip. Verwenden Sie
global_promptfür unveränderliche Details (Stil, Subjekt, Beleuchtung) undsmart_promptfür die Aktionssequenz. Zwei Autorenstile werden unterstützt: Inline-Segmente, getrennt durch|mit optionalen proportionellen Tags wie[0-50], oder Blocküberschriften wie "Szene 1:", die Segmente nach Reichweite gewichten. Halten Sie eine Syntax pro Aufforderung, um Mehrdeutigkeiten zu vermeiden. Referenz: ComfyUI-PromptRelay.
- Zweck: Übersetzt Ihren Schlag-für-Schlag "Smart Prompt" in richtig getimte Textkonditionierung für den gesamten Clip. Verwenden Sie
LTXVImgToVideoInplaceKJ(#617)- Zweck: Sperrt das Aussehen des ersten Frames und verbreitet es sanft durch die Bewegung. Wenn Identität oder Kleidung abweichen, erhöhen Sie die Bildanpassung; wenn die Bewegung eingeschränkt erscheint, senken Sie sie, um mehr Dynamik zuzulassen. Balancieren Sie dies mit Ihrer Sulphur 2 LoRA-Stärke, damit das Referenzbild stabil bleibt, ohne die Bewegung zu stark einzufrieren.
LoraLoaderModelOnly(#628) — Sulphur 2 Bewegungs-LoRA- Zweck: Integriert die Sulphur 2 Feintuning, um Bewegungs-Kontinuität, Trajektorie-Glätte und Aktions-Inszenierung zu betonen. Erhöhen Sie
strength_model, um geführte Bewegungen über Segmente zu betonen; reduzieren Sie es, wenn Sie übermäßige Einschränkungen oder sich wiederholende Muster sehen. Passen Sie dies zusammen mitImgToVideoInplaceStärke an, um Subjekt-Treue und Bewegungsenergie in Einklang zu halten.
- Zweck: Integriert die Sulphur 2 Feintuning, um Bewegungs-Kontinuität, Trajektorie-Glätte und Aktions-Inszenierung zu betonen. Erhöhen Sie
LTXVConditioning(#164)- Zweck: Konsolidiert positive/negative Konditionierung für LTX-2.3 und setzt die Bildrate des Clips. Wenn Sie den Shot verlängern, überprüfen Sie Ihre Prompt Relay Segmentgewichte, sodass das relative Timing immer noch den beabsichtigten Beats entspricht.
SamplerCustom(#561)- Zweck: Führt den Denoising-Durchgang mit Ihrem gewählten Abtaster und Plan aus. Wenn die Bewegung ruckelt, versuchen Sie einen etwas glatteren Plan oder einen für zeitliche Stabilität bekannten Abtaster; wenn Aufforderungen zu wenig steuern, erhöhen Sie die Führung leicht, während Sie auf Übersättigung achten. Verwenden Sie
VisualizeSigmasKJ, um die Form des Plans vor langen Läufen zu überprüfen.
- Zweck: Führt den Denoising-Durchgang mit Ihrem gewählten Abtaster und Plan aus. Wenn die Bewegung ruckelt, versuchen Sie einen etwas glatteren Plan oder einen für zeitliche Stabilität bekannten Abtaster; wenn Aufforderungen zu wenig steuern, erhöhen Sie die Führung leicht, während Sie auf Übersättigung achten. Verwenden Sie
Optionale Extras#
- Effektive Mikroaktionen mit Prompt Relay schreiben
- Inline-Stil: "geht im Regen | streicht sich durchs Haar | dreht sich um und winkt | verlässt." Um einer Aktion mehr Zeit zu geben, fügen Sie ein Gewichtungs-Tag wie "[0-200]" vs "[200-260]" hinzu; nur die Spanne zählt.
- Block-Stil: Verwenden Sie Überschriften wie "Szene 1:" und "Szene 2-4:" auf eigenen Zeilen. Der Bereich in der Überschrift setzt die relative Dauer, und Überschriften werden vor der Tokenisierung entfernt.
- Schnelle Fehlersuche
- Identitätsdrift: Erhöhen Sie die Bildanpassung in
LTXVImgToVideoInplaceKJoder reduzieren Sie Sulphur 2strength_model. - Bewegung zu langsam/schnell: Balancieren Sie Segmentspannen im Smart Prompt neu, sodass wichtige Beats mehr oder weniger Zeit erhalten.
- Flackern oder Artefakte: Versuchen Sie einen stabileren Abtaster und Plan, oder erhöhen Sie leicht die Führung; achten Sie auf Überschärfung.
- Identitätsdrift: Erhöhen Sie die Bildanpassung in
- Nützliche Referenzen
- LTX-2.3 Modellgewichte und Dokumente: Hugging Face: Lightricks/LTX-2.3
- ComfyUI Knoten und Beispielabläufe: Lightricks/ComfyUI-LTXVideo
- Prompt Relay Syntax und Beispiele: kijai/ComfyUI-PromptRelay
- LTX-freundliche Helfer, die in diesem Graphen verwendet werden: kijai/ComfyUI-KJNodes
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken Lightricks für LTX-Video, Kijai für den ComfyUI-PromptRelay-Knoten und ComfyUI-KJNodes-Helfer sowie RunningHub und RunComfy für Workflow-Referenzen und Cloud Save-Setup für ihre Beiträge und Wartung. Für autoritative Details verweisen Sie bitte auf die Originaldokumentation und -repositories, die unten verlinkt sind.
Ressourcen#
- RunningHub/Workflow-Referenz
- Dokumente / Versionshinweise: RunningHub Workflow-Referenz
- RunComfy/Cloud Save-Setup
- Dokumente / Versionshinweise: RunComfy Cloud Save-Setup
- Lightricks/LTX-Video
- GitHub: Lightricks/LTX-Video
- Hugging Face: Lightricks/LTX-Video-0.9.7-dev
- arXiv: arXiv:2501.00103
- kijai/ComfyUI-PromptRelay
- GitHub: kijai/ComfyUI-PromptRelay
- kijai/ComfyUI-KJNodes
- GitHub: kijai/ComfyUI-KJNodes
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.


