3D-Film-Pipeline für ComfyUI#
Die 3D-Film-Pipeline ist ein produktionsorientierter ComfyUI-Workflow von Mickmumpitz.ai, der strukturierte 3D-Szenenpässe in filmische KI-Videos verwandelt. Sie kombiniert Tiefenlayouts, Tonrendits, Kamerabewegungen und optionale Mundmasken mit dem LTX‑2.3-Videomodell, um das räumliche Layout, die Linsenwirkung und die Kontinuität zu bewahren, während Sie Bewegung, Aussehen und Timing steuern.
Entwickelt für Filmemacher, Animatoren und visuelle Geschichtenerzähler, vereinfacht die 3D-Film-Pipeline die Produktion von Multi-Shot-Filmen. Sie erhalten Steuerungen für die Platzierung von Frames, fortschrittliche Aufmerksamkeit für Objekt- und Regionenguidance, optionales Lippen-Sync von einem Sprachtrack und eine Hilfsbildstufe für schnelle Shot-Look-Previz, alles innerhalb von ComfyUI.
Schlüsselmodelle im Comfyui 3D-Film-Pipeline-Workflow#
Kern-Videostack
- LTX‑2.3 (22B) von Lightricks. Das primäre Videogenerierungsmodell, das Text, Steuersignale und 3D-Leitlinien folgt, um zeitlich kohärente Aufnahmen zu synthetisieren. Model card
- LTX Audio VAE (im Lieferumfang von LTX‑2.3 enthalten). Codiert und decodiert Audio als Audio-Latent, sodass das Modell Mundformen und Bewegungen zur Sprache zeitlich abstimmen kann. Model bundle
- Gemma 3 12B Instruct Text-Encoder für LTX‑2.x. Bietet das Sprach-Embedding, das von LTX‑2.3 für Aufforderungen verwendet wird. Vorgepackt für ComfyUI. Files
- LTX‑2.3 Distilled LoRA 384‑1.1. Beschleunigt das Sampling in wenigen Schritten und stabilisiert das Aussehen, wenn es mit dem Dev-Checkpoint verwendet wird. LoRA
- LTX‑2 19B IC‑LoRA Detailer. Verbessert lokale Details und Kantentreue im generierten Video. LoRA
- LTX‑2.3 OmniNFT RL LoRA. Stilverstärkung und Konsistenzhelfer für den Videostack. LoRA
- IC‑LoRA Union‑Control (ref 0.5). Eine Referenz-Ausrichtungs-LoRA, die verwendet wird, um Farbe und Struktur den Leitlinien treu zu halten; der 19B-Build wird oft für LTX‑2.3 bevorzugt. LoRA family
Optionaler Previz-Bildstack
- FLUX.2 Klein 9B (FP8). Schneller Bildgenerator, der hier verwendet wird, um Canny + Depth in einen stilisierten Frame für Look-Dev zu verwandeln. Model card
- Qwen 3 8B Text-Encoder für FLUX‑2. Files
- Flux‑2 VAE. Bild-VAE, das auf FLUX‑2 abgestimmt ist. Files
- Flux2‑Klein‑9B‑Consistency‑V2 LoRA. Verbessert die Farb- und Inhaltskonsistenz in Previz-Frames. LoRA
Referenzimplementierung von LTX-Knoten für ComfyUI: ComfyUI‑LTXVideo
So verwenden Sie den Comfyui 3D-Film-Pipeline-Workflow#
Die 3D-Film-Pipeline kombiniert drei Eingaben aus Ihrem DCC- oder Layout-Tool — einen Tiefenfilm, einen Ton-/Layoutfilm und einen optionalen Mundmaskenfilm — und führt dann LTX‑2.3 mit erweiterter Aufmerksamkeit, Referenz-Frames und optionalem Lippen-Sync aus, um den finalen Shot zu rendern. Ein Bild-Previz-Zweig mit FLUX.2 hilft Ihnen, das Aussehen einzustellen, bevor Sie sich für einen vollständigen Durchlauf entscheiden.
Auflösung und Shot-Setup#
Verwenden Sie ResolutionPicker (#6082), um Ihre Arbeitsbreite und -höhe festzulegen. Die Pipeline erwartet Abmessungen, die durch 64 teilbar sind, um effizientes Tiling und stabile Aufmerksamkeit zu gewährleisten. Halten Sie das gleiche Seitenverhältnis über alle Eingaben hinweg, damit die 3D-Film-Pipeline Pässe ohne unbeabsichtigte Zuschnitte oder Letterboxing ausrichten kann. Wenn Sie schnelle Tests durchführen möchten, reduzieren Sie die Frame-Anzahl mit FRAME LOAD CAP (#6214).
Eingabeframes (Start, Mitte, Ende)#
Laden Sie Referenzstills in START (LoadImage (#6108)), MIDDLE (#6139) und END (#6102). Der Workflow liest deren Größe mit GetImageSize+ (#6071) und passt die Leitlinien entsprechend an. Diese Frames können an bestimmten Indizes in der Zeitleiste platziert werden, um Schlüsselposen zu sperren, Storybeats zu setzen oder einen Look-Übergang zu erzwingen. Die 3D-Film-Pipeline verwendet diese Referenzen als Anker, während sie Bewegung und Kontinuität zwischen ihnen interpoliert.
Render-Pässe: Tiefe, Ton/Layout, Mundmaske#
DEPTH(VHS_LoadVideo(#5893)) bringt Ihren Tiefenfilm aus der 3D-App ein. Dies führt die Perspektive, Okklusion und volumetrische Platzierung, sodass LTX‑2.3 Kamerabewegungen und Blockierungen respektiert.CLAY / LAYOUT(VHS_LoadVideo(#6094)) liefert einen flach schattierten oder grau schattierten Render, um Silhouetten, Set-Design und Beleuchtungshinweise zu steuern. Ein Canny-Kantenpass (CannyEdgePreprocessor(#6095)) wird daraus abgeleitet, um die strukturelle Führung zu schärfen.MOUTH MASK(VHS_LoadVideo(#6059)) ist optional und markiert den Mundbereich pro Frame. Die 3D-Film-Pipeline verwendet ihn als Aufmerksamkeitsmaske, sodass Lippenbewegungen verfeinert werden können, ohne den Rest des Gesichts zu stören.
Mundmaskenanpassung#
Wenn Sie ein Maskenvideo bereitstellen, konvertiert ImageToMask (#6060) Frames in Masken und GrowMaskWithBlur (#6197) erweitert und erweicht Kanten für ein nachsichtigeres Inpainting. USE MASK VIDEO? (#6244) ermöglicht es Ihnen, zwischen einer generierten soliden Maske und dem eingehenden Maskenvideo zu wechseln. Dies hält Lippen-Sync-Bearbeitungen eng umgrenzt und reduziert Artefakte außerhalb des Sprechbereichs.
Treibende Videozusammenstellung#
Tiefen- und Layout-Streams werden mit ImageResizeKJv2 (#6097, #6099, #6103) normalisiert. BatchColorCorrector (#6100) balanciert Tonalität und Farbe, sodass das Modell über die gesamte Sequenz hinweg konsistente Belichtung und Palette sieht. Die 3D-Film-Pipeline mischt dann den Canny-Umriss mit dem korrigierten Layout mit ImageBlend (#6096) zu einem einheitlichen treibenden Video, dem der Generator folgt.
Voice-Over#
Fügen Sie Erzählung oder Dialog mit LoadAudio (#5883) hinzu. Es wird durch Set_VoiceOver (#6248) und Get_VoiceOver (#6249) an das Modell weitergeleitet. Wenn Lippen-Sync im Sampler aktiviert ist, verwendet die 3D-Film-Pipeline dieses Audio, um Mundformen und Mikrobewegungen zum gesprochenen Inhalt zeitlich abzustimmen.
Generieren mit LTX‑2.3#
Der Sampler-Knoten LTX 2.3 (#6202) ist das Herz der 3D-Film-Pipeline. Er empfängt Modell, Text-Encoder, VAE und Audio-VAE; das gemischte treibende Video; optionale Aufmerksamkeitsmaske; und Ihre Aufforderung von PROMPT (#6203). Umschalter ermöglichen es Ihnen, Start-/Mittel-/Endframes an definierten Positionen zu platzieren, ihren Einfluss zu mischen, Steuerungssignale zu aktivieren oder zu umgehen und Lippen-Sync einzuschalten. Der erweiterte Aufmerksamkeitsweg routet durch LTX-Videoguides, um Frames und Regionen zu gewichten, damit wichtige Subjekte modellgetreu bleiben.
Ausgabe#
Der Knoten schreibt einen bearbeitungsbereiten Film mit SaveVideo (#6109). Für alternative Pipelines oder nebeneinander liegende Vorschauen enthält der Workflow auch VHS_VideoCombine (#6057). Verwenden Sie die gleiche Bildrate in allen Schritten, um Audio, Maske und Führung perfekt im 3D-Film-Pipeline zu synchronisieren.
Optionale Bild-Previz mit FLUX.2#
Für schnelles Look-Dev ohne Neurendern eines vollständigen Shots lädt der Bildzweig Canny (CANNY (#7468)) und Tiefen (DEPTH (#7469)) Stills, mischt sie (ImageBlend (#7466)) und fordert FLUX.2 Klein 9B (SAMPLER (#7465)) an. Die Konsistenz-LoRA hilft, Farben und Details Ihren Leitlinien treu zu halten. Verwenden Sie SaveImage (#7444), um Previz-Frames zu exportieren, die Ihre Aufforderung und LoRA-Auswahl informieren, bevor Sie die vollständige 3D-Film-Pipeline ausführen.
Schlüssel-Knoten im Comfyui 3D-Film-Pipeline-Workflow#
LTX 2.3 (#6202)
- Rolle: Hauptvideogenerator, der Text, 3D-Leitlinien, Steuerungspässe und Audio in die endgültige Sequenz einfügt.
- Was zu adjustieren ist: Schalten Sie Lippen-Sync ein, wenn Audio bereitgestellt wird; schalten Sie ControlNet-Style-Guidance ein oder aus und passen Sie die Gesamtstärke an; platzieren Sie
START,MIDDLEundEND-Frames und mischen Sie ihren Einfluss, um wichtige Beats zu sperren. Halten Sie die Bildrate konsistent mit Ihren Eingaben, um Timing-Drift zu vermeiden.
DEPTH (#5893)
- Rolle: Lädt den Tiefenfilm, der die Szenengeometrie und Kamerabewegung festlegt.
- Was zu adjustieren ist: Passen Sie die Auflösung an
ResolutionPickeran und halten Sie die gleiche Länge wie die Layout- und Maskenclips. Verwenden SieFRAME LOAD CAPfür schnelle Iterationen während des Look-Dev.
CLAY / LAYOUT (#6094)
- Rolle: Bietet das Layout- oder Ton-Render, das verwendet wird, um Kanten zu extrahieren und Komposition, Beleuchtungsabsicht und Silhouetten zu steuern.
- Was zu adjustieren ist: Richten Sie sich an der Tiefenpass-Auflösung aus; wenn Sie die Gradierung upstream ändern, führen Sie
BatchColorCorrectorerneut aus, damit die Führung konsistent bleibt.
USE MASK VIDEO? (#6244)
- Rolle: Wechselt zwischen einer generierten soliden Mundmaske und dem eingehenden Maskenvideo.
- Was zu adjustieren ist: Verwenden Sie die Videomaske, wenn Lippen-Sync pro Frame Präzision erfordert; wechseln Sie zur soliden Maske, wenn Sie nur einen breiten geschützten Bereich benötigen.
LTXICLoRALoaderModelOnly (#6223)
- Rolle: Lädt die Union-Control IC-LoRA, die für Referenz-Ausrichtung und Farb-/Strukturtreue verwendet wird.
- Was zu adjustieren ist: Wählen Sie die Variante, die am besten zu LTX‑2.3 in Ihren Tests passt; viele Produktionen bevorzugen den 19B-Build für engere Einhaltung, wenn die 3D-Film-Pipeline ausgeführt wird.
Optionale Extras#
- Halten Sie alle Eingaben gleich lang und mit der gleichen Bildrate, um die Synchronisation über die 3D-Film-Pipeline hinweg zu gewährleisten.
- Die Tiefe sollte sauber und zeitlich stabil sein. Wenn Ihr DCC EXR oder 16-Bit-PNG exportiert, konvertieren Sie es einmal in ein Mezzanine-Format und verwenden Sie es für alle Iterationen.
- Start-/Mittel-/Endframes funktionieren am besten, wenn sie unterscheidbare, storyrelevante Posen oder Beleuchtungszustände zeigen; vermeiden Sie nahezu doppelte Aufnahmen.
- Wenn der Mundbereich flackert, erweitern Sie die Maske in
GrowMaskWithBlurleicht, um Lippen, Zähne und einen dünnen Hautrand einzuschließen. - Für große Aufnahmen iterieren Sie mit
FRAME LOAD CAPund einer kleineren Auflösung, und schalten Sie dann für die Endversionen zurück zu voller Auflösung. - Wenn Sie vom Dev-Checkpoint zum destillierten Checkpoint wechseln, deaktivieren Sie die destillierte LoRA, um Überbeschränkungen zu vermeiden.
- Verwenden Sie den FLUX.2-Previz-Zweig, um Palette und Stil mit Ihren tatsächlichen Canny- und Tiefen-Leitlinien zu testen, bevor Sie die vollständige 3D-Film-Pipeline ausführen.
Danksagungen#
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken MickMumpitz.ai für die 3D-Film-Pipeline-Workflow-Quelle für ihre Beiträge und Wartung. Für autoritative Details konsultieren Sie bitte die Originaldokumentation und Repositories, die unten verlinkt sind.
Ressourcen#
- MickMumpitz.ai/3D Film Pipeline Workflow Source
- Docs / Release Notes: 3D Movie Pipeline Workflow Source
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der jeweiligen Autoren und Wartenden.

