3D-Film-Pipeline in ComfyUI | AI 3D Szene-zu-Video-Workflow

ComfyUI 3D Movie Pipeline Workflow

3D Movie Pipeline in ComfyUI | AI 3D Scene-to-Video Workflow

Want to run this workflow?

Fully operational workflows
No missing nodes or models
No manual setups required
Features stunning visuals

ComfyUI 3D Movie Pipeline Examples

3D-Film-Pipeline für ComfyUI#

Die 3D-Film-Pipeline ist ein produktionsorientierter ComfyUI-Workflow von Mickmumpitz.ai, der strukturierte 3D-Szenenpässe in filmische KI-Videos verwandelt. Sie kombiniert Tiefenlayouts, Tonrendits, Kamerabewegungen und optionale Mundmasken mit dem LTX‑2.3-Videomodell, um das räumliche Layout, die Linsenwirkung und die Kontinuität zu bewahren, während Sie Bewegung, Aussehen und Timing steuern.

Entwickelt für Filmemacher, Animatoren und visuelle Geschichtenerzähler, vereinfacht die 3D-Film-Pipeline die Produktion von Multi-Shot-Filmen. Sie erhalten Steuerungen für die Platzierung von Frames, fortschrittliche Aufmerksamkeit für Objekt- und Regionenguidance, optionales Lippen-Sync von einem Sprachtrack und eine Hilfsbildstufe für schnelle Shot-Look-Previz, alles innerhalb von ComfyUI.

Schlüsselmodelle im Comfyui 3D-Film-Pipeline-Workflow#

Kern-Videostack

LTX‑2.3 (22B) von Lightricks. Das primäre Videogenerierungsmodell, das Text, Steuersignale und 3D-Leitlinien folgt, um zeitlich kohärente Aufnahmen zu synthetisieren. Model card
LTX Audio VAE (im Lieferumfang von LTX‑2.3 enthalten). Codiert und decodiert Audio als Audio-Latent, sodass das Modell Mundformen und Bewegungen zur Sprache zeitlich abstimmen kann. Model bundle
Gemma 3 12B Instruct Text-Encoder für LTX‑2.x. Bietet das Sprach-Embedding, das von LTX‑2.3 für Aufforderungen verwendet wird. Vorgepackt für ComfyUI. Files
LTX‑2.3 Distilled LoRA 384‑1.1. Beschleunigt das Sampling in wenigen Schritten und stabilisiert das Aussehen, wenn es mit dem Dev-Checkpoint verwendet wird. LoRA
LTX‑2 19B IC‑LoRA Detailer. Verbessert lokale Details und Kantentreue im generierten Video. LoRA
LTX‑2.3 OmniNFT RL LoRA. Stilverstärkung und Konsistenzhelfer für den Videostack. LoRA
IC‑LoRA Union‑Control (ref 0.5). Eine Referenz-Ausrichtungs-LoRA, die verwendet wird, um Farbe und Struktur den Leitlinien treu zu halten; der 19B-Build wird oft für LTX‑2.3 bevorzugt. LoRA family

Optionaler Previz-Bildstack

FLUX.2 Klein 9B (FP8). Schneller Bildgenerator, der hier verwendet wird, um Canny + Depth in einen stilisierten Frame für Look-Dev zu verwandeln. Model card
Qwen 3 8B Text-Encoder für FLUX‑2. Files
Flux‑2 VAE. Bild-VAE, das auf FLUX‑2 abgestimmt ist. Files
Flux2‑Klein‑9B‑Consistency‑V2 LoRA. Verbessert die Farb- und Inhaltskonsistenz in Previz-Frames. LoRA

Referenzimplementierung von LTX-Knoten für ComfyUI: ComfyUI‑LTXVideo

So verwenden Sie den Comfyui 3D-Film-Pipeline-Workflow#

Die 3D-Film-Pipeline kombiniert drei Eingaben aus Ihrem DCC- oder Layout-Tool — einen Tiefenfilm, einen Ton-/Layoutfilm und einen optionalen Mundmaskenfilm — und führt dann LTX‑2.3 mit erweiterter Aufmerksamkeit, Referenz-Frames und optionalem Lippen-Sync aus, um den finalen Shot zu rendern. Ein Bild-Previz-Zweig mit FLUX.2 hilft Ihnen, das Aussehen einzustellen, bevor Sie sich für einen vollständigen Durchlauf entscheiden.

Auflösung und Shot-Setup#

Verwenden Sie ResolutionPicker (#6082), um Ihre Arbeitsbreite und -höhe festzulegen. Die Pipeline erwartet Abmessungen, die durch 64 teilbar sind, um effizientes Tiling und stabile Aufmerksamkeit zu gewährleisten. Halten Sie das gleiche Seitenverhältnis über alle Eingaben hinweg, damit die 3D-Film-Pipeline Pässe ohne unbeabsichtigte Zuschnitte oder Letterboxing ausrichten kann. Wenn Sie schnelle Tests durchführen möchten, reduzieren Sie die Frame-Anzahl mit FRAME LOAD CAP (#6214).

Eingabeframes (Start, Mitte, Ende)#

Laden Sie Referenzstills in START (LoadImage (#6108)), MIDDLE (#6139) und END (#6102). Der Workflow liest deren Größe mit GetImageSize+ (#6071) und passt die Leitlinien entsprechend an. Diese Frames können an bestimmten Indizes in der Zeitleiste platziert werden, um Schlüsselposen zu sperren, Storybeats zu setzen oder einen Look-Übergang zu erzwingen. Die 3D-Film-Pipeline verwendet diese Referenzen als Anker, während sie Bewegung und Kontinuität zwischen ihnen interpoliert.

Render-Pässe: Tiefe, Ton/Layout, Mundmaske#

DEPTH (VHS_LoadVideo (#5893)) bringt Ihren Tiefenfilm aus der 3D-App ein. Dies führt die Perspektive, Okklusion und volumetrische Platzierung, sodass LTX‑2.3 Kamerabewegungen und Blockierungen respektiert.
CLAY / LAYOUT (VHS_LoadVideo (#6094)) liefert einen flach schattierten oder grau schattierten Render, um Silhouetten, Set-Design und Beleuchtungshinweise zu steuern. Ein Canny-Kantenpass (CannyEdgePreprocessor (#6095)) wird daraus abgeleitet, um die strukturelle Führung zu schärfen.
MOUTH MASK (VHS_LoadVideo (#6059)) ist optional und markiert den Mundbereich pro Frame. Die 3D-Film-Pipeline verwendet ihn als Aufmerksamkeitsmaske, sodass Lippenbewegungen verfeinert werden können, ohne den Rest des Gesichts zu stören.

Mundmaskenanpassung#

Wenn Sie ein Maskenvideo bereitstellen, konvertiert ImageToMask (#6060) Frames in Masken und GrowMaskWithBlur (#6197) erweitert und erweicht Kanten für ein nachsichtigeres Inpainting. USE MASK VIDEO? (#6244) ermöglicht es Ihnen, zwischen einer generierten soliden Maske und dem eingehenden Maskenvideo zu wechseln. Dies hält Lippen-Sync-Bearbeitungen eng umgrenzt und reduziert Artefakte außerhalb des Sprechbereichs.

Treibende Videozusammenstellung#

Tiefen- und Layout-Streams werden mit ImageResizeKJv2 (#6097, #6099, #6103) normalisiert. BatchColorCorrector (#6100) balanciert Tonalität und Farbe, sodass das Modell über die gesamte Sequenz hinweg konsistente Belichtung und Palette sieht. Die 3D-Film-Pipeline mischt dann den Canny-Umriss mit dem korrigierten Layout mit ImageBlend (#6096) zu einem einheitlichen treibenden Video, dem der Generator folgt.

Voice-Over#

Fügen Sie Erzählung oder Dialog mit LoadAudio (#5883) hinzu. Es wird durch Set_VoiceOver (#6248) und Get_VoiceOver (#6249) an das Modell weitergeleitet. Wenn Lippen-Sync im Sampler aktiviert ist, verwendet die 3D-Film-Pipeline dieses Audio, um Mundformen und Mikrobewegungen zum gesprochenen Inhalt zeitlich abzustimmen.

Generieren mit LTX‑2.3#

Der Sampler-Knoten LTX 2.3 (#6202) ist das Herz der 3D-Film-Pipeline. Er empfängt Modell, Text-Encoder, VAE und Audio-VAE; das gemischte treibende Video; optionale Aufmerksamkeitsmaske; und Ihre Aufforderung von PROMPT (#6203). Umschalter ermöglichen es Ihnen, Start-/Mittel-/Endframes an definierten Positionen zu platzieren, ihren Einfluss zu mischen, Steuerungssignale zu aktivieren oder zu umgehen und Lippen-Sync einzuschalten. Der erweiterte Aufmerksamkeitsweg routet durch LTX-Videoguides, um Frames und Regionen zu gewichten, damit wichtige Subjekte modellgetreu bleiben.

Ausgabe#

Der Knoten schreibt einen bearbeitungsbereiten Film mit SaveVideo (#6109). Für alternative Pipelines oder nebeneinander liegende Vorschauen enthält der Workflow auch VHS_VideoCombine (#6057). Verwenden Sie die gleiche Bildrate in allen Schritten, um Audio, Maske und Führung perfekt im 3D-Film-Pipeline zu synchronisieren.

Optionale Bild-Previz mit FLUX.2#

Für schnelles Look-Dev ohne Neurendern eines vollständigen Shots lädt der Bildzweig Canny (CANNY (#7468)) und Tiefen (DEPTH (#7469)) Stills, mischt sie (ImageBlend (#7466)) und fordert FLUX.2 Klein 9B (SAMPLER (#7465)) an. Die Konsistenz-LoRA hilft, Farben und Details Ihren Leitlinien treu zu halten. Verwenden Sie SaveImage (#7444), um Previz-Frames zu exportieren, die Ihre Aufforderung und LoRA-Auswahl informieren, bevor Sie die vollständige 3D-Film-Pipeline ausführen.

Schlüssel-Knoten im Comfyui 3D-Film-Pipeline-Workflow#

LTX 2.3 (#6202)

Rolle: Hauptvideogenerator, der Text, 3D-Leitlinien, Steuerungspässe und Audio in die endgültige Sequenz einfügt.
Was zu adjustieren ist: Schalten Sie Lippen-Sync ein, wenn Audio bereitgestellt wird; schalten Sie ControlNet-Style-Guidance ein oder aus und passen Sie die Gesamtstärke an; platzieren Sie START, MIDDLE und END-Frames und mischen Sie ihren Einfluss, um wichtige Beats zu sperren. Halten Sie die Bildrate konsistent mit Ihren Eingaben, um Timing-Drift zu vermeiden.

DEPTH (#5893)

Rolle: Lädt den Tiefenfilm, der die Szenengeometrie und Kamerabewegung festlegt.
Was zu adjustieren ist: Passen Sie die Auflösung an ResolutionPicker an und halten Sie die gleiche Länge wie die Layout- und Maskenclips. Verwenden Sie FRAME LOAD CAP für schnelle Iterationen während des Look-Dev.

CLAY / LAYOUT (#6094)

Rolle: Bietet das Layout- oder Ton-Render, das verwendet wird, um Kanten zu extrahieren und Komposition, Beleuchtungsabsicht und Silhouetten zu steuern.
Was zu adjustieren ist: Richten Sie sich an der Tiefenpass-Auflösung aus; wenn Sie die Gradierung upstream ändern, führen Sie BatchColorCorrector erneut aus, damit die Führung konsistent bleibt.

USE MASK VIDEO? (#6244)

Rolle: Wechselt zwischen einer generierten soliden Mundmaske und dem eingehenden Maskenvideo.
Was zu adjustieren ist: Verwenden Sie die Videomaske, wenn Lippen-Sync pro Frame Präzision erfordert; wechseln Sie zur soliden Maske, wenn Sie nur einen breiten geschützten Bereich benötigen.

LTXICLoRALoaderModelOnly (#6223)

Rolle: Lädt die Union-Control IC-LoRA, die für Referenz-Ausrichtung und Farb-/Strukturtreue verwendet wird.
Was zu adjustieren ist: Wählen Sie die Variante, die am besten zu LTX‑2.3 in Ihren Tests passt; viele Produktionen bevorzugen den 19B-Build für engere Einhaltung, wenn die 3D-Film-Pipeline ausgeführt wird.

Optionale Extras#

Halten Sie alle Eingaben gleich lang und mit der gleichen Bildrate, um die Synchronisation über die 3D-Film-Pipeline hinweg zu gewährleisten.
Die Tiefe sollte sauber und zeitlich stabil sein. Wenn Ihr DCC EXR oder 16-Bit-PNG exportiert, konvertieren Sie es einmal in ein Mezzanine-Format und verwenden Sie es für alle Iterationen.
Start-/Mittel-/Endframes funktionieren am besten, wenn sie unterscheidbare, storyrelevante Posen oder Beleuchtungszustände zeigen; vermeiden Sie nahezu doppelte Aufnahmen.
Wenn der Mundbereich flackert, erweitern Sie die Maske in GrowMaskWithBlur leicht, um Lippen, Zähne und einen dünnen Hautrand einzuschließen.
Für große Aufnahmen iterieren Sie mit FRAME LOAD CAP und einer kleineren Auflösung, und schalten Sie dann für die Endversionen zurück zu voller Auflösung.
Wenn Sie vom Dev-Checkpoint zum destillierten Checkpoint wechseln, deaktivieren Sie die destillierte LoRA, um Überbeschränkungen zu vermeiden.
Verwenden Sie den FLUX.2-Previz-Zweig, um Palette und Stil mit Ihren tatsächlichen Canny- und Tiefen-Leitlinien zu testen, bevor Sie die vollständige 3D-Film-Pipeline ausführen.

Danksagungen#

Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken MickMumpitz.ai für die 3D-Film-Pipeline-Workflow-Quelle für ihre Beiträge und Wartung. Für autoritative Details konsultieren Sie bitte die Originaldokumentation und Repositories, die unten verlinkt sind.

Ressourcen#

MickMumpitz.ai/3D Film Pipeline Workflow Source
- Docs / Release Notes: 3D Movie Pipeline Workflow Source

Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und Codes unterliegt den jeweiligen Lizenzen und Bedingungen der jeweiligen Autoren und Wartenden.

Want More ComfyUI Workflows?

TripoSplat 3D Gaussian Splats Workflow | Bild zu 3D

Verwandeln Sie ein Bild in 3D Gaussian Splats mit TripoSplat.

Reallusion AI Render | 3D zu ComfyUI Workflows Sammlung

ComfyUI + Reallusion = Geschwindigkeit, Zugänglichkeit und Einfachheit für 3D-Visualisierungen

Hunyuan3D 2.1 | Bild zu 3D-Modell

Großer Sprung von 2.0: Verwandeln Sie Fotos sofort in unglaubliche 3D-Modelle.

Trellis | Bild zu 3D

Trellis ist ein fortschrittliches Bild-zu-3D-Modell für die Erstellung hochwertiger 3D-Assets.

Blender + ComfyUI | AI-Rendering von 3D-Animationen

Verwenden Sie Blender, um 3D-Szenen einzurichten und Bildsequenzen zu generieren, und nutzen Sie dann ComfyUI für das AI-Rendering.

daVinci-MagiHuman | Realistischer sprechender Menschengenerator

Erstellt lebensechte Avatare mit synchronisierter Sprache und ausdrucksstarker Bewegung.

LTX 2.3 Cozy Felt | Weicher Text-zu-Video-Ersteller

Verwandeln Sie Ihre Ideen mühelos in handgemachte Videos im Filzstil.

OmniGen | Bild-zu-Bild

OmniGen: Bilder anhand von Referenzbildern und Eingaben modifizieren

Support

Ressourcen

Rechtliches

RunComfy

RunComfy ist die führende ComfyUI Plattform, die ComfyUI online Umgebung und Services bietet, zusammen mit ComfyUI Workflows mit atemberaubenden Visualisierungen. RunComfy bietet auch AI Models, Künstlern ermöglichen, die neuesten AI-Tools zu nutzen, um unglaubliche Kunst zu schaffen.

3D-Film-Pipeline | Filmischer Videoersteller