SAM 3D ComfyUI Objekt- und Körperbewegungssteuerung
Dieser Workflow liefert 3D-bewusste, strukturgeführte Generation aus einem einzigen Bild unter Verwendung von Segment Anything–basiertem Maskieren und Tiefenlogik. Er umfasst zwei einsatzbereite Modi: Objektmodus, um jedes maskierte Subjekt als texturiertes 3D-Mesh oder 3D-Gaussian zu extrahieren und zu rekonstruieren, und Körpermodus, um ein körperteilbewusstes menschliches Mesh zu erstellen. Das SAM 3D ComfyUI-Design betont räumliche Konsistenz, was es ideal für Objektbewegungssteuerung, Körperbewegungsführung und die Erstellung kontrollierbarer Assets für nachgelagerte Video- oder 3D-Pipelines macht.
Basierend auf den Open-Source-SAM3D-Projekten verwandelt dieser SAM 3D ComfyUI-Workflow ein einfaches Bild plus Maske in exportierbare GLB-, STL- und PLY-Assets mit Pose-Ausrichtung und Textur-Baking. Er eignet sich gut für Kreative, die schnelle, kontrollierbare Ergebnisse ohne Feinabstimmung wünschen.
Hinweis:
Dieser 3D "Objekt"-Workflow wird empfohlen, auf Medium, Large oder XLarge Maschinen zu laufen. Größere Maschinentypen können zu Laufzeitfehlern oder instabilen Ergebnissen führen. Der "Körper"-Workflow funktioniert gut für alle Maschinentypen.
Aufgrund der Komplexität der 3D-Rekonstruktion und Optimierung kann der "3D Objekt"-Workflow ~40 Minuten oder mehr dauern, um abgeschlossen zu werden.
Schlüsselmodelle im Comfyui SAM 3D ComfyUI-Workflow
- Segment Anything Model (SAM). Wird für hochwertige, promptbare Segmentierung verwendet, die räumliche Einschränkungen verankert. Siehe das Originalpapier für Details: Segment Anything.
- SAM3D Objekte vortrainierte Komponenten. Bieten Tiefe, spärliche Struktur, SLAT-Generierung, Mesh- und Gaussian-Dekoder sowie Textureinbettungen für die Objektrekonstruktion. Quelle: PozzettiAndrea/ComfyUI-SAM3DObjects.
- SAM3D Körper vortrainierte Komponenten. Bieten körperteilbewusste Verarbeitung, um menschliche Meshes und eine Debug-Ansicht zu erzeugen. Quelle: PozzettiAndrea/ComfyUI-SAM3DBody.
- Monokulare Tiefenschätzer, gebündelt in den SAM3D-Repositories. Liefert Kameraintrinsiken, eine Punktkarte und eine tiefeninformierte Maske, die die Rekonstruktion und Pose-Ausrichtung verbessern. Siehe die beiden SAM3D-Repositories oben.
- 3D Gaussian Splatting-Formulierung. Ermöglicht schnelle, fotorealistische punktbasierte Szenenrepräsentationen, die nützlich für schnelle Vorschauen und bestimmte Renderer sind: 3D Gaussian Splatting for Real-Time Rendering.
Wie man den Comfyui SAM 3D ComfyUI-Workflow verwendet
Auf hoher Ebene laden Sie ein einzelnes Bild und dessen Maske, dann wählen Sie entweder die Objektgruppe oder die Körpergruppe. Der Objektmodus rekonstruiert ein texturiertes Mesh und eine 3D-Gaussian-Darstellung mit optionaler Pose-Verfeinerung. Der Körpermodus konstruiert ein körperteilbewusstes Mesh und exportiert es zur schnellen Überprüfung oder für nachgelagerte Verwendung.
SAM3DObjects-Gruppe
Diese Gruppe verwandelt Ihr maskiertes Subjekt in ein 3D-Asset. Geben Sie ein Bild mit einer Maske an, die das Objekt isoliert, das Sie steuern möchten; der Workflow behandelt automatisch die Inversion, um das Subjekt als Vordergrund zu behandeln. Tiefe und Kameraintrinsiken werden geschätzt, um eine Punktkarte zu erzeugen, dann werden eine spärliche Struktur und eine anfängliche Pose erstellt. Von dort aus wird eine SLAT-Darstellung generiert und in sowohl ein Mesh als auch eine 3D-Gaussian dekodiert; ein Textur-Bake überträgt das Erscheinungsbild vom Ausgangsbild auf das Mesh. Schließlich verfeinert die Pose-Optimierung die Ausrichtung, bevor Sie eine Vorschau erstellen und exportieren; siehe SAM3D_DepthEstimate (#59), SAM3DSparseGen (#52), SAM3DSLATGen (#35), SAM3DMeshDecode (#45), SAM3DGaussianDecode (#37), SAM3DTextureBake (#47), und SAM3D_PoseOptimization (#57).
SAM3DBody-Gruppe
Diese Gruppe konzentriert sich auf menschliche Subjekte. Stellen Sie ein Bild und eine Maske bereit, die die Person abdeckt. Der Körperprozessor erzeugt ein körperteilbewusstes Mesh und ein Debug-Bild, damit Sie die Segmentierungsqualität überprüfen können. Sie können das Ergebnis als Mesh zur Inspektion oder Rigg exportieren und dann interaktiv in der Vorschau anzeigen. Die wesentlichen Schritte laufen über LoadSAM3DBodyModel (#62), SAM3DBodyProcess (#61), SAM3DBodyExportMesh (#64), und Preview3D (#65).
Schlüsselnoten im Comfyui SAM 3D ComfyUI-Workflow
LoadSAM3DModel (#44) Lädt alle Objektmodus-Gewichte an einem Ort, einschließlich Tiefe, spärlicher Struktur-Generator, SLAT-Generator und Dekoder sowie Textureinbettungen. Wenn die Gewichte auf Hugging Face gehostet sind, geben Sie Ihr Token ein und halten Sie den Anbieter entsprechend festgelegt. Verwenden Sie automatische Präzision, es sei denn, Sie haben einen Grund, einen bestimmten Dtype zu erzwingen. Sobald geladen, versorgen die gleichen Handles die gesamte Objektpipeline.
SAM3D_DepthEstimate (#59) Schätzt monokulare Tiefe, Kameraintrinsiken, eine Punktkarte und eine tiefeninformierte Maske aus Ihrem Eingabebild. Gute Rahmung ist wichtig: Halten Sie das Subjekt vernünftig zentriert und vermeiden Sie extreme Ausschnitte für stabilere Intrinsiken. Verwenden Sie die eingebaute Punktwolkenvorschau, um die Geometrie zu überprüfen, bevor Sie sich auf lange Backvorgänge festlegen. Die hier produzierten Intrinsiken und die Punktkarte werden später für die Pose-Optimierung wiederverwendet.
SAM3DSparseGen (#52) Erstellt eine spärliche Struktur und eine anfängliche Pose, indem das Bild, die Vordergrundmaske und Tiefenausgaben kombiniert werden. Wenn Ihre Maske zu locker ist, erwarten Sie Schwebeobjekte und schwächere Strukturen; straffen Sie die Kanten für schärfere Ergebnisse. Der Knoten gibt auch ein Pose-Objekt aus, das Sie in der Vorschau anzeigen können, um sicherzustellen, dass die Ausrichtung richtig aussieht. Diese spärliche Struktur bedingt direkt den SLAT-Generator.
SAM3DSLATGen (#35) Konvertiert die spärliche Struktur in eine SLAT-Darstellung, die kompakt und geometriebewusst ist. Ein sauberer SLAT ergibt sich typischerweise aus einer präzisen Maske und guter Tiefe. Wenn Sie planen, sich mehr auf Mesh-Ausgabe als auf Gaussian zu verlassen, bevorzugen Sie Einstellungen, die Details bewahren, anstatt extreme Sparsamkeit. Der ausgegebene SLAT-Pfad versorgt beide Dekoder.
SAM3DMeshDecode (#45) Dekodiert SLAT in ein wasserdichtes 3D-Mesh, das für Texturierung und Export geeignet ist. Wählen Sie Mesh, wenn Sie eine Topologie benötigen, die in DCC-Tools und Spiel-Engines funktioniert. Wenn Sie Überglätten oder Löcher sehen, überprüfen Sie die Maske und die Dichte der spärlichen Struktur weiter oben. Dieser Pfad produziert ein GLB, das später gebacken und optional poseausgerichtet wird.
SAM3DGaussianDecode (#37) Erzeugt eine 3D-Gaussian-Darstellung aus dem gleichen SLAT für schnelle Vorschauen und bestimmte Renderer. Es ist nützlich, wenn Sie Geometrie und Sichtpunktabdeckung schnell validieren möchten. Wenn Ihr Gaussian verrauscht aussieht, verbessern Sie die Maske oder erhöhen Sie die Strukturqualität, anstatt diesen Knoten übermäßig zu optimieren. Das resultierende PLY hilft auch beim Textur-Baking.
SAM3DTextureBake (#47) Projiziert das Erscheinungsbild vom Ausgangsbild auf das dekodierte Mesh. Verwenden Sie eine höhere Texturauflösung, wenn Sie Nahaufnahmen benötigen, und eine schnellere Voreinstellung für schnelle Iterationen. Die Wahl des Renderers kann Schärfe und Geschwindigkeit beeinflussen; wählen Sie die schnellere Option für Vorschauen und die hochwertigere Option für Endversionen. Dieser Knoten gibt das texturierte GLB zur Vorschau und Pose-Verfeinerung aus.
SAM3D_PoseOptimization (#57) Verfeinert die Ausrichtung des GLB unter Verwendung von Kameraintrinsiken, der Punktkarte, der ursprünglichen Maske und der anfänglichen Pose. Erhöhen Sie das Optimierungsbudget, wenn Sie eine Fehlausrichtung um dünne Strukturen wie Gliedmaßen oder Griffe beobachten. Halten Sie die Vordergrundmaske sauber, um zu verhindern, dass der Optimierer zur Hintergrundgeometrie driftet. Das optimierte GLB ist dann bereit zur Inspektion in der 3D-Vorschau.
SAM3DBodyProcess (#61) Führt körperteilbewusste Verarbeitung durch, um ein menschliches Mesh und eine Debug-Überlagerung zu erzeugen. Wählen Sie den Modus, der zu Ihrem Anwendungsfall passt, wie z.B. Vollkörper vs. spezifische Region, um die Mesh-Abdeckung zu steuern. Wenn Hände oder Haare abschneiden, verfeinern Sie die Maske um diese Bereiche für bessere Treue. Exportieren Sie zu STL für schnelle Überprüfungen oder konvertieren Sie später bei Bedarf.
Optionale Extras
- Verwenden Sie eine saubere, kontrastreiche Maske. Federn Sie nur leicht; harte Kanten rekonstruieren sich normalerweise besser im SAM 3D ComfyUI-Objektmodus.
- Für schnelle Iterationen verlassen Sie sich zuerst auf den Gaussian-Pfad, wechseln dann zur Mesh-Dekodierung und höheren Texturbakes.
- Wenn Gewichte Authentifizierung erfordern, fügen Sie ein gültiges Hugging Face-Token in die Lade-Knoten ein, bevor Sie den Graphen in die Warteschlange stellen.
- Überprüfen Sie die Punktwolke und die Pose-Vorschauen, bevor Sie lange Backvorgänge durchführen, um Rahmen- oder Maskenprobleme frühzeitig zu erkennen.
- Exportformate: GLB ist ideal für DCC und Engines, PLY Gaussians für kompatible Renderer, STL vom Körpermodus für schnelle Druckmaßstab-Überprüfungen.
- Halten Sie den Maßstab des Subjekts konsistent über Aufnahmen hinweg, wenn Sie planen, SAM 3D ComfyUI-Ausgaben zur Steuerung nachgelagerter Bewegungen oder Multiview-Sequenzen zu verwenden.
Danksagungen
Dieser Workflow implementiert und baut auf den folgenden Arbeiten und Ressourcen auf. Wir danken PozzettiAndrea für SAM 3D Objects und SAM 3D Body für ihre Beiträge und Wartung. Für autoritative Details, konsultieren Sie bitte die Originaldokumentation und Repositories, die unten verlinkt sind.
Ressourcen
- PozzettiAndrea/SAM 3D Objects
- GitHub: PozzettiAndrea/ComfyUI-SAM3DObjects
- PozzettiAndrea/SAM 3D Body
- GitHub: PozzettiAndrea/ComfyUI-SAM3DBody
Hinweis: Die Nutzung der referenzierten Modelle, Datensätze und des Codes unterliegt den jeweiligen Lizenzen und Bedingungen, die von ihren Autoren und Betreuern bereitgestellt werden.


