Von 2D zu 3D: Die Evolution der Bildmodellierung durch Künstliche Intelligenz

Kategorien:

No items found.

Freigegeben:

Artikel jetzt als Podcast anhören

Die Entwicklung konsistenter 3D-Modelle aus zweidimensionalen Bildern ist ein Bereich, der zunehmend an Bedeutung gewinnt. Künstliche Intelligenz (KI) spielt dabei eine zentrale Rolle, indem sie Werkzeuge und Methoden bereitstellt, die es ermöglichen, aus einem einzigen 2D-Bild eine Reihe von Ansichten zu erzeugen, die ein dreidimensionales Objekt aus verschiedenen Blickwinkeln darstellen.

Ein Projekt, das in diesem Zusammenhang Aufmerksamkeit erregt hat, ist Isotropic3D. Entwickelt von einem internationalen Forscherteam, erzeugt Isotropic3D konsistente Bilder und 3D-Modelle, die sich durch symmetrische Inhalte, wohlproportionierte Geometrie und reiche Texturen auszeichnen, während Verzerrungen minimiert werden. Diese Eigenschaften sind besonders wichtig für Anwendungen, bei denen die visuelle Qualität und die räumliche Genauigkeit von entscheidender Bedeutung sind.

Die dahinterstehende Technologie ist SyncDreamer, ein neuartiges Diffusionsmodell, das multiview-konsistente Bilder aus einem Einzelbild generieren kann. Dies erfolgt durch die Synchronisation der Zwischenzustände aller generierten Bilder in jedem Schritt des umgekehrten Prozesses. Ein 3D-aware Feature-Aufmerksamkeitsmechanismus verknüpft dabei korrespondierende Merkmale über verschiedene Ansichten hinweg. Die Forscher haben gezeigt, dass SyncDreamer in der Lage ist, Bilder mit hoher Konsistenz über verschiedene Sichtweisen hinweg zu generieren und somit für verschiedene Aufgaben der 3D-Generierung, wie Novel-View-Synthesis, Text-zu-3D und Bild-zu-3D, geeignet ist.

Die Anwendungen von Isotropic3D und SyncDreamer sind vielfältig und reichen von der Erstellung von 3D-Modellen aus 2D-Designs und Handzeichnungen, wie Skizzen und Ölgemälden, bis hin zur Generierung von unterschiedlichen Instanzen eines einzelnen Bildes unter Verwendung verschiedener Zufallsseeds. Die Ergebnisse, die auf dem Google Scanned Object-Datensatz basieren, zeigen das Potenzial dieser Methoden für eine breite Palette von Anwendungen.

Neben Isotropic3D und SyncDreamer gibt es auch andere Ansätze, die auf der Generierung von 3D-Modellen aus 2D-Bildern basieren. So schlägt ein Forschungsteam der Universität Oxford eine Methode vor, um 3D-Geometrie aus der vielfältigen und unstrukturierten Imagenet-Datenbank zu rekonstruieren, ohne dass Kamerapositionsinformationen benötigt werden. Sie nutzen eine effiziente Triplane-Darstellung, um 3D-Modelle aus 2D-Bildern zu lernen, und modifizieren die Architektur des Generators auf der Grundlage von StyleGAN2, um sich an den hochdiversen Datensatz anzupassen.

Durch die Anwendung von Multi-View-Diskriminierung verbessern sie die Trainingsstabilität auf vielfältigen Daten und verhindern so den Mode-Kollaps, was zu besseren 3D-Modellen führt. Die von ihnen entwickelten Klassen-konditionalen 3D-Modelle zeigen eine deutliche Verbesserung gegenüber aktuellen Methoden.

Gradio, eine Plattform zur Erstellung und gemeinsamen Nutzung von maschinellen Lernanwendungen in Python, bietet auch Tools zur Erstellung eigener Image-to-3D-Tools. Mit dem Model3D-Component von Gradio können Benutzer 3D-Modell-Dateien hochladen oder anzeigen, die in den Formaten .obj, .glb, .stl oder .gltf vorliegen. Die Komponente ermöglicht es außerdem, die Hintergrundfarbe der Szene anzupassen, die Kameraposition einzustellen und die Zoom- und Schwenkgeschwindigkeit zu konfigurieren. Dies erleichtert die Integration von 3D-Modellen in personalisierte Anwendungen und die Interaktion mit diesen Modellen in einer benutzerfreundlichen Umgebung.

Die Fortschritte auf dem Gebiet der 3D-Modellierung aus 2D-Bildern sind beeindruckend und die Möglichkeiten, die sich aus diesen technologischen Entwicklungen ergeben, werden sicherlich zahlreiche Branchen revolutionieren. Von der Videospieleentwicklung bis hin zur virtuellen Realität und dem Produktdesign – die Fähigkeit, realistische 3D-Modelle aus flachen Bildern zu extrahieren, eröffnet neue Dimensionen der Kreativität und Effizienz.

Quellen:
- SyncDreamer: Generating Multiview-consistent Images from a Single-view Image. Arxiv 2023. Yuan Liu, Cheng Lin, Zijiao Zeng, Xiaoxiao Long, Lingjie Liu, Taku Komura, Wenping Wang. Verfügbar unter: https://arxiv.org/abs/2402.00225v2
- Generating accurate 3D models from in-the-wild images in ImageNet. Qijia Shen, Guangrun Wang. Verfügbar unter: https://publikationen.bibliothek.kit.edu/1000025619/3467373
- Gradio Model3D Component Dokumentation. Verfügbar unter: https://www.gradio.app/docs/model3d

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Vorbereitete KI Lösungen für:

Marketing & PR Kreative & Designer Projektleiter

Recht & Finanzen Vertrieb & Kunden-Service Teams

Für Studenten Für Bildungseinrichtungen

No items found.