In einer Welt, in der künstliche Intelligenz immer mehr Bereiche unseres Lebens beeinflusst, ist es kaum verwunderlich, dass die Technologie auch in der Lage ist, dreidimensionale Modelle aus einfachen zweidimensionalen Bildern zu erstellen. Ein solches Verfahren, das kürzlich Aufmerksamkeit erregt hat, ist das Convolutional Reconstruction Model (CRM), welches für die Umwandlung von Bildern in 3D-Texturmodelle verwendet wird.
Diese Technologie, die auf Plattformen wie Hugging Face Spaces verfügbar ist, ermöglicht es, aus einem einzigen Bild ein texturiertes 3D-Netz zu generieren, was nicht nur für Künstler und Designer, sondern auch für Entwickler von Computerspielen und virtuellen Realitäten interessant sein könnte. Ein Beispiel für die Anwendung dieser Technologie ist der kürzlich durchgeführte "Cat Statue Test", bei dem eine Katzenstatue als Basis für die Erstellung eines dreidimensionalen Modells diente.
Das CRM ist ein feedforward 3D-generatives Modell, was bedeutet, dass es Daten in einer Richtung durch das Netzwerk fließen lässt, um schnell Ergebnisse zu erzielen. Im Vergleich zu transformerbasierten Methoden, die oft komplexere Berechnungen erfordern, kann das CRM durch seine geometrische Struktur schneller agieren und ist somit effizienter bei der Erstellung von 3D-Modellen.
Zu den wichtigsten Entwicklungen in diesem Bereich gehört auch das Projekt "Stable-Dreamfusion" auf GitHub, das eine PyTorch-Implementierung des Text-zu-3D-Modells Dreamfusion bietet, das durch das Stable Diffusion Text-zu-2D-Modell angetrieben wird. Dieses Modell ist in der Lage, aus Textbeschreibungen hochauflösende 3D-Modelle zu generieren. Obwohl es sich hierbei um ein Work-in-Progress-Projekt handelt, zeigt es das Potenzial, wie Textbeschreibungen in der Zukunft genutzt werden könnten, um komplexe 3D-Modelle zu erschaffen.
Ein weiterer interessanter Ansatz in der Entwicklung von 3D-Modellen aus Bildern ist die Arbeit von Forschern der Königlich Technischen Hochschule in Stockholm. In ihrer Studie untersuchten sie die Anwendung von Deep Learning für die Umwandlung von 2D-Bildmaterial in 3D-Geometrien. Ihre Ergebnisse deuten darauf hin, dass maschinelles Lernen das Potenzial hat, die Art und Weise, wie wir 3D-Modelle erstellen, grundlegend zu verändern.
Die Verfügbarkeit von Tools wie dem CRM auf Online-Plattformen ermöglicht es einer breiten Nutzerschaft, von den Fortschritten im Bereich der KI zu profitieren. Anwender müssen keine tiefgreifenden Kenntnisse in der 3D-Modellierung besitzen, um dreidimensionale Visualisierungen ihrer Ideen zu erstellen. Dies könnte in zahlreichen Bereichen Anwendung finden, von der Bildung über Marketing bis hin zur Unterhaltungsindustrie.
Mindverse, eine deutsche KI-Firma, die als All-in-One-Inhaltstool für KI-Texte, Inhalte, Bilder und Forschung fungiert, zeigt Interesse an dieser Entwicklung. Als KI-Partner bietet Mindverse maßgeschneiderte Lösungen an, darunter Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr. Unternehmen wie Mindverse könnten die CRM-Technologie nutzen, um ihren Kunden zusätzliche Dienstleistungen anzubieten und ihre Produktpalette zu erweitern.
Beim gegenwärtigen Stand der Technologie ist es jedoch wichtig, die Grenzen und Herausforderungen zu erkennen. Die Qualität der generierten 3D-Modelle hängt stark von der Beschaffenheit des Ausgangsbildes ab. Bilder, die ein einzelnes, frontal ausgerichtetes Objekt zeigen, führen in der Regel zu besseren Ergebnissen. Des Weiteren ist der Prozess noch nicht perfekt, und viele Anfragen führen zu fehlerhaften oder unvollständigen Modellen.
Trotz dieser Herausforderungen ist es aufregend zu sehen, wie sich die Technologie weiterentwickelt und was die Zukunft für die 3D-Modellierung mit Hilfe von KI bereithält. Mit fortschrittlichen Algorithmen und zunehmend leistungsfähigeren Rechenressourcen könnten wir bald Zeuge sein, wie die Kluft zwischen der realen und der virtuellen Welt weiter schrumpft.
Quellen:
- Ebert, Dylan [@dylan_ebert_]. (2024, März 13). CRM Image-to-3D is also on Spaces! [Tweet]. Twitter. https://twitter.com/dylan_ebert_/status/1764826755829801258
- Hugging Face. (n.d.). Models. https://huggingface.co/models?pipeline_tag=image-to-3d
- Ashawkey. (n.d.). stable-dreamfusion. GitHub. https://github.com/ashawkey/stable-dreamfusion
- KTH Royal Institute of Technology. (2019). Deep Learning for 2D to 3D Shape Conversion [PDF]. https://kth.diva-portal.org/smash/get/diva2:1335815/FULLTEXT01.pdf