Revolution in der 3D-Modellierung: Das Large Reconstruction Model verwandelt 2D in Realität

Kategorien:
No items found.
Freigegeben:

Artikel jetzt als Podcast anhören

In der Welt der digitalen Bildverarbeitung und Computergrafik stellt die Erstellung von 3D-Modellen aus einzelnen 2D-Bildern eine der herausforderndsten Aufgaben dar. Lange Zeit waren die gängigen Methoden auf kleine Datensätze und kategorienspezifische Ansätze beschränkt, was die Generalisierbarkeit und Qualität der generierten 3D-Rekonstruktionen stark einschränkte. Dies ändert sich nun mit der Entwicklung des Large Reconstruction Model (LRM), das von einem internationalen Forscherteam unter der Leitung von Yicong Hong von Adobe Research und der Australian National University vorgestellt wurde.

Das LRM zeichnet sich durch eine hohe Skalierbarkeit und eine transformerbasierte Architektur aus, die es ermöglicht, aus einem einzelnen Eingabebild innerhalb von nur fünf Sekunden ein hochwertiges 3D-Modell zu erzeugen. Mit 500 Millionen lernbaren Parametern kann das LRM eine sogenannte Neural Radiance Field (NeRF) direkt aus dem Bild vorhersagen. Das Training des Modells erfolgt in einem End-to-End-Ansatz auf umfangreichen Multi-View-Daten, die etwa eine Million Objekte umfassen. Diese Datensätze beinhalten sowohl synthetische Renderings aus dem Objaverse als auch echte Aufnahmen aus MVImgNet.

Der umfangreiche Datensatz und die hohe Kapazität des Modells ermöglichen es dem LRM, eine hohe Generalisierbarkeit zu erreichen und qualitativ hochwertige 3D-Rekonstruktionen von verschiedenen Testeingaben zu erzeugen. Dazu gehören sowohl Aufnahmen aus der realen Welt als auch Bilder aus generativen Modellen. Die Forscher haben ihre Ergebnisse in einer umfangreichen Studie dokumentiert und Video-Demos sowie interaktive 3D-Meshes auf einer Website zur Verfügung gestellt.

Das LRM basiert auf einem vollständig differenzierbaren transformerbasierten Encoder-Decoder-Framework für die NeRF-Rekonstruktion aus Einzelbildern. Es verwendet ein vortrainiertes Vision-Modell (DINO), um das Eingabebild zu kodieren. Die Bildmerkmale werden dann durch einen großen Transformer-Decoder mittels Cross-Attention in eine 3D-Triplane-Darstellung projiziert, gefolgt von einem Mehrschicht-Perzeptron, um die Punkt-Farbe und -Dichte für die volumetrische Darstellung vorherzusagen. Das gesamte Netzwerk wird auf etwa einer Million 3D-Daten trainiert, indem einfach die Differenz zwischen den gerenderten Bildern und den Ground-Truth-Bildern bei neuen Ansichten minimiert wird.

Die offene Implementierung des LRM, bekannt als OpenLRM, ist öffentlich zugänglich und wurde bereits auf GitHub veröffentlicht. Die Community wird ermutigt, das OpenLRM-Colab auszuprobieren und sich mit dem Code und den potenziellen Anwendungen vertraut zu machen.

Die Forschung, die hinter LRM steht, wurde im Rahmen einer wissenschaftlichen Publikation auf arXiv dargelegt und wird voraussichtlich die Art und Weise, wie 3D-Modelle aus 2D-Bildern erstellt werden, nachhaltig beeinflussen. Insbesondere im Hinblick auf die Effizienz und die Qualität der Ergebnisse, die in kürzester Zeit erreicht werden können, stellt das LRM einen bedeutenden Schritt nach vorne dar.

Die Relevanz dieser Entwicklung ist nicht zu unterschätzen, da sie zahlreiche Anwendungen in den Bereichen Virtual Reality, Augmented Reality, Computerspiele, Filmproduktion und mehr ermöglicht. Die Möglichkeit, schnell und zuverlässig 3D-Modelle aus einzelnen Bildern zu erstellen, hat das Potenzial, Workflows zu beschleunigen und die Kreativität von Künstlern und Entwicklern zu erweitern.

Abschließend lässt sich feststellen, dass das Large Reconstruction Model ein beeindruckender Fortschritt in der Computer Vision und Mustererkennung ist und die Art und Weise, wie wir 3D-Inhalte aus 2D-Bildern generieren und interagieren, revolutionieren könnte. Mit der Veröffentlichung von OpenLRM und der damit verbundenen Zugänglichkeit dieser Technologie steht zu erwarten, dass die Forschung und Entwicklung in diesem Bereich weiter an Dynamik gewinnen wird.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.