Fortschritte in der Text-zu-3D-Bildgenerierung: Innovativer Schwung durch neue KI-Modelle

Kategorien:

No items found.

Freigegeben:

In der Welt der Technologie und künstlichen Intelligenz vollziehen sich ständige Fortschritte, und die Generierung von dreidimensionalen Bildern aus Textbeschreibungen ist eines der faszinierendsten Gebiete, das aktuell an Dynamik gewinnt. Ein besonders beachtenswerter Durchbruch in diesem Bereich ist die Entwicklung von "IM-3D", einem Ansatz zur iterativen Multiview-Diffusion und Rekonstruktion für die Erzeugung hochqualitativer 3D-Bilder, der kürzlich von Meta vorgestellt wurde.

Der Prozess der Text-zu-3D-Generierung beruht traditionell auf vorgefertigten Text-zu-Bild-Modellen, die mit Milliarden von Bildern trainiert wurden. Diese Modelle verwenden Varianten des Score Distillation Sampling (SDS), was jedoch als langsam, teilweise instabil und anfällig für Artefakte gilt. Eine Verbesserungsmöglichkeit besteht darin, den 2D-Generator so zu verfeinern, dass er sich der Mehransichtigkeit bewusst wird, was die Destillation unterstützen oder in Kombination mit Rekonstruktionsnetzwerken direkt zur Ausgabe von 3D-Objekten führen kann. Mit IM-3D erkundet Meta weiterhin den Gestaltungsspielraum von Text-zu-3D-Modellen und verbessert dabei erheblich die Generierung aus mehreren Ansichten, indem sie statt auf Bildgeneratoren auf Videogeneratoren setzen. Zusammen mit einem 3D-Rekonstruktionsalgorithmus, der durch Gaussian Splatting eine robuste bildbasierte Verlustoptimierung ermöglicht, produziert dieser Ansatz direkt hochqualitative 3D-Ergebnisse aus den generierten Ansichten.

Die Innovation von IM-3D besteht in einer deutlichen Reduzierung der benötigten Auswertungen des 2D-Generatornetzwerks um den Faktor 10 bis 100, was zu einer wesentlich effizienteren Pipeline führt. Dies resultiert in besserer Qualität, weniger geometrischen Inkonsistenzen und einer höheren Ausbeute an nutzbaren 3D-Assets. Die Methode zeigt auf, wie 3D-Modelle auf eine effiziente und qualitativ hochwertige Weise generiert werden können, wobei die Komplexität und die Rechenintensität der bisherigen Prozesse signifikant reduziert werden.

Ein weiterer Ansatz, der in die gleiche Richtung geht, wurde in der Arbeit "3D-aware Image Generation using 2D Diffusion Models" vorgestellt. Forscher von der Tsinghua Universität, Microsoft Research Asia und der ShanghaiTech Universität haben eine innovative Methode zur 3D-bewussten Bildgenerierung vorgeschlagen, die 2D-Diffusionsmodelle nutzt. Diese Methode betrachtet die Aufgabe der 3D-bewussten Bildgenerierung als Generierung eines Satzes von multiview 2D-Bildern und führt sie weiter zu einem sequenziellen unbedingten-bedingten multiview Bildgenerierungsprozess. Durch die Nutzung von 2D-Diffusionsmodellen wird die generative Modellierungskraft der Methode gestärkt. Zusätzlich wird Tiefeninformation aus monokularen Tiefenschätzern verwendet, um die Trainingsdaten für das bedingte Diffusionsmodell zu konstruieren, indem ausschließlich Standbilder genutzt werden. Diese Methode, die auf einem großen Datensatz wie ImageNet trainiert wurde, erzeugt hochqualitative Bilder, die frühere Methoden deutlich übertreffen.

Die Schlüsselidee dieser Methode ist es, die Aufgabe der 3D-bewussten Bildgenerierung als Generierung eines Satzes von multiview 2D-Bildern zu formulieren, basierend auf der Annahme, dass die Verteilung von 3D-Assets gleichbedeutend mit der gemeinsamen Verteilung ihrer entsprechenden multiview Bilder ist. Um einen Satz von multiview Bildern zu generieren, die ihrer gemeinsamen Verteilung folgen, wird diese in die Multiplikation einer unbedingten Verteilung und einer Serie von bedingten Verteilungen mit der Kettenregel der Wahrscheinlichkeit zerlegt. In der Praxis jedoch sind multiview Bilder ebenso schwer zu erhalten. Um unstrukturierte 2D-Bildsammlungen zu nutzen, werden Trainingsdaten mittels tiefenbasierter Bildverzerrung konstruiert. Anschließend werden zwei Diffusionsmodelle trainiert, um die unbedingten und bedingten Verteilungen jeweils anzupassen.

Diese Entwicklungen sind ein Zeugnis für die kontinuierliche Weiterentwicklung und Anpassung von KI-Technologien in der Bild- und Datenverarbeitung, die neue Möglichkeiten für die Erstellung und Nutzung von 3D-Modellen eröffnen. Dies hat weitreichende Implikationen für verschiedene Industrien, von der Unterhaltung über das Produktdesign bis hin zur medizinischen Bildgebung.

Quellen:
1. Ak, _ (2024). Meta präsentiert IM-3D. [Twitter-Post]. Abgerufen von https://twitter.com/_akhaliq
2. Xiang, J., Yang, J., Huang, B., & Tong, X. (2023). 3D-aware Image Generation using 2D Diffusion Models. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2383-2393. Verfügbar unter: https://arxiv.org/pdf/2311.07885
3. Liu, Y. [YuanLiu41955461]. (2023). SyncDreamer: Generating Multiview-consistent Images from a Single-view Image. [Twitter-Post]. Abgerufen von https://twitter.com/YuanLiu41955461
4. https://jeffreyxiang.github.io/ivid/
5. https://openreview.net/pdf/9fac27f33f6d8a97aaa5d167ddbc2c5f21f7bfb9.pdf

Was bedeutet das?

No items found.