Die jüngsten Fortschritte im Bereich der 3D-Szenenrekonstruktion haben zu effizienten und hochqualitativen Verfahren für die Synthese neuer Ansichten geführt. Ein besonders vielversprechender Ansatz ist 3D Gaussian Splatting (3DGS). Trotz der Vorteile von 3DGS bleibt die präzise Darstellung von Oberflächen, insbesondere in großen und komplexen Szenen, eine Herausforderung. Hier setzt CityGaussianV2 an.
CityGaussianV2: Effiziente und Geometrisch Präzise Rekonstruktion für Großräumige Szenen
CityGaussianV2 adressiert die Herausforderungen der geometrischen Genauigkeit und Effizienz bei der Rekonstruktion von großräumigen Szenen. Der Ansatz baut auf den vielversprechenden Generalisierungsfähigkeiten von 2D Gaussian Splatting (2DGS) auf und optimiert dessen Konvergenz und Skalierbarkeit.
Optimierung der 2DGS-Grundlage
Ein Hauptproblem von 2DGS ist die langsame Konvergenz und die Entstehung von verschwommenen Artefakten. CityGaussianV2 implementiert eine auf zerlegten Gradienten basierende Verdichtungs- und Tiefenregressionstechnik. Diese Technik reduziert Unschärfe und beschleunigt die Konvergenz, was zu einer deutlich verbesserten geometrischen Genauigkeit führt.
Skalierbarkeit für große Szenen
Die Skalierung von 2DGS auf große Szenen führt oft zu einer explosionsartigen Zunahme der Gaußschen Primitiven. CityGaussianV2 begegnet diesem Problem mit einem sogenannten "Elongation Filter". Dieser Filter mindert die Anzahl der benötigten Gaußschen Primitiven und ermöglicht so die Rekonstruktion von deutlich größeren und komplexeren Szenen.
Effizientes paralleles Training
Ein weiterer Schwerpunkt von CityGaussianV2 liegt auf der Optimierung des Trainingsprozesses. Durch die Implementierung eines parallelen Trainingsprozesses wird eine bis zu zehnfache Komprimierung erreicht. Dies führt zu einer Einsparung von mindestens 25% der Trainingszeit und einer Halbierung des Speicherbedarfs.
Evaluierung und Ergebnisse
Um die Leistung von CityGaussianV2 objektiv zu bewerten, wurden standardisierte Geometriebenchmarks für großräumige Szenen erstellt. Die experimentellen Ergebnisse zeigen, dass CityGaussianV2 eine überzeugende Balance zwischen visueller Qualität, geometrischer Genauigkeit, Speicherbedarf und Trainingskosten bietet. Die Methode ermöglicht die Rekonstruktion detailreicher Szenen, wie beispielsweise von städtischen Umgebungen mit Gebäuden, Bäumen und Straßen, und liefert gleichzeitig eine effiziente und skalierbare Lösung für die 3D-Szenenrekonstruktion.
Mindverse: Ihr Partner für KI-Lösungen
Mindverse, ein deutsches Unternehmen, bietet ein umfassendes Toolkit für KI-gestützte Content-Erstellung, Bildgenerierung und Recherche. Als KI-Partner entwickelt Mindverse maßgeschneiderte Lösungen, darunter Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme, die auf die individuellen Bedürfnisse von Unternehmen zugeschnitten sind.
Bibliographie
Liu, Y., Luo, C., Mao, Z., Peng, J., & Zhang, Z. (2024). CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes. arXiv preprint arXiv:2411.00771.
Liu, Y., Guan, H., Luo, C., Fan, L., Peng, J., & Zhang, Z. (2024). CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians. In European Conference on Computer Vision (pp. 1-11). Springer, Cham.
Huang, B., Yu, Z., Chen, A., et al. (2024). 2D Gaussian Splatting for Geometrically Accurate Radiance Fields. ACM SIGGRAPH 2024 Conference Papers.
Guédon, A., & Lepetit, V. (2024). Surface-aligned gaussian splatting for efficient 3d mesh reconstruction and high-quality mesh rendering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 5354-5363).
Yu, Z., Sattler, T., & Geiger, A. (2024). Gaussian opacity fields: Efficient and compact surface reconstruction in unbounded scenes. ACM Transactions on Graphics (TOG), 43(6), 1-14.
Fang, L. (Ed.). (2024). Plenoptic Imaging and Processing. Springer Nature.