Meta führt VGGSfM ein: Neuartige Fortschritte in der Deep-Learning-basierten Struktur-aus-Bewegung Technologie

Kategorien:
No items found.
Freigegeben:
July 20, 2024

Meta veröffentlicht VGGSfM: Ein Durchbruch in der Struktur-aus-Bewegung Technik

Einleitung

Structure-from-motion (SfM) ist ein langjähriges Problem in der Computer Vision Community, das darauf abzielt, die Kamerapositionen und die 3D-Struktur einer Szene aus einer Reihe von ungebundenen 2D-Bildern zu rekonstruieren. Klassische Frameworks lösen dieses Problem schrittweise durch Erkennung und Zuordnung von Schlüsselpunkten, Registrierung von Bildern, Triangulation von 3D-Punkten und Durchführung von Bündelanpassungen. Neue Forschungsergebnisse konzentrieren sich darauf, die Leistungsfähigkeit von Deep-Learning-Techniken zu nutzen, um spezifische Elemente zu verbessern, sind jedoch immer noch auf die ursprüngliche, nicht differenzierbare Pipeline angewiesen. Stattdessen hat Meta nun eine neue Deep SfM Pipeline namens VGGSfM vorgestellt, bei der jede Komponente vollständig differenzierbar ist und somit end-to-end trainiert werden kann.

Hintergrund und Entwicklung

SfM ist ein grundlegendes Problem in der Computer Vision und wird seit Jahrzehnten untersucht. Die klassischen Pipelines lösen das SfM-Problem in einer globalen oder schrittweisen Weise, wobei beide normalerweise auf paarweiser Bildschlüsselpunktzuordnung basieren. Das inkrementelle SfM ist wohl die am weitesten verbreitete Strategie. Viele Deep-Learning-Ansätze wurden vorgeschlagen, um dieses Framework zu verbessern, indem sie bessere Schlüsselpunkterkennung und Zuordnung bieten.

VGGSfM: Eine neue Ära der Struktur-aus-Bewegung-Techniken

VGGSfM ist eine vollständig differenzierbare SfM-Pipeline, die es ermöglicht, das gesamte System end-to-end zu trainieren. Dies führt zu einer einfacheren Pipeline im Vergleich zu vorherigen Frameworks und erreicht gleichzeitig bessere oder vergleichbare Leistung. Durch die Integration aller Komponenten in eine einzige, vollständig differenzierbare Rekonstruktionsfunktion können die einzelnen Module isoliert betrachtet und trainiert werden, was zu einer weiteren Leistungssteigerung führt.

Wesentliche Änderungen und Mechanismen

- Aufbauend auf den jüngsten Fortschritten im Bereich des tiefen 2D-Point-Tracking werden zuverlässige pixelgenaue Tracks direkt extrahiert. - Basierend auf den Bild- und Track-Merkmalen schätzt VGGSfM alle Kameras gemeinsam über einen Transformer und anschließend alle 3D-Punkte. - Für die Bündelanpassung wird der nicht differenzierbare Ceres-Solver durch den vollständig differenzierbaren Theseus-Solver ersetzt.

Leistungsfähigkeit und Anwendungen

VGGSfM erreicht eine starke Leistung auf allen Benchmark-Datensätzen, einschließlich CO3Dv2, IMC Phototourism und ETH3D. Gleichzeitig wird die Rekonstruktion in freier Wildbahn durchgeführt, um die Generalisierungsfähigkeit des vorgeschlagenen Frameworks zu validieren.

Integration in bestehende Systeme

VGGSfM wurde entwickelt, um nahtlos in bestehende Computer Vision Systeme integriert zu werden. Die Methode kann in verschiedenen Anwendungen eingesetzt werden, darunter: - Virtuelle und erweiterte Realität (VR/AR) - Robotik und autonome Fahrzeuge - 3D-Modellierung und -Rekonstruktion

Technische Details

Die Methode extrahiert 2D-Tracks aus Eingabebildern, rekonstruiert Kameras unter Verwendung von Bild- und Track-Merkmalen, initialisiert eine Punktwolke basierend auf diesen Tracks und Kameraparametern und wendet eine Bündelanpassungsschicht zur Verfeinerung der Rekonstruktion an. Das gesamte Framework ist vollständig differenzierbar und für das end-to-end Training ausgelegt.

Zukünftige Entwicklungen

Meta und das Visual Geometry Group der Universität Oxford planen, VGGSfM kontinuierlich weiterzuentwickeln und zu verbessern. Zukünftige Arbeiten könnten sich auf die Integration von weiteren fortschrittlichen Techniken wie neuronalen Netzwerken und selbstüberwachtem Lernen konzentrieren, um die Genauigkeit und Effizienz weiter zu steigern.

Fazit

Die Einführung von VGGSfM markiert einen bedeutenden Fortschritt in der Struktur-aus-Bewegung Forschung. Durch die vollständige Differenzierbarkeit und die end-to-end Trainingsmöglichkeit bietet VGGSfM eine vereinfachte Pipeline, die dennoch leistungsfähiger ist als traditionelle Frameworks. Die breite Anwendbarkeit und die vielversprechenden Ergebnisse auf mehreren Datensätzen unterstreichen das Potenzial dieser neuen Technologie, die Art und Weise, wie 3D-Rekonstruktion in der Computer Vision durchgeführt wird, nachhaltig zu verändern.

Bibliographie

https://arxiv.org/abs/2312.04563 https://vggsfm.github.io/ https://arxiv.org/html/2312.04563v1 https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_VGGSfM_Visual_Geometry_Grounded_Deep_Structure_From_Motion_CVPR_2024_paper.pdf https://github.com/facebookresearch/vggsfm https://www.semanticscholar.org/paper/7caf8790c1718a0cfec6fd1a8813842ab9330c97 https://synthical.com/article/9380146b-b74d-4eb6-aa55-08090f9a6529
Was bedeutet das?