Die Schätzung der 3D/6D-Pose auf Kategorieebene ist ein entscheidender Schritt zum umfassenden Verständnis von 3D-Szenen und ermöglicht eine breite Palette von Anwendungen in der Robotik und der verkörperten KI. Bisherige Ansätze, insbesondere neuronale Netzmodelle, die eine Analyse-durch-Synthese-Perspektive verwenden, zeigten zwar vielversprechende Ergebnisse, insbesondere in Bezug auf Robustheit gegenüber teilweisen Verdeckungen und Domänenverschiebungen. Allerdings waren diese Methoden stark von 3D-Annotationen für das kontrastive Lernen von Teilen abhängig, was ihre Anwendung auf eine begrenzte Anzahl von Kategorien beschränkt und eine effiziente Skalierung erschwert.
Ein neuer Ansatz namens DINeMo (Deep Implicit Neural Mesh Model) verspricht hier Abhilfe zu schaffen. DINeMo ist ein neuronales Netzmodell, das ohne 3D-Annotationen trainiert wird. Stattdessen nutzt es Pseudo-Korrespondenzen, die aus großen visuellen Basismodellen gewonnen werden. Diese Modelle haben in den letzten Jahren enorme Fortschritte gemacht und bieten ein reichhaltiges Verständnis visueller Informationen.
Kernstück von DINeMo ist eine bidirektionale Methode zur Generierung von Pseudo-Korrespondenzen. Diese Methode nutzt sowohl lokale Erscheinungsmerkmale als auch globale Kontextinformationen, um eine präzise Zuordnung zwischen verschiedenen Ansichten eines Objekts zu ermöglichen. Durch die Kombination dieser Informationen kann DINeMo die 3D-Struktur von Objekten lernen, ohne auf explizite 3D-Annotationen angewiesen zu sein.
Erste experimentelle Ergebnisse, insbesondere an Autodatensätzen, zeigen, dass DINeMo bisherige Zero- und Few-Shot-Methoden zur 3D-Posenschätzung deutlich übertrifft und die Lücke zu vollständig überwachten Methoden um 67,3% verringert. Darüber hinaus skaliert DINeMo effektiv und effizient, wenn während des Trainings mehr unbeschriftete Bilder hinzugefügt werden. Dies ist ein entscheidender Vorteil gegenüber überwachten Lernmethoden, die auf 3D-Annotationen angewiesen sind, deren Erstellung zeitaufwendig und kostspielig ist.
Die Fähigkeit, ohne 3D-Annotationen zu lernen, eröffnet neue Möglichkeiten für die Anwendung von neuronalen Netzmodellen in der 3D-Szenenanalyse. Die Entwicklung von DINeMo stellt einen wichtigen Schritt in Richtung einer effizienteren und skalierbareren 3D-Posenschätzung dar und könnte den Weg für neue Anwendungen in Bereichen wie Robotik, Augmented Reality und autonomem Fahren ebnen.
Die Verwendung von Pseudo-Korrespondenzen aus großen visuellen Basismodellen ist ein vielversprechender Ansatz, um die Abhängigkeit von aufwendigen 3D-Annotationen zu überwinden. Die bidirektionale Generierungsmethode in DINeMo ermöglicht eine robuste und präzise Schätzung der 3D-Pose, selbst bei teilweisen Verdeckungen und unterschiedlichen Lichtverhältnissen. Die Skalierbarkeit des Modells durch die Integration unbeschrifteter Daten unterstreicht das Potenzial für zukünftige Entwicklungen und Anwendungen.
Für Mindverse, ein deutsches Unternehmen, das sich auf KI-gestützte Content-Erstellung, Bildgenerierung, Forschung und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme spezialisiert hat, sind diese Fortschritte im Bereich der 3D-Szenenanalyse von besonderem Interesse. Die Entwicklungen rund um DINeMo könnten die Grundlage für neue, innovative Anwendungen und Dienstleistungen bilden und das Portfolio von Mindverse erweitern.
Bibliographie: Guo, W., Zhang, G., Ma, W., & Yuille, A. (2025). DINeMo: Learning Neural Mesh Models with no 3D Annotations. arXiv preprint arXiv:2503.20220. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020. Su, J., Cole, F., Snavely, N., & Guibas, L. J. (2024). Neural radiance fields for novel view synthesis from sparse inputs. arXiv preprint arXiv:2407.09271. Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2024). Sparse MoE Transformers. Advances in Neural Information Processing Systems, 37. Amrani, Y., Benbihi, H., & Zioulis, N. (2020). NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose Estimation. arXiv preprint arXiv:2008.01231. Lee, J. W. (2024). 2024 Arxiv Paper List: Gaussian Splatting. GitHub repository, https://github.com/Lee-JaeWon/2024-Arxiv-Paper-List-Gaussian-Splatting. Suwajanakorn, S., Snavely, N., Tompkin, J., & Theobalt, C. (2015). Depth from video in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4450-4458). Essig, M. (2020). Optimierung von 3D-Rekonstruktionen aus Bildern. Dissertation, Universität des Saarlandes.