Die Welt der Künstlichen Intelligenz (KI) erlebt einen weiteren Durchbruch mit der Einführung von 3D-basierten großen Sprachmodellen, bekannt als 3D-LLMs. Diese innovativen Modelle sind darauf ausgelegt, die 3D-Welt zu verstehen und mit ihr zu interagieren, indem sie 3D-Punktwolken und deren Merkmale verarbeiten. Dieses neue Forschungsfeld verspricht, die Grenzen der bisherigen Sprachmodelle zu erweitern und neue Anwendungsbereiche zu erschließen.
Traditionelle große Sprachmodelle (LLMs) und Vision-Language-Modelle (VLMs) haben sich bei vielen Aufgaben wie dem allgemeinen Sprachverständnis und der Bildbeschreibung als äußerst leistungsfähig erwiesen. Allerdings sind diese Modelle in der Regel nicht in der Lage, die physische 3D-Welt zu erfassen, die komplexere Konzepte wie räumliche Beziehungen, physikalische Eigenschaften und Layouts beinhaltet. 3D-LLMs sollen diese Lücke schließen, indem sie die dreidimensionale Welt in Sprachmodelle integrieren.
Der Entwicklungsprozess von 3D-LLMs umfasst mehrere Schritte. Zunächst wird ein großer Datensatz aus 3D-Szenen und entsprechenden Textbeschreibungen erstellt. Ein Beispiel für einen solchen Datensatz ist 3D-GRAND, der mehr als 40.000 Haushaltsszenen und 6,2 Millionen dicht beschriftete 3D-Text-Paare umfasst.
Um die Modelle effizient zu trainieren, wird ein 3D-Merkmalextraktor verwendet, der 3D-Merkmale aus gerenderten Multi-View-Bildern extrahiert. Anschließend werden 2D-Vision-Language-Modelle als Backbone genutzt, um die 3D-LLMs zu trainieren. Ein 3D-Lokalisierungsmechanismus wird eingeführt, um die räumlichen Informationen besser zu erfassen.
3D-LLMs können eine Vielzahl von 3D-bezogenen Aufgaben übernehmen, darunter:
- 3D-Bildbeschreibung (Captioning)
- Dichte Bildbeschreibung (Dense Captioning)
- 3D-Fragebeantwortung
- Aufgabenzerlegung (Task Decomposition)
- 3D-Verankerung (3D Grounding)
- 3D-unterstützter Dialog
- Navigation
Experimente mit dem ScanQA-Datensatz haben gezeigt, dass 3D-LLMs die bisherigen Modelle bei weitem übertreffen. Beispielsweise übersteigt der BLEU-1-Score den bisherigen Bestwert um 9%. Weitere Experimente mit hausinternen Datensätzen für 3D-Beschreibung, Aufgabenkomposition und 3D-unterstützten Dialog zeigen, dass 3D-LLMs den 2D-VLMs überlegen sind.
Trotz der vielversprechenden Ergebnisse gibt es noch Herausforderungen, die angegangen werden müssen. Dazu gehört die Notwendigkeit eines echten 3D-Punktwolken-Encoders und die effiziente Verarbeitung großer Mengen an 3D-Daten. Zukünftige Arbeiten könnten sich auf die Verbesserung der 3D-Lokalisierung und die Integration von mehr realistischen 3D-Szenarien konzentrieren.
3D-LLMs stellen einen bedeutenden Fortschritt in der Welt der Künstlichen Intelligenz dar. Sie eröffnen neue Möglichkeiten für Anwendungen, die ein tiefes Verständnis und eine Interaktion mit der 3D-Welt erfordern. Unternehmen wie Mindverse, die sich auf maßgeschneiderte KI-Lösungen spezialisiert haben, könnten von diesen Entwicklungen profitieren und innovative Produkte entwickeln, die auf 3D-LLMs basieren.
https://arxiv.org/abs/2307.12981
https://papers.nips.cc/paper_files/paper/2023/file/413885e70482b95dcbeeddc1daf39177-Paper-Conference.pdf
https://openreview.net/forum?id=YQA28p7qNz
https://github.com/ActiveVisionLab/Awesome-LLM-3D
https://www.linkedin.com/posts/xaviervasques_the-research-paper-3d-llm-injecting-the-activity-7153791126380900352-UvKs
https://arxiv.org/pdf/2405.10255
https://vis-www.cs.umass.edu/3dllm/
https://aclanthology.org/2024.scalellm-1.0.pdf