Künstliche Intelligenz erschließt die dritte Dimension: Die Revolution durch 3D-Vision-Sprache-Handlungsmodelle

Kategorien:
No items found.
Freigegeben:

In der dynamischen Welt der künstlichen Intelligenz (KI) ist die Entwicklung von Modellen, die 3D-Wahrnehmung, Denken und Handeln nahtlos miteinander verbinden, ein bahnbrechender Fortschritt. Forscher der Computer Vision und Robotik haben kürzlich ein solches Modell vorgestellt, das als 3D-Vision-Sprache-Handlung Generatives Weltmodell (3D-VLA) bezeichnet wird. Dieser Ansatz könnte die Art und Weise, wie Roboter und virtuelle Agenten ihre Umgebung verstehen und in ihr agieren, grundlegend verändern.

Traditionelle Vision-Sprache-Handlungsmodelle (VLA) basieren auf 2D-Eingaben und direkten Zuordnungen von Wahrnehmung zu Handlung, ohne die komplexen Dynamiken der Welt oder die Beziehung zwischen Aktionen und diesen Dynamiken zu berücksichtigen. Im Gegensatz dazu verfügen Menschen über Weltmodelle, die ihnen erlauben, ihre Vorstellungskraft einzusetzen, um zukünftige Szenarien zu entwerfen und entsprechende Handlungen zu planen. Basierend auf dieser Beobachtung haben Wissenschaftler das 3D-VLA-Modell entwickelt, das auf einem 3D-basierten großen Sprachmodell (LLM) aufbaut und Interaktionstokens einführt, um mit der verkörperten Umgebung zu interagieren.

Um die Generierungsfähigkeiten in das Modell einzubetten, wurden eine Reihe von verkörperten Diffusionsmodellen trainiert und in das LLM integriert, um Zielbilder und Punktwolken vorherzusagen. Für die Schulung von 3D-VLA wurde ein großer 3D-verkörperter Anweisungsdatensatz kuratiert, der umfangreiche 3D-bezogene Informationen aus bestehenden Robotikdatensätzen extrahiert. Experimente mit diesen Datensätzen zeigen, dass 3D-VLA die Fähigkeiten zur Argumentation, multimodalen Generierung und Planung in verkörperten Umgebungen erheblich verbessert, was auf das Potenzial für Anwendungen in der realen Welt hindeutet.

Ein weiteres fortschrittliches Projekt, EmbodiedScan, zielt darauf ab, die Lücke im Bereich der 3D-Wahrnehmung zu schließen. Es handelt sich um einen multimodalen, egozentrischen 3D-Wahrnehmungsdatensatz und ein Benchmarking-System für ein ganzheitliches Verständnis von 3D-Szenen. EmbodiedScan umfasst über 5.000 Scans, die mehr als 1 Million egozentrische RGB-D-Ansichten, 1 Million Sprachanweisungen und 160.000 3D-orientierte Boxen in über 760 Kategorien enthalten. Aufbauend auf dieser Datenbank wurde ein Baseline-Framework namens Embodied Perceptron vorgestellt, das eine beliebige Anzahl von multimodalen Eingaben verarbeiten und bemerkenswerte 3D-Wahrnehmungsfähigkeiten aufweisen kann.

Die Forschung im Bereich der Embodied AI, wie sie an Institutionen wie Stanford diskutiert wird, zeigt, dass diese Technologien zunehmend in der Lage sind, komplexe Aufgaben in offenen und unstrukturierten Umgebungen zu bewältigen. Die Entwicklung von generativen Modellen für 3D-Umgebungen weist darauf hin, dass KI-Systeme nicht nur auf Daten reagieren, sondern auch in der Lage sind, Vorhersagen zu generieren und zu lernen, die über die bloße Erkennung hinausgehen.

Die deutsche KI-Firma Mindverse, die sich auf die Entwicklung maßgeschneiderter Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr spezialisiert hat, verfolgt solche Fortschritte aufmerksam. Als All-in-One-Content-Tool für KI-Texte, Inhalte, Bilder und Forschung versteht sich Mindverse als KI-Partner, der die neuesten Entwicklungen in den Bereichen KI und maschinelles Lernen integriert und zugänglich macht.

Quellen:

1. Zhen, H., Qiu, X., Chen, P., Yang, J., Yan, X., Du, Y., Hong, Y., & Gan, C. (2024). 3D-VLA: A 3D Vision-Language-Action Generative World Model. arXiv preprint arXiv:2403.09631.
2. Wang, T., Mao, X., Zhu, C., Xu, R., Lyu, R., Li, P., ... & Pang, J. (2023). EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI. arXiv preprint arXiv:2312.16170.
3. Stanford Online. (2023). Stanford CS25: Low-level Embodied Intelligence with Foundation Models. [Video]. YouTube.
4. Hong, Y. (2024). 3D-VLA Project Page. https://vis-www.cs.umass.edu/3dvla/.

Was bedeutet das?
No items found.