KI und die Verschmelzung von Sehen und Sprache in 3D-Welten

Kategorien:
No items found.
Freigegeben:

Die Entwicklung künstlicher Intelligenz (KI) schreitet unaufhaltsam voran und eröffnet neue Horizonte in der Interaktion zwischen Mensch und Maschine. Eines der zentralen Forschungsfelder ist das Verständnis von 3D-Szenen, in denen die KI in der Lage ist, natürliche Sprache und physische Umgebungen miteinander in Einklang zu bringen. Dies ist insbesondere für die Entwicklung von verkörperten Agenten – also KI-Systemen, die in der realen Welt agieren – von Bedeutung. Trotz der Fortschritte im Bereich der 2D-Bilderkennung und -verarbeitung stehen Forscher bei der Einbettung von Sprache in 3D-Szenen vor erheblichen Herausforderungen. Zu diesen zählen die inhärente Komplexität von 3D-Szenen mit vielfältigen Objektkonfigurationen, deren reiche Attribute und komplizierte Beziehungen zueinander, die Knappheit an gepaarten 3D-Vision-Sprachdaten zur Unterstützung des erdgebundenen Lernens und das Fehlen eines einheitlichen Lernrahmens zur Destillation von Wissen aus erdgebundenen 3D-Daten.

Um diesen Herausforderungen zu begegnen, untersuchen Forscher die Möglichkeit, das Lernen von 3D-Vision-Sprache in Innenräumen systematisch zu erweitern. Ein Durchbruch in diesem Bereich ist die Einführung des ersten millionenfachen 3D-Vision-Sprachdatensatzes "SceneVerse", der etwa 68.000 3D-Innenszenen umfasst und 2,5 Millionen Vision-Sprachpaare enthält, die sowohl aus menschlichen Annotationen als auch aus einem skalierbaren szenengraphbasierten Generierungsansatz stammen. Mit dieser Datengrundlage ermöglicht es das neuartige Pre-Training-Framework "Grounded Pre-training for Scenes" (GPS), 3D-Vision-Sprachlernen zu vereinheitlichen. Durch umfangreiche Experimente konnte gezeigt werden, dass GPS die bisherige Spitzenleistung auf allen bestehenden 3D-Visual-Grounding-Benchmarks erreicht. Das enorme Potenzial von SceneVerse und GPS wurde durch Zero-Shot-Transferexperimente in anspruchsvollen 3D-Vision-Sprachaufgaben aufgedeckt.

Neben diesem Ansatz gibt es auch Bemühungen, das erdgebundene Vision-Sprachlernen in ungeschnittenen Videos zu verbessern. Der Fokus liegt hier auf der automatischen Erkennung informativer Ereignisse und der effektiven Ausgrabung der Ausrichtungen zwischen mehrsätzigen Beschreibungen und entsprechenden Ereignisabschnitten. Anstelle von groben Video-Sprach-Ausrichtungen werden zwei duale Pretext-Aufgaben präsentiert, um feinkörnige Segmentebenen-Ausrichtungen zu fördern: Text-to-Event Grounding (TEG) und Event-to-Text Generation (ETG). TEG lernt, mögliche Ereignisvorschläge anhand einer Satzgruppe adaptiv zu verankern, indem die cross-modale Distanz in einem gemeinsamen semantischen Raum geschätzt wird. ETG zielt darauf ab, die passenden Texte anhand von Ereignisvorschlägen zu rekonstruieren (generieren), was die Ereignisdarstellung dazu ermutigt, bedeutungsvolle semantische Informationen zu behalten. Um eine genaue Zuordnung von Etiketten zwischen dem Ereignis- und Textset zu fördern, wurde ein neuartiger semantikbewusster Kostenansatz vorgeschlagen, der suboptimale Matching-Ergebnisse, die durch mehrdeutige Grenzannotationen verursacht werden, abschwächen soll.

In einem weiteren Forschungszweig wird das Konzept des schwach überwachten 3D-Visual-Grounding basierend auf visueller sprachlicher Ausrichtung untersucht. Dieser Ansatz nutzt die Fähigkeiten aktueller großer Vision-Sprachmodelle (VLMs), die Semantik zwischen Texten und 2D-Bildern auszurichten, sowie die natürlich vorhandenen Korrespondenzen zwischen 2D-Bildern und 3D-Punktwolken. Dadurch werden implizit Korrespondenzen zwischen Texten und 3D-Punktwolken ohne Notwendigkeit feinkörniger Box-Annotationen im Trainingsverfahren aufgebaut. Während der Inferenzphase hilft die gelernte Text-3D-Korrespondenz, Textanfragen auf 3D-Zielobjekte zu verankern, selbst ohne 2D-Bilder. Dies stellt den ersten Versuch dar, 3D-Visual-Grounding auf schwach überwachte Weise zu untersuchen, indem groß angelegte Vision-Sprachmodelle einbezogen werden. Umfangreiche Experimente auf den Datensätzen ReferIt3D und ScanRefer zeigen, dass dieser Ansatz vergleichbare und sogar überlegene Ergebnisse gegenüber vollständig überwachten Methoden erzielt.

Diese Forschungsarbeiten verdeutlichen die rasante Entwicklung und das Potenzial von KI in der Verknüpfung von visueller Wahrnehmung und Sprachverständnis. Sie bilden die Grundlage für die Entwicklung intelligenter KI-Agenten, die die menschliche Sprache verstehen und in ihrer physischen Umgebung agieren können, was insbesondere für Anwendungen wie interaktive Robotik, erweiterte Realität und intuitive Benutzerschnittstellen von großer Bedeutung ist. Die Ansätze zeigen auch, wie die KI zunehmend in der Lage ist, die Komplexität der realen Welt zu erfassen und zu interpretieren, was für die Gestaltung zukünftiger KI-Systeme, die nahtlos mit Menschen interagieren, unerlässlich sein wird.

Was bedeutet das?
No items found.