Fortschritte in der Künstlichen Intelligenz Räumliches Verständnis und 3D Schlussfolgern im Fokus

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

00:00 / 00:00

Im Bereich der künstlichen Intelligenz ist die Fähigkeit, räumliche Beziehungen zu verstehen und darüber zu schlussfolgern, von grundlegender Bedeutung. Diese Fähigkeit spielt eine entscheidende Rolle bei der Beantwortung visueller Fragen (Visual Question Answering, VQA) und in der Robotik. Vision-Language Models (VLMs), die auf die Verarbeitung und Interpretation von visuellen und sprachlichen Informationen spezialisiert sind, haben in der Vergangenheit bereits beeindruckende Leistungen in bestimmten VQA-Benchmarks gezeigt. Dennoch fehlte es ihnen an Fähigkeiten im Bereich des räumlichen Schlussfolgerns in 3D, wie zum Beispiel der Erkennung quantitativer Beziehungen physischer Objekte in Bezug auf Entfernungen oder Größenunterschiede.

Forscher gehen davon aus, dass die begrenzten räumlichen Schlussfolgerungsfähigkeiten der VLMs auf das Fehlen von 3D-räumlichem Wissen in den Trainingsdaten zurückzuführen sind. Um dieses Problem zu lösen, verfolgen sie den Ansatz, VLMs mit Internet-großen Datenmengen zum räumlichen Schlussfolgern zu trainieren. Ein neu vorgestelltes System soll diesen Ansatz erleichtern. Zunächst wurde ein automatisches 3D-räumliches VQA-Datengenerierungsframework entwickelt, das bis zu 2 Milliarden VQA-Beispiele auf 10 Millionen realen Bildern skaliert. Anschließend wurden verschiedene Faktoren in der Trainingsrezeptur untersucht, einschließlich der Datenqualität, des Trainingsablaufs und der VLM-Architektur.

Die Arbeit kennzeichnet die erste Internet-große 3D-räumliche Schlussfolgerungsdatensammlung im metrischen Raum. Durch das Training eines VLM auf solchen Daten konnte seine Fähigkeit sowohl in qualitativer als auch in quantitativer räumlicher VQA deutlich gesteigert werden. Schließlich wurde gezeigt, dass dieses VLM durch seine Fähigkeit zur quantitativen Einschätzung neue Anwendungsbereiche im Bereich des verketteten räumlichen Schlussfolgerns und in der Robotik erschließen kann.

In einer weiteren Untersuchung wurde die Fähigkeit von VLMs, räumliche Beziehungen zu verstehen, eingehender betrachtet. Bisherige Ansätze, die mit Bild-Text-Abgleich (zum Beispiel Visual Spatial Reasoning Benchmark) oder visueller Fragebeantwortung (zum Beispiel GQA oder VQAv2) arbeiteten, zeigten schwache Leistung und eine große Lücke im Vergleich zur menschlichen Leistungsfähigkeit. Durch den Einsatz von Erklärbarkeitswerkzeugen konnte ein besseres Verständnis der Ursachen für die schlechte Leistung gewonnen werden. Es wurde ein alternativer feinkörniger, kompositioneller Ansatz für die Bewertung räumlicher Klauseln vorgestellt. Durch die Kombination von Evidenz aus der Verankerung von Nomenphrasen, die Objekte und ihre Standorte entsprechen, wurde die endgültige Bewertung der räumlichen Klausel berechnet. Der Ansatz wurde an repräsentativen VLMs (wie LXMERT, GPV und MDETR) demonstriert und ihre Fähigkeiten, über räumliche Beziehungen zu schlussfolgern, verglichen und hervorgehoben.

Ein weiteres Forschungspapier präsentierte das Visual Spatial Reasoning (VSR), einen Datensatz, der mehr als 10.000 natürliche Text-Bild-Paare mit 66 Arten von räumlichen Beziehungen in Englisch enthält (wie beispielsweise "unter", "vor" und "gegenüber"). Obwohl das Annotationsschema scheinbar einfach ist, beinhaltet der Datensatz herausfordernde sprachliche Phänomene, wie variierende Referenzrahmen. Eine große Kluft zwischen menschlicher und Modellleistung wurde festgestellt: Während die menschliche Obergrenze über 95 % liegt, erreichen die state-of-the-art Modelle nur etwa 70 %. Es wurde beobachtet, dass die Leistung der VLMs in Bezug auf die Beziehung wenig Korrelation mit der Anzahl der Trainingsbeispiele aufweist und dass die getesteten Modelle im Allgemeinen nicht in der Lage sind, Beziehungen zu erkennen, die die Orientierung von Objekten betreffen.

Diese Forschungen zeigen, dass der Bereich der künstlichen Intelligenz im Hinblick auf räumliches Schlussfolgern und die Integration von 3D-Wissen ständig weiterentwickelt wird. Sie unterstreichen die Notwendigkeit, Modelle zu entwickeln, die über verbesserte räumliche Wahrnehmung und Schlussfolgerungsfähigkeiten verfügen, um komplexe Aufgaben in der echten Welt, wie sie in VQA und Robotik auftreten, effektiver zu bewältigen.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.