Neuer Benchmark zur Evaluierung der räumlichen Intelligenz von Vision-Language Modellen

Kategorien:

No items found.

Freigegeben:

April 28, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

VLMs zeigen Schwächen im räumlichen Denken, insbesondere bei 3D-Aufgaben.
Bestehende Benchmarks zur Bewertung räumlicher Intelligenz weisen systematische Mängel auf, z.B. fehlerhafte 3D-Annotationen und unzureichende Berücksichtigung von Frame-Sampling.
ReVSI ist ein neuer Benchmark, der diese Lücken schließen soll, indem er validierte Annotationen und kontrollierte Frame-Sampling-Bedingungen (16/32/64/alle Frames) verwendet.
Die Neuanalyse von 381 Szenen aus fünf Datensätzen mit menschlicher Verifikation verbessert die Datenqualität und die Genauigkeit der QA-Paare.
ReVSI ermöglicht eine präzisere und diagnostischere Bewertung von VLMs, wodurch bisher verborgene Fehlerquellen aufgedeckt werden.

Die Fähigkeit von Vision-Language Models (VLMs), räumliche Gegebenheiten zu erfassen und zu interpretieren, ist ein entscheidender Faktor für ihre Anwendung in realen Szenarien. Jüngste Forschungsarbeiten, insbesondere die Entwicklung von ReVSI (Rebuilding Visual Spatial Intelligence Evaluation), beleuchten kritische Schwachstellen in der aktuellen Bewertung dieser Modelle und bieten einen neuen Ansatz zur präziseren Messung ihrer 3D-Raumintelligenz.

Die räumliche Intelligenz ist eine grundlegende kognitive Fähigkeit des Menschen. Sie umfasst die Fähigkeit, räumliche Anordnungen zu verstehen, Objekte zu manipulieren und sich in Umgebungen zurechtzufinden. Diese Fähigkeit ist für Anwendungen in der Robotik, im autonomen Fahren und in der erweiterten Realität von entscheidender Bedeutung. Trotz der Fortschritte von VLMs im Bereich der multimodalen Repräsentation und Sprachverankerung bleiben ihre räumlichen Urteile in realistischen Umgebungen oft fragil.

Herausforderungen bestehender Evaluationsmethoden

Bisherige Evaluationsansätze zur Messung der räumlichen Intelligenz von VLMs weisen laut der ReVSI-Studie signifikante Mängel auf. Diese lassen sich primär in zwei Kategorien einteilen:

Mangelhafte 3D-Annotationen und deren Übertragung auf Videodaten

Viele etablierte Benchmarks leiten ihre Frage-Antwort-Paare (QA-Paare) aus punktwolkenbasierten 3D-Annotationen ab. Diese Annotationen wurden ursprünglich für die traditionelle 3D-Wahrnehmung erstellt. Werden sie jedoch als "Ground Truth" für die videobasierte Evaluation von VLMs verwendet, können verschiedene Probleme auftreten:

Rekonstruktions- und Annotationsartefakte: Objekte, die im Video klar sichtbar sind, können in den 3D-Annotationen übersehen werden.
Fehlklassifizierung von Objekten: Die Identität von Objekten kann falsch zugeordnet werden.
Verfälschung geometrieabhängiger Antworten: Informationen wie die Größe von Objekten können falsch sein, was zu inkorrekten oder mehrdeutigen QA-Paaren führt.

Dies beeinträchtigt die Validität der Bewertung, da die Modelle auf fehlerhaften oder ungenauen Referenzdaten getestet werden.

Unzureichende Berücksichtigung des Frame-Samplings

Ein weiteres Problem ist, dass viele Evaluationen von einem vollständigen Szenenzugriff ausgehen. Moderne VLMs operieren jedoch oft mit spärlich abgetasteten Frames (z.B. 16-64 Frames pro Video). Dies führt dazu, dass zahlreiche Fragen unter den tatsächlichen Eingabebedingungen des Modells effektiv unbeantwortbar sind, da relevante Objekte oder Details in den zur Verfügung gestellten Frames möglicherweise nicht enthalten sind. Dies verzerrt die Ergebnisse und verhindert eine realistische Einschätzung der Modellfähigkeiten.

ReVSI: Ein neuer Ansatz für präzise Evaluation

Um diese Validitätslücken zu schließen, wurde ReVSI entwickelt – ein Benchmark und Protokoll, das sicherstellt, dass jedes QA-Paar unter den tatsächlichen Eingaben des Modells beantwortbar und korrekt ist. Die Kernmerkmale von ReVSI umfassen:

Neu-Annotation und Datenqualität: Objekte und Geometrien wurden in 381 Szenen aus 5 Datensätzen neu annotiert. Dieser Prozess umfasste eine rigorose Bias-Minderung und menschliche Verifikation mittels professioneller 3D-Annotationstools, um die Datenqualität erheblich zu verbessern.
Kontrollierbarkeit des Frame-Budgets: ReVSI bietet Varianten mit unterschiedlichen Frame-Budgets (16, 32, 64 oder alle Frames) und detaillierte Metadaten zur Objektsichtbarkeit. Dies ermöglicht präzise diagnostische Analysen, indem die Leistung der Modelle unter verschiedenen Bedingungen des Frame-Zugriffs bewertet wird. Der Datensatz ist in mehreren Untergruppen verfügbar, die unterschiedliche Videoframes-Budgets abdecken: "all-frame", "64-frame", "32-frame" und "16-frame". Diese werden durch hierarchisches, gleichmäßiges Sampling erstellt, wodurch eine verschachtelte Struktur entsteht (z.B. 16-frame ⊂ 32-frame ⊂ 64-frame ⊂ all-frame).
Vielfältige Fragetypen: ReVSI unterstützt diverse Fragetypen, die verschiedene Aspekte des räumlichen Denkens abdecken, darunter:

- Zählung einzelner und mehrerer Objekte (object_counting_single, object_counting_multiple)

- Größenschätzung von Objekten und Räumen (object_size_estimation, room_size_estimation_single, room_size_estimation_multiple)

- Absolute Distanz von Objekten (object_abs_distance)

- Relative Richtung und Distanz von Objekten (object_rel_direction_forward_easy/hard, object_rel_direction_backward_easy/hard, object_rel_distance_closest/farthest)

Diese Fragetypen wurden mit professionellen 3D-Annotationstools generiert und menschlich überprüft, um die Genauigkeit und Relevanz sicherzustellen.

Ergebnisse und Implikationen

Die Evaluation von generischen und domänenspezifischen VLMs auf ReVSI hat systematische Fehlerquellen aufgedeckt, die von früheren Benchmarks verborgen blieben. Beispielsweise zeigten sich deutliche Leistungseinbußen bei Open-Source-Modellen, wenn sie unter realistischeren Bedingungen (z.B. mit reduziertem Frame-Budget) getestet wurden. Dies deutet darauf hin, dass einige Modelle möglicherweise "Abkürzungen" über nicht-visuelle Informationen genommen oder sich an die spezifischen (oft unzureichenden) Trainingsdaten angepasst haben, anstatt echtes räumliches Verständnis zu entwickeln.

Die Forschung zeigt, dass die strikte Einhaltung der Konsistenz auf Frame-Ebene unerlässlich ist, um die tatsächliche räumliche Intelligenz von VLMs zu messen. Ohne eine fundierte Evaluation halluzinieren viele Modelle räumliche Schlussfolgerungen basierend auf auswendig gelernten Mustern. ReVSI bietet somit eine zuverlässigere und diagnostischere Bewertung der räumlichen Intelligenz, was für die Weiterentwicklung von VLMs in Bereichen wie Robotik, autonomes Fahren und erweiterte Realität von großer Bedeutung ist.

Ein Blick in die Zukunft: Hierarchisches räumliches Verständnis

Die Verbesserung des räumlichen Denkens in VLMs erfordert ein umfassendes Verständnis von 3D-Strukturen, Objektbeziehungen und räumlichen Anordnungen. Eine vielversprechende Richtung ist die Entwicklung hierarchischer Rahmenwerke, die das Lernen des 3D-Raumverständnisses in VLMs in progressive Ebenen unterteilen, von der geometrischen Wahrnehmung bis zum abstrakten räumlichen Denken. Einige Studien schlagen ein vierstufiges Modell vor:

Level 0: Geometrische Grundwahrnehmung: Konzentriert sich auf die Ableitung von 3D-Geometrie aus visuellen Eingaben (z.B. monokulare Tiefenschätzung).
Level 1: Räumliches Verständnis auf Objektebene: Verknüpft semantische Erdung mit räumlicher Lokalisierung und leitet 3D-Attribute wie Position, Größe und Orientierung ab.
Level 2: Relationales Verständnis zwischen Objekten: Integriert Darstellungen auf Objektebene, um gemeinsame Aussagen über relative Positionen, Orientierungen und Entfernungen zu treffen.
Level 3: Abstraktes räumliches Denken: Integriert alle vorhergehenden Fähigkeiten für mehrstufiges Denken, mentale Simulation und komplexe Problemlösungen.

Solche hierarchischen Ansätze, in Kombination mit verbesserten Benchmarks wie ReVSI, ebnen den Weg für VLMs, die nicht nur "sehen", sondern auch "denken" können, und somit ein wirklich menschenähnliches räumliches Verständnis entwickeln.

Die Arbeit an ReVSI verdeutlicht, dass eine kontinuierliche Weiterentwicklung der Evaluationsstandards und -methoden unerlässlich ist, um die wahren Fähigkeiten von VLMs im räumlichen Denken zu erfassen und ihre Fortschritte in Richtung einer menschenähnlichen kognitiven Leistung zu beschleunigen.

Bibliographie

- Zhang, Y., Chen, J., Tan, J., Mao, Y., Chen, W., & Chang, A. X. (2026). ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning. arXiv preprint arXiv:2604.24300. - 3dlg-hcvc/ReVSI · Datasets at Hugging Face. (n.d.). Retrieved from https://huggingface.co/datasets/3dlg-hcvc/ReVSI - AI Research Roundup. (2026, April 28). ReVSI: Fixing VLM 3D Spatial Reasoning Evaluation. YouTube. Retrieved from https://www.youtube.com/watch?v=wXsc3sC5r5g - 3dlg - GitHub. (n.d.). Retrieved from https://github.com/3dlg-hcvc - Liang, H., Shen, Y., Deng, Y., Xu, S., Feng, Z., Zhang, T., ... & Yang, J. (2026). HiSpatial: Taming Hierarchical 3D Spatial Understanding in Vision-Language Models. arXiv preprint arXiv:2603.25411. - Gholami, M., Rezaei, A., Weimin, Z., Mao, S., Zhou, S., Zhang, Y., & Akbari, M. (2025). Spatial Reasoning with Vision-Language Models in Ego-Centric Multi-View Scenes. arXiv preprint arXiv:2509.06266. - Yu, S., Chen, Y., Ju, H., Jia, L., Zhang, F., Huang, S., ... & Lu, H. (2025). How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective. arXiv preprint arXiv:2509.18905. - Anonymous Authors. (2026). SPATIALAB: CAN VISION–LANGUAGE MODELS PERFORM SPATIAL REASONING IN THE WILD? ICLR 2026. Retrieved from https://openreview.net/pdf/734f5e97514373484089e63afb683ff51a81b8cb.pdf