Visuell-sprachliche Modelle (VLMs) haben in letzter Zeit große Fortschritte gemacht und das Interesse an ihrem Einsatz im autonomen Fahren geweckt, insbesondere bei der Generierung interpretierbarer Fahr Entscheidungen durch natürliche Sprache. Die Annahme, dass VLMs inhärent visuell fundierte, zuverlässige und interpretierbare Erklärungen für das Fahren liefern, bleibt jedoch weitgehend ungeprüft.
Um diese Lücke zu schließen, wurde DriveBench entwickelt, ein Benchmark-Datensatz zur Bewertung der VLM-Zuverlässigkeit in 17 verschiedenen Szenarien (saubere, korrumpierte und reine Texteingaben). Dieser umfasst 19.200 Frames, 20.498 Frage-Antwort-Paare, drei Fragetypen, vier gängige Fahraufgaben und insgesamt 12 populäre VLMs.
Die Ergebnisse der Studie zeigen, dass VLMs häufig plausible Antworten generieren, die eher auf Allgemeinwissen oder textuellen Hinweisen als auf echter visueller Fundierung beruhen, insbesondere bei beeinträchtigten oder fehlenden visuellen Eingaben. Dieses Verhalten, das durch Datensatzungleichgewichte und unzureichende Bewertungsmetriken verschleiert wird, birgt erhebliche Risiken in sicherheitskritischen Szenarien wie dem autonomen Fahren.
Darüber hinaus zeigt die Studie, dass VLMs mit multimodalem Denken zu kämpfen haben und eine erhöhte Empfindlichkeit gegenüber Eingabekorruptionen aufweisen, was zu Leistungsschwankungen führt. Die bisher verwendeten Metriken wie ROUGE, BLEU oder GPT-Scores, zeigen hierbei unterschiedliche Ergebnisse und verdeutlichen die Notwendigkeit einer genaueren Betrachtung.
Um diesen Herausforderungen zu begegnen, schlägt die Studie verfeinerte Bewertungsmetriken vor, die robustes visuelles Verständnis und multimodales Denken priorisieren. Zusätzlich wird das Potenzial hervorgehoben, das Bewusstsein der VLMs für Korruptionen zu nutzen, um ihre Zuverlässigkeit zu verbessern. Dies bietet einen Fahrplan für die Entwicklung zuverlässigerer und interpretierbarer Entscheidungssysteme im Kontext des autonomen Fahrens in der realen Welt.
Die Forschungsergebnisse unterstreichen die Notwendigkeit weiterer Untersuchungen zur Verbesserung der Robustheit und Zuverlässigkeit von VLMs im autonomen Fahren. Insbesondere die Entwicklung neuer Trainingsmethoden und -daten, die speziell auf die Herausforderungen des realen Straßenverkehrs zugeschnitten sind, sowie die Erforschung von Methoden zur besseren Integration von Kontextinformationen in die Entscheidungsfindung der VLMs sind vielversprechende Forschungsrichtungen.
Mindverse, als deutscher Anbieter von KI-gestützten Content-Lösungen, verfolgt diese Entwicklungen mit großem Interesse. Die Erkenntnisse aus dieser Studie sind relevant für die Entwicklung von maßgeschneiderten KI-Lösungen für die Automobilindustrie, wie z.B. Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Durch die Integration neuester Forschungsergebnisse kann Mindverse seinen Kunden innovative und leistungsstarke Lösungen anbieten, die den Anforderungen des autonomen Fahrens gerecht werden.
Bibliographie Xie, S., Kong, L., Dong, Y., Sima, C., Zhang, W., Chen, Q. A., Liu, Z., & Pan, L. (2025). Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives. arXiv preprint arXiv:2501.04003. DriveBench. https://drive-bench.github.io/ Paper Page - Are VLMs Ready for Autonomous Driving? An Empirical Study from then Reliability, Data, and Metric Perspectives. https://paperreading.club/page?id=277163 ChatPaper. https://www.chatpaper.com/chatpaper/zh-CN/paper/96684 arXiv Sanity Lite. https://arxiv-sanity-lite.com/?rank=pid&pid=2501.04003 Li, L., Shao, W., Dong, W., Tian, Y., Zhang, Q., Yang, K., & Zhang, W. (2024). Data-Centric Evolution in Autonomous Driving: A Comprehensive Survey of Big Data System, Data Mining, and Closed-Loop Technologies. arXiv preprint arXiv:2401.12888v2. Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment. https://www.researchgate.net/publication/385108014_Large_Language_Models_for_Autonomous_Driving_LLM4AD_Concept_Benchmark_Simulation_and_Real-Vehicle_Experiment Vision-Language Models in Autonomous Driving: A Survey and Outlook. https://www.researchgate.net/publication/380653076_Vision_Language_Models_in_Autonomous_Driving_A_Survey_and_Outlook Xu, H., Angkititrakul, P., & Gaidon, A. (2021). Reliability of GAN generated data to train and validate perception for autonomous driving. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision Workshops (pp. 1-9). Autonomous driving’s future: Convenient and connected. https://www.mckinsey.com/industries/automotive-and-assembly/our-insights/autonomous-drivings-future-convenient-and-connected