Die Entwicklung von Embodied Agents, also KI-Agenten, die in einer simulierten oder realen Umgebung agieren können, ist ein schnell wachsendes Forschungsfeld. Besonders vielversprechend ist dabei der Einsatz multimodaler großer Sprachmodelle (MLLMs), die sowohl Text als auch visuelle Informationen verarbeiten können. Um die Fähigkeiten dieser MLLM-basierten Agenten umfassend zu bewerten, bedarf es jedoch standardisierter Benchmarks. Hier setzt EmbodiedBench an, ein neuer Benchmark, der die Leistungsfähigkeit von MLLMs in verschiedenen Szenarien auf die Probe stellt.
EmbodiedBench zeichnet sich durch seine Vielseitigkeit aus. Der Benchmark umfasst 1128 Testaufgaben in vier unterschiedlichen Umgebungen. Diese Aufgaben reichen von komplexen, semantisch anspruchsvollen Aufgaben im Haushalt bis hin zu grundlegenden Aktionen wie Navigation und Manipulation von Objekten. Die Vielfalt der Aufgaben ermöglicht eine differenzierte Beurteilung der Fähigkeiten der Agenten.
Darüber hinaus beinhaltet EmbodiedBench sechs sorgfältig zusammengestellte Teilbereiche, die spezifische Fähigkeiten der Agenten testen. Diese umfassen unter anderem das Verständnis von komplexen Anweisungen, räumliches Vorstellungsvermögen, visuelle Wahrnehmung, Schlussfolgerungsfähigkeit und die Fähigkeit zur Langzeitplanung. Durch diese detaillierte Analyse können Stärken und Schwächen der einzelnen MLLMs präzise identifiziert werden.
Im Rahmen der Entwicklung von EmbodiedBench wurden bereits 13 führende, sowohl proprietäre als auch Open-Source MLLMs getestet. Die Ergebnisse dieser Tests liefern wertvolle Einblicke in den aktuellen Stand der Forschung. Es zeigt sich, dass MLLMs bei komplexen, semantisch anspruchsvollen Aufgaben gute Ergebnisse erzielen, während sie bei Aufgaben, die feinmotorische Manipulation erfordern, noch deutlich hinter den Erwartungen zurückbleiben. So erreicht selbst das leistungsstärkste Modell, GPT-4o, bei diesen Aufgaben im Durchschnitt nur eine Erfolgsquote von 28,9%.
EmbodiedBench bietet eine standardisierte Plattform zur umfassenden Bewertung von MLLM-basierten Embodied Agents. Der Benchmark ermöglicht nicht nur die Identifizierung aktueller Herausforderungen, sondern liefert auch wichtige Erkenntnisse für die zukünftige Entwicklung dieser vielversprechenden Technologie. Die detaillierte Analyse der verschiedenen Fähigkeiten der Agenten zeigt, in welchen Bereichen weiterer Forschungsbedarf besteht und welche Ansätze besonders erfolgversprechend sind. EmbodiedBench leistet somit einen wichtigen Beitrag zur Weiterentwicklung von Embodied AI und ebnet den Weg für zukünftige Innovationen in diesem Bereich.
Die Ergebnisse der Benchmark-Tests unterstreichen das Potenzial von MLLMs für die Entwicklung intelligenter Agenten. Gleichzeitig verdeutlichen sie aber auch, dass noch erhebliche Hürden zu überwinden sind, insbesondere im Bereich der feinmotorischen Steuerung. EmbodiedBench bietet Forschern und Entwicklern ein wertvolles Werkzeug, um die Fortschritte in diesem Bereich zu messen und die Entwicklung von leistungsfähigeren Embodied Agents voranzutreiben.
Bibliographie: Yang, R., Chen, H., Zhang, J., Zhao, M., Qian, C., Wang, K., Wang, Q., Koripella, T. V., Movahedi, M., Li, M., Ji, H., Zhang, H., & Zhang, T. (2025). EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents. arXiv preprint arXiv:2502.09560. Ying, Z., et al. (2024). Is chatgpt a general-purpose natural language processing task solver? Findings of the Association for Computational Linguistics: ACL 2024, 718–731. Li, Z., et al. (2024). MVBench: A comprehensive multi-modal video understanding benchmark. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 12745–12756.