In einer Welt, in der die Interaktion zwischen Mensch und Maschine immer komplexer wird, ist es unerlässlich, die Fähigkeiten künstlicher Intelligenzen (KI) nicht nur in der Verarbeitung von Text, sondern auch in der Verknüpfung und Analyse multimodaler Daten zu verbessern. Ein neuer Maßstab für die Bewertung von Large Language Models (LLMs) im chinesischen Sprachraum wurde mit der Einführung von CMMMU gesetzt. Dieses Kürzel steht für "Chinese Massive Multi-discipline Multimodal Understanding", ein Benchmark, der darauf abzielt, die Fähigkeiten von LLMs in einem multidisziplinären und multimodalen Kontext zu testen.
CMMMU wurde von einem internationalen Forscherteam entwickelt, zu dem Wissenschaftler von renommierten Institutionen wie der University of Manchester, der Peking University, der University of Waterloo, der Hong Kong University of Science and Technology, der Chinese Academy of Sciences und der Waseda University gehören. Der Benchmark umfasst über 12.000 manuell gesammelte multimodale Fragen aus Hochschulprüfungen, Quizzen und Lehrbüchern. Diese decken sechs Kernfächer ab: Kunst & Design, Wirtschaft, Naturwissenschaften, Gesundheit & Medizin, Geistes- & Sozialwissenschaften sowie Technik & Ingenieurwesen. Die Fragen beziehen sich auf 30 verschiedene Fächer und enthalten 39 sehr heterogene Bildtypen, darunter Diagramme, Tabellen, Landkarten, Musiknoten und chemische Strukturen.
Die Schaffung von CMMMU wurde durch die Notwendigkeit motiviert, die fortschrittlichen Erkenntnisse und das logische Denkvermögen von LLMs in nicht-englischen Kontexten zu bewerten. Die Forscher sehen in CMMMU ein Werkzeug, das die Entwicklung von KI-Systemen vorantreiben wird, die sich dem Niveau menschlicher Experten annähern. Die bisherigen Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle wie GPT-4V (Vision) nur eine Genauigkeit von 42% erreichen, was auf ein großes Verbesserungspotenzial hindeutet.
Die Notwendigkeit für Benchmarks wie CMMMU ergibt sich aus der rasanten Entwicklung von Large Language Models und deren multimodalen Fähigkeiten. Solche Modelle haben in jüngerer Zeit beeindruckende Fähigkeiten gezeigt, etwa Gedichte zu schreiben, die auf einem Bild basieren. Doch diese Einzelfallstudien spiegeln nicht unbedingt die volle Leistungsfähigkeit von multimodalen KI-Systemen wider. CMMMU soll einen umfassenden und fairen Vergleich dieser Systeme ermöglichen, ohne dass Forscher sich in der Komplexität des "Prompt Engineerings" verlieren – ein Bereich, in dem die Gestaltung der Eingabeaufforderungen für die KI von entscheidender Bedeutung ist.
Die Bewertung von 11 Open-Source-LLMs und einem proprietären Modell im Rahmen von CMMMU förderte nicht nur Defizite zutage, sondern zeigte auch potenzielle Richtungen für die Optimierung zukünftiger Modelle auf. Durch die Bereitstellung eines solchen Benchmarks in verschiedenen Sprachkontexten wird die Demokratisierung von LMMs angestrebt, um sicherzustellen, dass die Vorteile dieser Technologie global genutzt werden können.
Die Relevanz von CMMMU geht weit über die akademische Forschung hinaus. In einer Welt, in der KI-Systeme zunehmend in verschiedenen Branchen eingesetzt werden, von der Medizin über die Automobilindustrie bis hin zum Finanzsektor, ist es von entscheidender Bedeutung, dass die Modelle, auf denen diese Systeme basieren, umfassend und in realen Kontexten getestet werden. Dies gilt insbesondere für Länder und Regionen, in denen Englisch nicht die vorherrschende Sprache ist. CMMMU trägt dazu bei, die Lücke zu schließen und die Entwicklung von KI-Systemen zu fördern, die in der Lage sind, mit der Vielfalt und Komplexität der realen Welt Schritt zu halten.
Die Ergebnisse und Methoden des CMMMU-Projekts wurden in einem wissenschaftlichen Papier festgehalten, das öffentlich zugänglich ist und zur weiteren Untersuchung und Reproduktion anregt. Interessierte können den veröffentlichten Code und die Daten auf der Plattform GitHub sowie über Hugging Face, eine beliebte Community-Plattform für KI-Modelle und -Daten, einsehen. Dort ist auch das wissenschaftliche Papier mit allen Details zum CMMMU-Projekt veröffentlicht.
Die Entwicklung von CMMMU ist ein wichtiger Schritt in Richtung einer genaueren und umfassenderen Bewertung der Fähigkeiten von KI-Systemen. Es bietet eine Plattform, auf der Forscher und Entwickler auf der ganzen Welt aufbauen können, um die nächste Generation von KI-Systemen zu entwickeln, die nicht nur sprachlich, sondern auch in ihrer Fähigkeit, mehrere Sinnesmodalitäten zu verstehen und zu verarbeiten, wirklich versiert sind.