In der sich schnell entwickelnden Welt der künstlichen Intelligenz (KI) und maschinellen Lernens (ML) haben multimodale Modelle (LMMs) einen bedeutenden Fortschritt erzielt. Diese Modelle, die sowohl visuelle als auch sprachliche Daten verarbeiten können, haben die Fähigkeit gezeigt, komplexe Aufgaben zu lösen, wie das Lösen von mathematischen Problemen, das Erklären visueller Witze und das Verstehen von Nachrichtenbildern. Zur Evaluierung dieser Fähigkeiten wurde MM-Vet entwickelt, ein Benchmark, das große multimodale Modelle auf ihre integrierten Fähigkeiten hin überprüft. Kürzlich wurde die Version 2 von MM-Vet (MM-Vet v2) eingeführt, die neue Funktionen und erweiterte Evaluierungsmöglichkeiten bietet.
Die raschen Fortschritte in der Entwicklung multimodaler Modelle stellen Herausforderungen an die Evaluierungsmethoden. Zu diesen Herausforderungen gehören:
- Systematische Strukturierung und Evaluierung komplexer multimodaler Aufgaben - Entwicklung von Evaluierungsmetriken, die über verschiedene Frage- und Antworttypen hinweg funktionieren - Bereitstellung von Modellerkenntnissen über einfache Leistungsrankings hinausMM-Vet v2 wurde entwickelt, um diesen Herausforderungen zu begegnen und bietet eine umfassendere Evaluierungsplattform für LMMs.
MM-Vet v2 erweitert die ursprüngliche Benchmark um eine neue Fähigkeit namens "Bild-Text-Sequenz-Verständnis". Diese Fähigkeit bewertet die Fähigkeit von Modellen, Bild-Text-Sequenzen zu verarbeiten, die in realen Szenarien häufig vorkommen. Darüber hinaus wurde die Größe des Evaluierungssatzes erweitert, wobei die hohe Qualität der Evaluierungsbeispiele beibehalten wurde.
MM-Vet v2 bewertet sechs Kernfähigkeiten im Bereich der Vision-Language (VL):
- Erkennung - Wissen - Räumliches Bewusstsein - Sprachgenerierung - Optische Zeichenerkennung (OCR) - MathematikDiese Fähigkeiten werden in 16 interessanten Kombinationen untersucht. Für die Evaluierung offener Ausgaben wird ein LLM-basierter Evaluator vorgeschlagen, der eine einheitliche Bewertungsmetrik ermöglicht.
In der Benchmarking-Studie mit MM-Vet v2 erzielte das Modell Claude 3.5 Sonnet die höchste Punktzahl von 71,8 und übertraf damit leicht GPT-4o, das eine Punktzahl von 71,0 erreichte. Unter den Modellen mit offenen Gewichten führte InternVL2-Llama3-76B mit einer Punktzahl von 68,4.
Die Einführung von MM-Vet v2 ist ein bedeutender Schritt zur Verbesserung der Evaluierung multimodaler Modelle. Durch die Erweiterung der Evaluierungsmöglichkeiten und die Einführung neuer Fähigkeiten bietet MM-Vet v2 wertvolle Einblicke in die Stärken und Schwächen verschiedener LMM-Systeme. Dies ist besonders wichtig, da die Anforderungen an KI-Systeme in realen Anwendungen immer komplexer werden.
MM-Vet v2 stellt einen wichtigen Fortschritt in der Evaluierung multimodaler Modelle dar. Mit neuen Funktionen und erweiterten Evaluierungsmöglichkeiten bietet es eine umfassende Plattform zur Bewertung der Fähigkeiten von LMMs. Dies wird Forschern und Entwicklern helfen, die Leistungsfähigkeit ihrer Modelle besser zu verstehen und zu verbessern.