Das Open LLM Leaderboard auf Hugging Face ist ein zentraler Anlaufpunkt für den Vergleich von Open-Source Large Language Models (LLMs). Es bewertet die Leistung der Modelle anhand verschiedener Aufgaben, darunter auch mathematische Fähigkeiten. Bis vor kurzem gab es jedoch Schwierigkeiten bei der Bewertung der mathematischen Leistungen, was zu ungenauen und unfairen Vergleichen führte. Mit der Einführung von Math-Verify wurde das Leaderboard grundlegend überarbeitet und bietet nun robustere und verlässlichere Ergebnisse.
Die bisherige Bewertungsmethode für mathematische Aufgaben, genannt MATH-Hard, basierte auf 1324 Aufgaben des Hendrycks MATH-Datensatzes, die ein hohes Schwierigkeitsniveau aufwiesen (Level 5). Die Modelle erhielten fünf Beispiele als Teil des Prompts und mussten ihre Antwort in einem spezifischen Format abschließen: "Final answer is [ANSWER]. I hope it is correct.". Die Antwort wurde dann mit SymPy analysiert und mit der korrekten Lösung verglichen.
Dieses Verfahren führte zu mehreren Problemen. Erstens konnten viele Modelle das vorgegebene Antwortformat nicht einhalten und wurden daher fälschlicherweise als falsch bewertet, selbst wenn die mathematische Lösung korrekt war. Zweitens gab es Schwierigkeiten bei der Analyse der Antworten mit SymPy, da komplexe mathematische Ausdrücke, Matrizen oder Mengen nicht korrekt interpretiert wurden. Drittens fehlte die Unterstützung für Rundungen, numerische Auswertungen und Variablenzuweisungen, was zu weiteren Ungenauigkeiten führte.
Math-Verify behebt die beschriebenen Probleme, indem es die Antworten der Modelle präziser analysiert und mit den korrekten Lösungen vergleicht. Die Integration von Math-Verify in das Leaderboard erforderte nur minimale Codeänderungen, ermöglichte jedoch eine umfassende Neubewertung aller 3751 eingereichten Modelle.
Die Auswirkungen dieser Änderung sind erheblich. Im Durchschnitt konnten die Modelle nach der Neubewertung 61 Aufgaben mehr lösen, was einer durchschnittlichen Verbesserung von 4,66 Punkten entspricht. Besonders große Verbesserungen zeigten sich in den Bereichen Algebra und Präalgebra, wo die Modelle im Durchschnitt 8,27 bzw. 6,93 Punkte mehr erzielten. In einigen Fällen verbesserten sich die Ergebnisse einzelner Modelle um fast 90 Punkte.
Die Einführung von Math-Verify führte zu einer deutlichen Verschiebung der Rangliste im Leaderboard. Die AceMath-Modelle von Nvidia dominieren nun den MATH-Hard-Bereich, gefolgt von verschiedenen Qwen-Derivaten. Auch andere Modelle konnten ihre Position deutlich verbessern, teilweise um mehr als 200 Plätze.
Die Neubewertung zeigt, dass die Leistung einiger Modellfamilien, insbesondere Qwen und DeepSeek, zuvor deutlich unterschätzt wurde. Die Ergebnisse dieser Modelle haben sich nach der Einführung von Math-Verify mehr als verdoppelt bzw. verdreifacht.
Math-Verify hat die Genauigkeit und Fairness der Bewertungen im Open LLM Leaderboard deutlich verbessert. Die Neubewertung bietet ein klareres Bild der tatsächlichen mathematischen Fähigkeiten der verschiedenen LLMs und ermöglicht einen aussagekräftigeren Vergleich. Entwickler und Forscher werden ermutigt, Math-Verify für ihre eigenen Evaluierungen zu verwenden, um zuverlässigere Ergebnisse zu erzielen.
Bibliography: https://huggingface.co/blog/math_verify_leaderboard https://www.reddit.com/r/LocalLLaMA/comments/1ipd232/fixing_open_llm_leaderboard_with_mathverify/ https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard/discussions/1016 https://github.com/EleutherAI/lm-evaluation-harness/issues/2539 https://www.shakudo.io/blog/demystifying-llm-leaderboards-what-you-need-to-know https://arxiv.org/html/2409.17972v1 https://x.com/nathanhabib1011/status/1858894766756302958 https://www.acorn.io/resources/learning-center/open-llm-leaderboard/ https://www.evidentlyai.com/llm-guide/llm-benchmarks https://www.linkedin.com/posts/guilhermepenedo_current-models-are-actually-much-better-at-activity-7287507777512443905-TKae