Neuer Benchmark Soohak zur Bewertung mathematischer Fähigkeiten von KI-Modellen

Kategorien:

No items found.

Freigegeben:

May 12, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Der neue Benchmark "Soohak" wurde von 64 Mathematikern erstellt, um die mathematischen Fähigkeiten von LLMs auf Forschungsniveau zu bewerten.
Er umfasst einen "Challenge"-Datensatz mit 340 Aufgaben und einen "Refusal"-Datensatz mit 99 Aufgaben, die auf fehlerhafte Problemstellungen abzielen.
Führende Modelle wie Gemini-3-Pro und GPT-5 erreichen im "Challenge"-Datensatz nur etwa 30 % bzw. 26 % Genauigkeit, was erheblichen Verbesserungsbedarf aufzeigt.
Im "Refusal"-Datensatz, der die Erkennung schlecht formulierter Probleme testet, übertrifft kein Modell 50 %, was auf eine Schwäche im Umgang mit unsicheren oder widersprüchlichen Anfragen hindeutet.
Der Benchmark wird voraussichtlich Ende 2026 öffentlich zugänglich gemacht, um Kontamination zu vermeiden.

Die rapide Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren zu beeindruckenden Fortschritten im Bereich des mathematischen Denkens geführt. Nachdem einige dieser Modelle Goldmedaillen-Leistungen bei der Internationalen Mathematik-Olympiade (IMO) erbracht haben, richten sich die Augen der Forschungsgemeinschaft auf die nächste Herausforderung: die Bewertung mathematischer Fähigkeiten auf Forschungsniveau. Hier setzt der neue Benchmark "Soohak" an, der von einem Team von 64 Mathematikern entwickelt wurde, um die Grenzen aktueller KI-Modelle auszuloten.

Die Notwendigkeit eines neuen Benchmarks

Bisherige Benchmarks für mathematisches Denken in LLMs konzentrierten sich oft auf Olympiaden-Aufgaben oder Probleme aus Lehrbüchern. Diese Aufgaben messen zwar das schrittweise logische Denken, erfassen jedoch nicht das komplexere, forschungsnahe Problemlösen, das zur Erweiterung des mathematischen Wissens selbst erforderlich ist. Solche forschungsnahen Probleme sind schwer zu beschaffen, was bisher zu einer Knappheit an entsprechenden Benchmarks führte. Projekte wie Riemann Bench und FrontierMath-Tier 4 enthielten beispielsweise nur 25 bzw. 50 Probleme.

Der "Soohak"-Benchmark wurde entwickelt, um diese Lücke zu schließen. Er soll eine zuverlässige Bewertung der nächsten Generation von KI-Modellen ermöglichen und dabei die Integrität, Breite und Verantwortlichkeit der Bewertung sicherstellen. Dies ist besonders wichtig, da die Ergebnisse solcher Benchmarks zunehmend als Leitfaden für Pre-Training- und Post-Training-Initiativen von LLMs dienen.

Struktur und Inhalt von Soohak

"Soohak" besteht aus zwei Hauptteilen:

Challenge-Datensatz: Dieser Teil umfasst 340 Aufgaben auf Graduiertenniveau und forschungsnahes Material. Die Probleme wurden von 68 Mitwirkenden, darunter 38 Fakultätsmitglieder, 25 Doktoranden oder Postdoktoranden und 5 IMO-Medaillengewinner, neu erstellt. Dies soll sicherstellen, dass die Aufgaben nicht bereits in Trainingsdaten von LLMs enthalten sind.
Refusal-Datensatz: Dieser Datensatz enthält 99 bewusst schlecht formulierte oder widersprüchliche Probleme. Er testet die Fähigkeit von Modellen, unlösbare Aufgaben zu erkennen und die Beantwortung zu verweigern, anstatt fehlerhafte, aber scheinbar plausible Lösungen zu generieren. Dies ist eine entscheidende Fähigkeit im mathematischen Forschungsbereich, wo das Erkennen von "ill-posed problems" ebenso wichtig ist wie das Lösen gut definierter Aufgaben.

Zusätzlich wurde "Soohak-Mini" veröffentlicht, eine Sammlung von 702 Fragen, die den Bereich von Mathematik-Olympiaden bis hin zu frühen Graduiertenkursen abdeckt. Dieser Subset dient zur Verfolgung kleinerer und Open-Weight-Systeme.

Datensammlung und Qualitätssicherung

Die Entwicklung von Soohak erfolgte unter strengen Bedingungen. Insgesamt 105 Mathematiker und Studenten trugen Fragen bei. Der Prozess umfasste eine mehrstufige Sammlung und Filterung, um die Originalität der Aufgaben und die Abwesenheit von KI-generierten Inhalten zu gewährleisten. Jede Einreichung durchlief eine automatisierte Prüfung durch Basis-LLMs und eine manuelle Überprüfung durch zwei menschliche Gutachter. Bei Unstimmigkeiten zwischen Modelllösungen und Referenzlösungen wurden Korrekturen vorgenommen und in einigen Fällen Mitwirkende, die KI-generierte Fragen einreichten, ausgeschlossen. Etwa 92 % der Aufgaben wurden ursprünglich auf Englisch verfasst und anschließend in einem sorgfältigen Prozess ins Koreanische übersetzt, um einen zweisprachigen Benchmark zu schaffen.

Evaluierung der Sprachmodelle

Elf führende Sprachmodelle, darunter sowohl Closed-Source- als auch Open-Weight-Systeme, wurden auf Soohak evaluiert. Zu den Closed-Source-Modellen gehörten Gemini-3-Pro, GPT-5 und Claude-Opus-4.5. Bei den Open-Weight-Modellen kamen unter anderem Qwen3-235B, GPT-OSS-120B und GLM-5 zum Einsatz. Für jedes Modell und jede Frage wurden drei unabhängige Antworten generiert, und die Ergebnisse wurden anhand von "Avg@3" und "Pass@3" Metriken bewertet. Die Bewertung erfolgte durch einen LLM-Richter (GPT-5-Mini), der die generierten Antworten mit den Goldstandard-Antworten auf mathematische Äquivalenz prüfte.

Ergebnisse der Evaluierung

Die Ergebnisse zeigen, dass selbst die besten Modelle auf dem "Soohak Challenge"-Datensatz noch erheblichen Verbesserungsbedarf haben:

Challenge-Datensatz: Gemini-3-Pro erreichte eine Avg@3-Genauigkeit von 30,39 %, gefolgt von GPT-5 mit 26,37 %. Claude-Opus-4.5 lag bei 10,39 %. Das beste Open-Weight-Modell, Kimi-2.5, erreichte 13,87 %. Dies deutet darauf hin, dass die komplexen, forschungsnahen Probleme für aktuelle Modelle eine große Herausforderung darstellen.
Refusal-Datensatz: Im "Refusal"-Datensatz, der die Erkennung von schlecht formulierten Problemen testet, übertraf kein Modell 50 %. GLM-5 erreichte hier mit 49,49 % die höchste Punktzahl, während Closed-Source-Modelle wie Gemini-3-Flash (43,10 %) und GPT-5 (43,09 %) ähnliche Werte erzielten. Dies unterstreicht, dass die Fähigkeit, Unsicherheiten zu erkennen und nicht-valide Anfragen abzulehnen, ein kritischer Bereich für die zukünftige Entwicklung von LLMs ist.
Soohak-Mini: Auf dem einfacheren "Soohak-Mini"-Datensatz zeigte GPT-5 mit 72,22 % die beste Leistung, dicht gefolgt von Gemini-3-Pro mit 71,70 %. Kimi-2.5 war hier das beste Open-Weight-Modell mit 66,07 %.

Vergleich mit menschlicher Leistung

Um die Schwierigkeit des Benchmarks einzuordnen, wurde eine menschliche Baseline-Evaluierung mit 25 Teilnehmern in fünf Teams durchgeführt. Die Teilnehmer reichten von IMO-Medaillengewinnern bis zu promovierten Mathematikern und Informatikern. Auf einer Stichprobe von 79 Problemen erreichten die aggregierten menschlichen Teams eine Abdeckung von 50,6 %. Nur Gemini-3-Pro übertraf diese menschliche Gesamtleistung mit 60,8 %. Interessanterweise zeigten Teams mit starkem Olympiaden-Hintergrund die besten Ergebnisse unter den Menschen, während erfahrene Forscher, die sich auf spezifische Gebiete spezialisiert haben, tendenziell schlechter abschnitten. Dies könnte darauf hindeuten, dass der Benchmark eher Fähigkeiten im Stil von Wettbewerben als tiefgehende Forschungsexpertise belohnt.

Implikationen und Ausblick

Die Ergebnisse von Soohak legen nahe, dass, obwohl LLMs bei Mathematik-Olympiaden beeindruckende Leistungen erbringen, das mathematische Denken auf Forschungsniveau eine deutlich größere Herausforderung darstellt. Insbesondere die Fähigkeit, schlecht formulierte Probleme zu erkennen und nicht einfach eine überzeugende, aber falsche Antwort zu generieren, ist ein wichtiger Optimierungsbereich für zukünftige Modelle. Dieses "Verweigerungsverhalten" (Refusal) ist entscheidend, um Vertrauen in KI-Systeme in komplexen wissenschaftlichen Kontexten aufzubauen.

Der vollständige Datensatz von Soohak wird voraussichtlich Ende 2026 öffentlich zugänglich gemacht, um Kontamination zu verhindern. Bis dahin können Modelle auf Anfrage evaluiert werden. Der Benchmark soll Forschern und Entwicklern helfen, die Stärken und Schwächen von LLMs im mathematischen Denken auf hohem Niveau besser zu verstehen und gezielt an der Verbesserung dieser Fähigkeiten zu arbeiten. Die Entwicklung von Soohak unterstreicht die anhaltende Notwendigkeit, robuste und kontaminationsresistente Benchmarks zu schaffen, um den wahren Fortschritt in der KI-Forschung transparent und nachvollziehbar zu messen.

Bibliography:

- Son, G., Kim, S. et al. (2026). Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs. arXiv preprint arXiv:2605.09063. - Kim, S. (2026). Seungone Kim's Post. LinkedIn. Verfügbar unter: https://www.linkedin.com/posts/seungone-kim-09b551264_soohak-a-mathematician-curated-benchmark-activity-7459822363291987968-h4X1 - Garre, S., Knutsen, E., Mehta, S., & Chen, E. (2026). Riemann-Bench: A Benchmark for Moonshot Mathematics. arXiv preprint arXiv:2604.06802. - Zhang, J., Petrui, C., Nikolić, K., & Tramèr, F. (2025). RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics. OpenReview.net. - Schmitt, J., Bérczi, G. et al. (2025). IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation. arXiv preprint arXiv:2509.26076. - Akhaliq, A. (2026). Post by @_akhaliq. X. Verfügbar unter: https://x.com/_akhaliq/status/2054134200064725500