Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren zu beeindruckenden Fortschritten im Bereich des mathematischen Denkens geführt. Nachdem einige dieser Modelle Goldmedaillen-Leistungen bei der Internationalen Mathematik-Olympiade (IMO) erbracht haben, richten sich die Augen der Forschungsgemeinschaft auf die nächste Herausforderung: die Bewertung mathematischer Fähigkeiten auf Forschungsniveau. Hier setzt der neue Benchmark "Soohak" an, der von einem Team von 64 Mathematikern entwickelt wurde, um die Grenzen aktueller KI-Modelle auszuloten.
Bisherige Benchmarks für mathematisches Denken in LLMs konzentrierten sich oft auf Olympiaden-Aufgaben oder Probleme aus Lehrbüchern. Diese Aufgaben messen zwar das schrittweise logische Denken, erfassen jedoch nicht das komplexere, forschungsnahe Problemlösen, das zur Erweiterung des mathematischen Wissens selbst erforderlich ist. Solche forschungsnahen Probleme sind schwer zu beschaffen, was bisher zu einer Knappheit an entsprechenden Benchmarks führte. Projekte wie Riemann Bench und FrontierMath-Tier 4 enthielten beispielsweise nur 25 bzw. 50 Probleme.
Der "Soohak"-Benchmark wurde entwickelt, um diese Lücke zu schließen. Er soll eine zuverlässige Bewertung der nächsten Generation von KI-Modellen ermöglichen und dabei die Integrität, Breite und Verantwortlichkeit der Bewertung sicherstellen. Dies ist besonders wichtig, da die Ergebnisse solcher Benchmarks zunehmend als Leitfaden für Pre-Training- und Post-Training-Initiativen von LLMs dienen.
"Soohak" besteht aus zwei Hauptteilen:
Zusätzlich wurde "Soohak-Mini" veröffentlicht, eine Sammlung von 702 Fragen, die den Bereich von Mathematik-Olympiaden bis hin zu frühen Graduiertenkursen abdeckt. Dieser Subset dient zur Verfolgung kleinerer und Open-Weight-Systeme.
Die Entwicklung von Soohak erfolgte unter strengen Bedingungen. Insgesamt 105 Mathematiker und Studenten trugen Fragen bei. Der Prozess umfasste eine mehrstufige Sammlung und Filterung, um die Originalität der Aufgaben und die Abwesenheit von KI-generierten Inhalten zu gewährleisten. Jede Einreichung durchlief eine automatisierte Prüfung durch Basis-LLMs und eine manuelle Überprüfung durch zwei menschliche Gutachter. Bei Unstimmigkeiten zwischen Modelllösungen und Referenzlösungen wurden Korrekturen vorgenommen und in einigen Fällen Mitwirkende, die KI-generierte Fragen einreichten, ausgeschlossen. Etwa 92 % der Aufgaben wurden ursprünglich auf Englisch verfasst und anschließend in einem sorgfältigen Prozess ins Koreanische übersetzt, um einen zweisprachigen Benchmark zu schaffen.
Elf führende Sprachmodelle, darunter sowohl Closed-Source- als auch Open-Weight-Systeme, wurden auf Soohak evaluiert. Zu den Closed-Source-Modellen gehörten Gemini-3-Pro, GPT-5 und Claude-Opus-4.5. Bei den Open-Weight-Modellen kamen unter anderem Qwen3-235B, GPT-OSS-120B und GLM-5 zum Einsatz. Für jedes Modell und jede Frage wurden drei unabhängige Antworten generiert, und die Ergebnisse wurden anhand von "Avg@3" und "Pass@3" Metriken bewertet. Die Bewertung erfolgte durch einen LLM-Richter (GPT-5-Mini), der die generierten Antworten mit den Goldstandard-Antworten auf mathematische Äquivalenz prüfte.
Die Ergebnisse zeigen, dass selbst die besten Modelle auf dem "Soohak Challenge"-Datensatz noch erheblichen Verbesserungsbedarf haben:
Um die Schwierigkeit des Benchmarks einzuordnen, wurde eine menschliche Baseline-Evaluierung mit 25 Teilnehmern in fünf Teams durchgeführt. Die Teilnehmer reichten von IMO-Medaillengewinnern bis zu promovierten Mathematikern und Informatikern. Auf einer Stichprobe von 79 Problemen erreichten die aggregierten menschlichen Teams eine Abdeckung von 50,6 %. Nur Gemini-3-Pro übertraf diese menschliche Gesamtleistung mit 60,8 %. Interessanterweise zeigten Teams mit starkem Olympiaden-Hintergrund die besten Ergebnisse unter den Menschen, während erfahrene Forscher, die sich auf spezifische Gebiete spezialisiert haben, tendenziell schlechter abschnitten. Dies könnte darauf hindeuten, dass der Benchmark eher Fähigkeiten im Stil von Wettbewerben als tiefgehende Forschungsexpertise belohnt.
Die Ergebnisse von Soohak legen nahe, dass, obwohl LLMs bei Mathematik-Olympiaden beeindruckende Leistungen erbringen, das mathematische Denken auf Forschungsniveau eine deutlich größere Herausforderung darstellt. Insbesondere die Fähigkeit, schlecht formulierte Probleme zu erkennen und nicht einfach eine überzeugende, aber falsche Antwort zu generieren, ist ein wichtiger Optimierungsbereich für zukünftige Modelle. Dieses "Verweigerungsverhalten" (Refusal) ist entscheidend, um Vertrauen in KI-Systeme in komplexen wissenschaftlichen Kontexten aufzubauen.
Der vollständige Datensatz von Soohak wird voraussichtlich Ende 2026 öffentlich zugänglich gemacht, um Kontamination zu verhindern. Bis dahin können Modelle auf Anfrage evaluiert werden. Der Benchmark soll Forschern und Entwicklern helfen, die Stärken und Schwächen von LLMs im mathematischen Denken auf hohem Niveau besser zu verstehen und gezielt an der Verbesserung dieser Fähigkeiten zu arbeiten. Die Entwicklung von Soohak unterstreicht die anhaltende Notwendigkeit, robuste und kontaminationsresistente Benchmarks zu schaffen, um den wahren Fortschritt in der KI-Forschung transparent und nachvollziehbar zu messen.
Bibliography:
- Son, G., Kim, S. et al. (2026). Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs. arXiv preprint arXiv:2605.09063. - Kim, S. (2026). Seungone Kim's Post. LinkedIn. Verfügbar unter: https://www.linkedin.com/posts/seungone-kim-09b551264_soohak-a-mathematician-curated-benchmark-activity-7459822363291987968-h4X1 - Garre, S., Knutsen, E., Mehta, S., & Chen, E. (2026). Riemann-Bench: A Benchmark for Moonshot Mathematics. arXiv preprint arXiv:2604.06802. - Zhang, J., Petrui, C., Nikolić, K., & Tramèr, F. (2025). RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics. OpenReview.net. - Schmitt, J., Bérczi, G. et al. (2025). IMProofBench: Benchmarking AI on Research-Level Mathematical Proof Generation. arXiv preprint arXiv:2509.26076. - Akhaliq, A. (2026). Post by @_akhaliq. X. Verfügbar unter: https://x.com/_akhaliq/status/2054134200064725500Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen