Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fortschritte im Bereich der Künstlichen Intelligenz (KI) sind beeindruckend, insbesondere im mathematischen Problemlösen. Aktuelle Modelle erreichen in etablierten Benchmarks oft hohe Genauigkeitswerte. Eine neue Untersuchung, durchgeführt von einem internationalen Konsortium aus 64 Mathematikern, beleuchtet jedoch eine kritische Schwäche dieser Systeme: die mangelnde Fähigkeit, unlösbare mathematische Probleme als solche zu erkennen, während sie gleichzeitig mit hoher Zuversicht fehlerhafte Lösungen präsentieren. Diese Erkenntnisse sind für die Entwicklung vertrauenswürdiger KI-Systeme von erheblicher Bedeutung, insbesondere in B2B-Anwendungen, wo die Verlässlichkeit von Lösungen von höchster Priorität ist.
Der neu entwickelte Benchmark mit dem Namen SOOHAK (Standing Out Of Hard And Known problems) wurde von Forschern der Carnegie Mellon University, EleutherAI und der Seoul National University ins Leben gerufen. Er besteht aus 439 neu erstellten mathematischen Aufgaben, die sich in zwei Hauptkategorien unterteilen:
Der fundamentale Unterschied zu früheren Benchmarks liegt darin, dass die Aufgaben von Grund auf neu konzipiert wurden, um eine Kontamination durch bereits im Trainingsmaterial vorhandene Lösungen auszuschließen. Ein Team von 38 Professoren, 25 Doktoranden und Postdocs sowie fünf Medaillengewinnern der Internationalen Mathematik-Olympiade (IMO) erstellte diese Aufgaben. Jeder Beitragende musste dabei versichern, keine KI-Hilfe verwendet zu haben.
Die Ergebnisse der Evaluierung sind differenziert und geben wichtige Einblicke in den aktuellen Stand der KI-Entwicklung im mathematischen Bereich:
Auf dem Challenge-Set zeigte Google Gemini 3 Pro mit 30 % die höchste Lösungsrate, gefolgt von GPT-5 (Versionen 5.1, 5.2) mit 26 %. Modelle wie Claude Opus 4.5 erreichten lediglich 10 %, während offene Modelle wie Kimi-2.5, Qwen3-235B und GPT-OSS-120B unter 15 % blieben. Bemerkenswert ist, dass 124 der Challenge-Aufgaben von keinem der getesteten Modelle gelöst werden konnten. Dies unterstreicht, dass trotz beeindruckender Leistungen in einfacheren oder olympischen Mathematikaufgaben, die Forschungsebene nach wie vor eine erhebliche Hürde darstellt.
Der kritischste Befund betrifft das Refusal-Set. Hier wurde kein Modell die 50-Prozent-Marke bei der Erkennung unlösbarer Probleme überschreiten. Das offene Modell GLM-5 schnitt mit knapp unter 50 % am besten ab und übertraf damit sogar GPT-5 und Gemini 3 Pro. Die Qwen3-Familie hingegen versagte fast vollständig und erkannte in weniger als 3 % der Fälle die Fehlerhaftigkeit der Aufgaben.
Die Autoren des Benchmarks betonen, dass das Erkennen fehlerhafter Probleme ein "neues Optimierungsziel" darstellt, das von aktuellen Modellen nicht direkt adressiert wird. Während die Lösungsraten für lösbare Probleme mit zunehmender Modellgröße und Rechenleistung linear ansteigen, zeigt sich dieser Skalierungseffekt nicht bei der Fähigkeit, unlösbare Aufgaben zu identifizieren. Dies deutet darauf hin, dass mehr Rechenleistung Modelle zwar besser im Lösen macht, sie aber nicht unbedingt bescheidener im Eingeständnis macht, dass ein Problem keine Lösung hat.
Um die KI-Leistung in Relation zu setzen, wurden 25 menschliche Teilnehmer, von IMO-Medaillengewinnern bis zu promovierten Mathematikern, mit einer Auswahl von 79 Aufgaben des SOOHAK-Benchmarks konfrontiert. Insgesamt lösten die menschlichen Gruppen 51 % der Aufgaben. Nur Gemini-3-Pro konnte diese kombinierte menschliche Leistung mit 61 % übertreffen. Interessanterweise zeigten Teilnehmer mit Olympiade-Hintergrund bessere Leistungen als promovierte Forscher. Dies könnte darauf zurückzuführen sein, dass der Benchmark, mit seinem 4,5-stündigen Zeitfenster, eher auf die effizienten Lösungsstrategien von Wettbewerbsmathematikern zugeschnitten ist als auf die spezialisierte Forschungstiefe von Akademikern.
Der vollständige SOOHAK-Datensatz wird erst Ende 2026 öffentlich zugänglich gemacht, um eine Kontamination der Trainingsdaten zu verhindern. Die Autoren weisen zudem auf die Grenzen des aktuellen Formats hin: Die Fokussierung auf eindeutige numerische Antworten lässt viele Bereiche der höheren Mathematik unberücksichtigt, die besser durch Beweise, Konstruktionen oder Gegenbeispiele bewertet werden könnten. Zukünftige Versionen des Benchmarks könnten daher reichhaltigere Formate, wie formale Beweisassistenten, integrieren.
Für Unternehmen, die KI-Lösungen in kritischen Bereichen einsetzen, sind diese Ergebnisse von großer Bedeutung. Die Tendenz von KI-Modellen, selbstbewusst falsche oder unbegründete Antworten zu liefern, wenn sie mit unlösbaren oder fehlerhaften Problemen konfrontiert werden, kann erhebliche Risiken bergen. Dies erfordert eine sorgfältige Validierung und den Einsatz von KI-Systemen, die nicht nur Problemlösungskompetenz, sondern auch ein "Verständnis" für die Grenzen ihres Wissens und die Integrität der Problemstellung aufweisen. Die Entwicklung von KI-Modellen, die in der Lage sind, Unsicherheiten zu äußern oder die Unlösbarkeit einer Aufgabe zu erkennen, ist eine entscheidende Anforderung für vertrauenswürdige und sichere B2B-Anwendungen.
Die Forschung an Benchmarks wie SOOHAK ist daher unerlässlich, um die tatsächlichen Fähigkeiten von KI-Modellen zu messen und die Entwicklung robusterer und zuverlässigerer Systeme voranzutreiben, die in der Lage sind, komplexe mathematische und logische Herausforderungen mit der gebotenen Sorgfalt und Reflexion zu meistern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen