Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Plattform Papers With Code, bekannt als Archiv für KI-Benchmarks, hat eine signifikante Neuerung eingeführt: die Unterstützung für die Evaluierung von Closed-Source-Modellen. Diese Erweiterung ermöglicht es, auch proprietäre KI-Modelle in den Vergleich und die Analyse einzubeziehen, was eine umfassendere Perspektive auf die Leistungsfähigkeit von Künstlicher Intelligenz bieten soll. Die Ankündigung erfolgte im Kontext eines neuen, umfangreichen Microsoft-Technologieberichts, dessen Evaluierungen nun auf Papers With Code verfügbar sind und mit einem speziellen „closed“-Tag versehen wurden.
Bislang konzentrierte sich die Benchmarking-Community primär auf Open-Source-Modelle, da deren Architektur und Trainingsdaten oft zugänglich sind, was eine detaillierte Überprüfung und Reproduktion von Ergebnissen ermöglicht. Mit dem Aufkommen leistungsstarker Closed-Source-Modelle, die von Unternehmen wie Microsoft, Google oder OpenAI entwickelt werden, entstand jedoch eine Lücke in der öffentlichen Vergleichbarkeit. Diese Modelle werden häufig in geschlossenen Umgebungen trainiert und ihre internen Mechanismen bleiben proprietär. Die Integration von Closed-Source-Evaluierungen auf Plattformen wie Papers With Code ist ein Schritt, diese Lücke zu schließen und eine breitere Vergleichsbasis zu schaffen.
Um die Herkunft und Natur der Evaluierungen klar zu kennzeichnen, führt Papers With Code ein spezielles „closed“-Tag ein. Dieses Tag signalisiert den Nutzern, dass die entsprechenden Evaluierungen auf Closed-Source-Modellen basieren und somit möglicherweise nicht die gleiche Transparenz bezüglich der Implementierungsdetails bieten wie Open-Source-Evaluierungen. Nutzer haben die Möglichkeit, diese Kennzeichnung in ihren persönlichen Einstellungen anzupassen, um die Anzeige von Closed-Source-Inhalten nach ihren Präferenzen zu steuern. Dies soll eine flexible Nutzung der Plattform ermöglichen und gleichzeitig die notwendige Transparenz wahren.
Die Einführung dieser neuen Funktion fällt mit der Veröffentlichung eines umfangreichen Technologieberichts von Microsoft zusammen. Dieser Bericht, der detaillierte Evaluierungen von KI-Modellen enthält, ist nun ebenfalls auf Papers With Code zugänglich. Die darin enthaltenen Evaluierungen sind mit dem neuen „closed“-Tag versehen, was ihre Integration in das bestehende Benchmarking-System erleichtert und die Relevanz der neuen Funktion unterstreicht. Es wird erwartet, dass dies als Präzedenzfall für weitere Veröffentlichungen von Closed-Source-Evaluierungen dienen wird.
Die Evaluierung von Closed-Source-Modellen bringt spezifische Herausforderungen mit sich. Ohne Zugang zu den internen Architekturen, Trainingsdaten oder sogar den genauen Implementierungsdetails kann es schwierig sein, die Gründe für bestimmte Leistungswerte vollständig zu verstehen oder potenzielle Verzerrungen zu identifizieren. Ein Hauptanliegen in der KI-Forschung ist die Kontamination von Benchmarks, bei der Testdaten unbeabsichtigt in den Trainingsprozess von LLMs gelangen, was die Validität von Leistungsvergleichen beeinträchtigen kann. Die TRUCE-Methode (Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs) versucht, diesem Problem entgegenzuwirken, indem sie private Benchmarking-Ansätze vorschlägt.
Ein weiterer Aspekt ist die Reproduzierbarkeit. Während Open-Source-Projekte oft eine hohe Reproduzierbarkeit ermöglichen, ist dies bei Closed-Source-Modellen aufgrund der fehlenden Transparenz der internen Abläufe nicht immer gegeben. Die neue Funktion bei Papers With Code versucht, diesen Herausforderungen durch klare Kennzeichnung und die Möglichkeit zur Filterung zu begegnen.
Im Kontext der Evaluierung von KI-Modellen entwickelt Microsoft zudem Tools wie die Microsoft 365 Copilot Agent Evaluations CLI (Command Line Interface). Dieses Tool, das sich derzeit in der Vorschauphase befindet, soll Entwicklern und Unternehmen dabei helfen, die Qualität ihrer Agenten zu testen, zu messen und zu verbessern. Es bietet Funktionen für die automatisierte Promptevaluierung und KI-basierte Bewertung, was die Entwicklung robuster und leistungsfähiger KI-Agenten unterstützen soll. Die CLI kann Verbindungseinstellungen und Authentifizierungsparameter aus Umgebungsvariablen lesen, was eine flexible Integration in bestehende Entwicklungsumgebungen ermöglicht.
Die Erweiterung von Papers With Code um Closed-Source-Evaluierungen reflektiert die dynamische Entwicklung im Bereich der Künstlichen Intelligenz. Sie zeigt einen Trend hin zu einer integrativeren Benchmarking-Landschaft, in der sowohl Open-Source- als auch Closed-Source-Modelle in einem einheitlichen Rahmen verglichen werden können. Dies könnte zu einem besseren Verständnis der Stärken und Schwächen verschiedener KI-Ansätze führen und die Forschung sowie die praktische Anwendung von KI-Technologien vorantreiben. Die kontinuierliche Weiterentwicklung von Evaluierungstools und -plattformen ist entscheidend, um die Qualität und Zuverlässigkeit von KI-Systemen sicherzustellen.
Die Einführung der Closed-Source-Evaluierungsunterstützung bei Papers With Code ist ein wichtiger Schritt für die KI-Community. Sie erweitert die Möglichkeiten für umfassende Vergleiche und Analysen von KI-Modellen und trägt dazu bei, die Transparenz in einem zunehmend komplexen Feld zu erhöhen. Die Kennzeichnung durch das „closed“-Tag und die Anpassungsoptionen für Nutzer sind dabei zentrale Elemente, um den unterschiedlichen Anforderungen an Transparenz und Zugänglichkeit gerecht zu werden. Diese Entwicklung unterstreicht die Notwendigkeit, flexible und umfassende Evaluierungsmethoden zu entwickeln, die mit der rasanten Entwicklung der KI Schritt halten können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen