Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der autonomen Agenten, hat neue Herausforderungen in der Evaluierung dieser komplexen Systeme mit sich gebracht. Während traditionelle Sprachmodelle (LLMs) oft anhand ihrer finalen Outputs bewertet werden können, erfordert die Evaluierung von Agenten, die Werkzeuge nutzen und komplexe, mehrstufige Denkprozesse durchlaufen, einen wesentlich tiefergehenden Ansatz. Eine aktuelle Studie beleuchtet die Grenzen bestehender Methoden und stellt einen innovativen Ansatz zur Automatisierung dieser anspruchsvollen Aufgabe vor: EvalAgent.
Die Bewertung der Leistungsfähigkeit von KI-Agenten ist ein ressourcenintensiver Prozess, der nicht nur hohe Kosten verursacht, sondern auch spezifisches Fachwissen erfordert. Agenten agieren in dynamischen Umgebungen, nutzen verschiedene Tools und führen komplexe, oft mehrstufige Aufgaben aus. Die reine Betrachtung des Endergebnisses greift hier zu kurz; vielmehr müssen die Zwischenschritte, die Nutzung von Werkzeugen und die zugrunde liegenden Denkprozesse analysiert werden. Die Frage, ob fortschrittliche Coding-Assistenten diesen Evaluierungsprozess zuverlässig automatisieren können, stand im Mittelpunkt der Untersuchung.
Die Ergebnisse zeigten, dass eine einfache Aufforderung an generische Coding-Assistenten nicht ausreicht. Ohne domänenspezifisches Evaluierungswissen erreichten diese Assistenten lediglich eine Erfolgsquote von 30 % bei der Ausführung von Evaluierungscodes. Zudem produzierten sie überdimensionierte Evaluierungen mit durchschnittlich über 12 Metriken pro Agent, von denen viele eher operationeller Natur waren als auf den tatsächlichen Erfolg der Aufgabe abzuzielen. Dies deutet darauf hin, dass eine starke Kodierfähigkeit allein nicht automatisch zu einer zuverlässigen Agenten-Evaluierung führt.
Als Antwort auf diese Herausforderungen wurde EvalAgent entwickelt – ein KI-Assistent, der darauf ausgelegt ist, die gesamte Pipeline der Agenten-Evaluierung zu automatisieren. EvalAgent überwindet die Limitationen generischer Coding-Assistenten, indem es domänenspezifisches Fachwissen in sogenannten "Evaluierungs-Skills" kodiert. Diese Skills sind modulare Pakete, die:
Diese Skills bilden eine sechsstufige, Trace-basierte Pipeline:
Zur systematischen Bewertung der Qualität generierter Evaluierungen wurde ein Meta-Evaluierungs-Framework zusammen mit AgentEvalBench eingeführt. AgentEvalBench ist ein Benchmark, der 20 verschiedene, reale Agenten aus 9 Frameworks und 14 Anwendungsdomänen umfasst, jeweils gepaart mit Evaluierungsanforderungen und Testszenarien.
Das Meta-Evaluierungs-Framework nutzt einen agentischen Meta-Evaluator, der paarweise Vergleiche zwischen zwei Evaluierungsansätzen durchführt. Diese Bewertung erfolgt anhand von fünf gewichteten Dimensionen:
Eine neue Metrik, Eval@1, wurde ebenfalls vorgeschlagen, um zu messen, ob generierter Evaluierungscode erfolgreich ausgeführt wird und auf Anhieb sinnvolle Ergebnisse liefert.
Die Experimente zeigten, dass EvalAgent die Evaluierungsqualität erheblich verbessert. Es erzielte eine Eval@1-Rate von 62,5 % bis 65,0 %, was eine deutliche Steigerung gegenüber den Baselines (z.B. B4 mit 30,0 % bis 32,5 %) darstellt. Dies unterstreicht die Fähigkeit von EvalAgent, auf Anhieb ausführbare und aussagekräftige Evaluierungen zu produzieren.
Weitere wichtige Erkenntnisse umfassen:
Qualitative Analysen zeigten zudem, dass EvalAgent prägnanteren Code produzierte und eine höhere Akzeptanz von LLM-as-Judge-Ansätzen erreichte. Fehleranalysen identifizierten, dass die meisten Fehler auf zustandsabhängige Probleme zurückzuführen sind, was auf die Wirksamkeit von Wiederholungsmechanismen hindeutet.
EvalAgent stellt einen bedeutenden Fortschritt in der Automatisierung der Agenten-Evaluierung dar. Durch die Kodierung von domänenspezifischem Fachwissen in Evaluierungs-Skills und die Nutzung einer Trace-basierten Pipeline liefert es qualitativ hochwertigere und zuverlässigere Evaluierungen als unbeschränkte Coding-Assistenten. Die Einführung von AgentEvalBench und eines validierten Meta-Evaluierungs-Frameworks trägt zudem zur Weiterentwicklung der Forschung in diesem kritischen Bereich bei. Für Unternehmen, die auf den Einsatz von KI-Agenten setzen, bedeutet dies eine effizientere und präzisere Möglichkeit, die Leistungsfähigkeit ihrer Agenten zu bewerten und kontinuierlich zu verbessern, was letztlich zu zuverlässigeren und effektiveren KI-Anwendungen führt.
Dieser Fortschritt ist besonders relevant für Plattformen wie Mindverse, die sich als KI-Partner verstehen und umfassende Tools für KI-gestützte Inhalte und Forschung anbieten. Eine präzise und automatisierte Evaluierung der zugrunde liegenden Agenten ist entscheidend für die Qualität und Zuverlässigkeit der generierten Ergebnisse und somit für den Erfolg von B2B-Anwendungen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen