Automatisierte Evaluierung von KI-Agenten durch EvalAgent

Kategorien:

No items found.

Freigegeben:

May 15, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Evaluierung von KI-Agenten ist komplex, zeitaufwendig und erfordert spezialisiertes Fachwissen.
Herkömmliche Coding-Assistenten sind für diese Aufgabe unzureichend, da ihnen domänenspezifisches Wissen fehlt.
EvalAgent, ein KI-Assistent, automatisiert den gesamten Evaluierungsprozess durch die Kodierung von "Evaluierungs-Skills".
Diese "Skills" umfassen prozedurale Anweisungen, wiederverwendbaren Code, Vorlagen und dynamisch abgerufene API-Dokumentationen.
EvalAgent verbessert die Erfolgsquote von Evaluierungscode (Eval@1) signifikant von 17,5 % auf 65 %.
Ein Meta-Evaluierungs-Framework und der Benchmark AgentEvalBench wurden zur systematischen Bewertung entwickelt.
Strukturierte Planung, kombiniert mit Evaluierungs-Skills, ist entscheidend für die Qualität der Evaluierung.
Dynamische API-Dokumentation ist essenziell, um mit sich schnell entwickelnden Bibliotheks-APIs Schritt zu halten.

Automatisierte Agenten-Evaluierung: Ein Paradigmenwechsel durch EvalAgent

Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der autonomen Agenten, hat neue Herausforderungen in der Evaluierung dieser komplexen Systeme mit sich gebracht. Während traditionelle Sprachmodelle (LLMs) oft anhand ihrer finalen Outputs bewertet werden können, erfordert die Evaluierung von Agenten, die Werkzeuge nutzen und komplexe, mehrstufige Denkprozesse durchlaufen, einen wesentlich tiefergehenden Ansatz. Eine aktuelle Studie beleuchtet die Grenzen bestehender Methoden und stellt einen innovativen Ansatz zur Automatisierung dieser anspruchsvollen Aufgabe vor: EvalAgent.

Die Komplexität der Agenten-Evaluierung

Die Bewertung der Leistungsfähigkeit von KI-Agenten ist ein ressourcenintensiver Prozess, der nicht nur hohe Kosten verursacht, sondern auch spezifisches Fachwissen erfordert. Agenten agieren in dynamischen Umgebungen, nutzen verschiedene Tools und führen komplexe, oft mehrstufige Aufgaben aus. Die reine Betrachtung des Endergebnisses greift hier zu kurz; vielmehr müssen die Zwischenschritte, die Nutzung von Werkzeugen und die zugrunde liegenden Denkprozesse analysiert werden. Die Frage, ob fortschrittliche Coding-Assistenten diesen Evaluierungsprozess zuverlässig automatisieren können, stand im Mittelpunkt der Untersuchung.

Die Ergebnisse zeigten, dass eine einfache Aufforderung an generische Coding-Assistenten nicht ausreicht. Ohne domänenspezifisches Evaluierungswissen erreichten diese Assistenten lediglich eine Erfolgsquote von 30 % bei der Ausführung von Evaluierungscodes. Zudem produzierten sie überdimensionierte Evaluierungen mit durchschnittlich über 12 Metriken pro Agent, von denen viele eher operationeller Natur waren als auf den tatsächlichen Erfolg der Aufgabe abzuzielen. Dies deutet darauf hin, dass eine starke Kodierfähigkeit allein nicht automatisch zu einer zuverlässigen Agenten-Evaluierung führt.

EvalAgent: Ein spezialisierter KI-Assistent für die Evaluierung

Als Antwort auf diese Herausforderungen wurde EvalAgent entwickelt – ein KI-Assistent, der darauf ausgelegt ist, die gesamte Pipeline der Agenten-Evaluierung zu automatisieren. EvalAgent überwindet die Limitationen generischer Coding-Assistenten, indem es domänenspezifisches Fachwissen in sogenannten "Evaluierungs-Skills" kodiert. Diese Skills sind modulare Pakete, die:

Prozedurale Anweisungen: Stufenspezifische Workflows und Einschränkungen, die das Verhalten des Agenten leiten.
Wiederverwendbaren Code und Vorlagen: Implementierungsgerüste wie strukturierte Plan- und Berichtsvorlagen sowie ausführbare Codemuster für die Analyse von OpenTelemetry (OTEL)-Traces und die Integration von DeepEval-Metriken.
Dynamische Ressourcen: Aktuelles externes Wissen, wie z.B. API-Dokumentationen, die dynamisch abgerufen werden, um veraltete API-Fehler zu vermeiden.

Diese Skills bilden eine sechsstufige, Trace-basierte Pipeline:

Evaluierungsplanung: EvalAgent analysiert den Quellcode des Agenten und Ausführungs-Traces, um einen strukturierten Evaluierungsplan zu erstellen.
Testfallgenerierung: Es werden Testfälle im JSONL-Format generiert, die Eingabeabfragen, Szenariokategorien und erwartetes Verhalten spezifizieren.
Agenten-Instrumentierung: Eine leichte OpenTelemetry-Instrumentierung wird hinzugefügt, um Ausführungs-Traces zu erfassen.
Trace-Erfassung und -Verarbeitung: Der instrumentierte Agent führt Testfälle aus, und ein Trace-Prozessor filtert relevante Spans und extrahiert ein minimales Feldset.
Evaluierungscode-Generierung: Der Evaluierungsplan wird in ausführbaren Python-Code übersetzt, inklusive Metrik-Implementierungen und einem Evaluierungs-Orchestrator.
Berichterstattung: Die Ergebnisse werden in einem strukturierten Bericht zusammengefasst, der eine Zusammenfassung, Metrik-Analysen, Ursachen für Fehler und Handlungsempfehlungen enthält.

Meta-Evaluierung und Benchmarking

Zur systematischen Bewertung der Qualität generierter Evaluierungen wurde ein Meta-Evaluierungs-Framework zusammen mit AgentEvalBench eingeführt. AgentEvalBench ist ein Benchmark, der 20 verschiedene, reale Agenten aus 9 Frameworks und 14 Anwendungsdomänen umfasst, jeweils gepaart mit Evaluierungsanforderungen und Testszenarien.

Das Meta-Evaluierungs-Framework nutzt einen agentischen Meta-Evaluator, der paarweise Vergleiche zwischen zwei Evaluierungsansätzen durchführt. Diese Bewertung erfolgt anhand von fünf gewichteten Dimensionen:

Erfüllung der Benutzeranforderungen (URF) (15%)
Relevanz der Metrik (MR) (30%)
Code-Qualität & -Komplexität (CQC) (25%)
Plan-Qualität (PQ) (15%)
Plan-Code-Abgleich (PCA) (15%)

Eine neue Metrik, Eval@1, wurde ebenfalls vorgeschlagen, um zu messen, ob generierter Evaluierungscode erfolgreich ausgeführt wird und auf Anhieb sinnvolle Ergebnisse liefert.

Ergebnisse und Erkenntnisse

Die Experimente zeigten, dass EvalAgent die Evaluierungsqualität erheblich verbessert. Es erzielte eine Eval@1-Rate von 62,5 % bis 65,0 %, was eine deutliche Steigerung gegenüber den Baselines (z.B. B4 mit 30,0 % bis 32,5 %) darstellt. Dies unterstreicht die Fähigkeit von EvalAgent, auf Anhieb ausführbare und aussagekräftige Evaluierungen zu produzieren.

Weitere wichtige Erkenntnisse umfassen:

Bedeutung von Evaluierungs-Skills: Ablationsstudien zeigten, dass das Entfernen der Evaluierungs-Skills die Eval@1-Rate signifikant von 65 % auf 30 % sinken lässt, was die entscheidende Rolle dieser spezialisierten Kenntnisse hervorhebt.
Effizienz: EvalAgent erreichte ein günstiges Verhältnis von Qualität zu Kosten, indem es 31 % weniger Token und 58 % weniger Zeit als die Baseline B4 benötigte.
Robustheit: EvalAgent zeigte eine starke Leistung sowohl bei generischen als auch bei spezifischen Anforderungen, wobei sein Vorteil bei generischen Anforderungen stärker ausgeprägt war.
Wert von Traces: Die Trace-basierte Evaluierung führte zu höheren Win-Tie-Raten und stärkerer Metrik-Relevanz im Vergleich zur reinen Quellcode-Evaluierung.
Strukturierte Planung: Unstrukturierte Planung verbesserte die Qualität nicht automatisch und konnte sogar zu einer Ausweitung des Umfangs und überflüssigem Code führen. Planung ist nur in Kombination mit Evaluierungs-Skills effektiv.
Stabilität durch Skills: Die Eval@1-Rate von EvalAgent blieb stabil oder verbesserte sich sogar bei zunehmender Anzahl von Metriken (65 % bei 5 Metriken), während die Baselines deutlich abbauten.
Dynamische API-Dokumentation: Der Zugriff auf aktuelle API-Dokumentationen verbesserte die Eval@1-Rate erheblich, da sich Bibliotheks-APIs schneller entwickeln als Modell-Trainingszyklen.

Qualitative Analysen zeigten zudem, dass EvalAgent prägnanteren Code produzierte und eine höhere Akzeptanz von LLM-as-Judge-Ansätzen erreichte. Fehleranalysen identifizierten, dass die meisten Fehler auf zustandsabhängige Probleme zurückzuführen sind, was auf die Wirksamkeit von Wiederholungsmechanismen hindeutet.

Fazit

EvalAgent stellt einen bedeutenden Fortschritt in der Automatisierung der Agenten-Evaluierung dar. Durch die Kodierung von domänenspezifischem Fachwissen in Evaluierungs-Skills und die Nutzung einer Trace-basierten Pipeline liefert es qualitativ hochwertigere und zuverlässigere Evaluierungen als unbeschränkte Coding-Assistenten. Die Einführung von AgentEvalBench und eines validierten Meta-Evaluierungs-Frameworks trägt zudem zur Weiterentwicklung der Forschung in diesem kritischen Bereich bei. Für Unternehmen, die auf den Einsatz von KI-Agenten setzen, bedeutet dies eine effizientere und präzisere Möglichkeit, die Leistungsfähigkeit ihrer Agenten zu bewerten und kontinuierlich zu verbessern, was letztlich zu zuverlässigeren und effektiveren KI-Anwendungen führt.

Dieser Fortschritt ist besonders relevant für Plattformen wie Mindverse, die sich als KI-Partner verstehen und umfassende Tools für KI-gestützte Inhalte und Forschung anbieten. Eine präzise und automatisierte Evaluierung der zugrunde liegenden Agenten ist entscheidend für die Qualität und Zuverlässigkeit der generierten Ergebnisse und somit für den Erfolg von B2B-Anwendungen.

Bibliographie

Woo, S., Zhou, K., Ding, H., Ramnath, K., Chidambaram, S., Feng, A., Arannil, V., Kim, M., Singh, I., Wang, D., Xu, Z., Gandhi, M., Prabhu, N., Mishra, S. S., Singh, V., Pandeshwar, G., & Cheong, L. L. (2026). An Empirical Study of Automating Agent Evaluation (arXiv:2605.11378). arXiv.org. https://arxiv.org/abs/2605.11378
TheMoonlight. (o. J.). [Literature Review] An Empirical Study of Automating Agent Evaluation. Abgerufen am 14. Mai 2024, von https://www.themoonlight.io/review/an-empirical-study-of-automating-agent-evaluation
Cool Papers. (o. J.). An Empirical Study of Automating Agent Evaluation - Cool Papers. Abgerufen am 14. Mai 2024, von https://papers.cool/arxiv/2605.11378
TheMoonlight. (o. J.). [Papierüberprüfung] An Empirical Study of Automating Agent Evaluation. Abgerufen am 14. Mai 2024, von https://www.themoonlight.io/de/review/an-empirical-study-of-automating-agent-evaluation
Sun, J., Hua, Z., & Xia, Y. (2025). AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents (arXiv:2503.02403). arXiv.org. https://arxiv.org/pdf/2503.02403v1
Bandel, E., Yehudai, A., Eden, L., Sagron, Y., Perlitz, Y., Venezian, E., Razinkov, N., Ergas, N., Shachor Ifergan, S., Shlomov, S., Jacovi, M., Choshen, L., Ein-Dor, L., Katz, Y., & Shmueli-Scheuer, M. (2026). General Agent Evaluation (arXiv:2602.22953). arXiv.org. https://arxiv.org/html/2602.22953v2
Pan, J., Zhang, Y., Tomlin, N., Zhou, Y., Levine, S., & Suhr, A. (2024). Autonomous Evaluation and Refinement of Digital Agents (arXiv:2404.06474). arXiv.org. https://arxiv.org/html/2404.06474v2
Pan, J., Zhang, Y., Tomlin, N., Zhou, Y., Levine, S., & Suhr, A. (2024, 26. August). Autonomous Evaluation and Refinement of Digital Agents. https://nlp.cs.berkeley.edu/pubs/Pan-Zhang-Tomlin-Zhou-Levine-Suhr_2024_Autonomous_paper.pdf
Pan, J., Zhang, Y., Tomlin, N., Zhou, Y., Levine, S., & Suhr, A. (o. J.). Paper page - Autonomous Evaluation and Refinement of Digital Agents. Hugging Face. Abgerufen am 14. Mai 2024, von https://huggingface.co/papers/2404.06474
Kinniment, M., Koba Sato, L. J., Du, H., Goodrich, B., Hasin, M., Chan, L., Harold Miles, L., Lin, T. R., Wijk, H., Burget, J., Ho, A., Barnes, E., & Christiano, P. (2023, 14. August). Evaluating Language-Model Agents on Realistic Autonomous Tasks. https://evals.alignment.org/Evaluating_LMAs_Realistic_Tasks.pdf