VAKRA Benchmark zur Bewertung von KI-Agenten in Unternehmensumgebungen

Kategorien:

No items found.

Freigegeben:

April 16, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

VAKRA ist ein von IBM Research entwickelter Benchmark zur Bewertung der Fähigkeiten von KI-Agenten in komplexen Unternehmensumgebungen.
Er misst kompositorisches Denken über APIs und Dokumente hinweg, nicht nur isolierte Fähigkeiten.
Der Benchmark umfasst vier Fähigkeiten: API-Verkettung, Tool-Auswahl, Multi-Hop-Reasoning und Multi-Hop, Multi-Source-Reasoning mit Policy-Adhärenz.
VAKRA nutzt eine ausführungszentrierte Bewertung, die nicht nur Endergebnisse, sondern auch den gesamten Tool-Ausführungspfad bewertet.
Die Analyse zeigt, dass Modelle Schwierigkeiten haben, externe Einschränkungen in ihr Reasoning zu integrieren und bei komplexen Multi-Hop-Aufgaben Fehler machen.
Der Benchmark deckt eine kritische Lücke zwischen Tool-Kompetenz auf Oberflächenebene und robuster, durchgängiger Agenten-Zuverlässigkeit auf.

Grundlegendes zu VAKRA: Ein Benchmark für KI-Agenten in komplexen Umgebungen

IBM Research hat kürzlich VAKRA (eValuating API and Knowledge Retrieval Agents using multi-hop, multi-source dialogues) vorgestellt. Dieser Benchmark ist darauf ausgelegt, die Fähigkeiten von KI-Agenten in komplexen, unternehmensähnlichen Umgebungen umfassend zu bewerten. Im Gegensatz zu traditionellen Benchmarks, die oft isolierte Fähigkeiten testen, konzentriert sich VAKRA auf das kompositorische Denken über verschiedene APIs und Dokumente hinweg. Ziel ist es, zu beurteilen, ob Agenten mehrstufige Arbeitsabläufe zuverlässig abschließen können, anstatt nur einzelne Schritte korrekt auszuführen.

VAKRA bietet eine ausführbare Umgebung, in der Agenten mit über 8.000 lokal gehosteten APIs interagieren, die durch reale Datenbanken in 62 Domänen gestützt werden. Ergänzt wird dies durch domänenspezifische Dokumentsammlungen. Die Aufgaben erfordern Reasoning-Ketten von drei bis sieben Schritten, die strukturierte API-Interaktionen mit unstrukturierter Retrieval unter Berücksichtigung von Tool-Nutzungsbeschränkungen in natürlicher Sprache kombinieren. Die Ergebnisse erster Analysen zeigen, dass aktuelle Modelle auf VAKRA noch erhebliche Schwierigkeiten aufweisen.

Die vier Fähigkeiten im VAKRA-Benchmark

Der VAKRA-Benchmark gliedert sich in vier Hauptfähigkeiten, die jeweils spezifische Aspekte der Agentenleistung testen und in ihrer Komplexität stufenweise aufgebaut sind:

1. API-Verkettung mittels Business-Intelligence-APIs

Diese Fähigkeit umfasst 2.077 Testinstanzen aus 54 Domänen. Sie erfordert die Nutzung von Tools aus den Sammlungen SLOT-BIRD und SEL-BIRD. Die Aufgaben bestehen darin, eine Kette von 1 bis 12 Tool-Aufrufen zu bilden, um die endgültige Antwort zu erhalten. Jede Instanz ist mit einer JSON-Datenquelle verknüpft. Ein spezielles Tool, get_data(tool_universe_id=id), initialisiert die Datenquelle und stellt relevante Tools sowie die Daten aus der domänenspezifischen Datenbank bereit. Während SLOT-BIRD generische Datenmanipulationstools bietet, erweitert SEL-BIRD dies um spezialisiertere Funktionen, die eine größere und dynamischere Auswahl erfordern.

2. Tool-Auswahl mittels Dashboard-APIs

Hierbei handelt es sich um 1.597 Instanzen aus 17 Domänen, die Tools aus einer erweiterten REST-BIRD-Sammlung nutzen. Diese Tools verwenden Endpunkt-basierte Schnittstellen, die spezifische, auf Abfragen ausgerichtete Endpunkte bereitstellen. Die Aufgabe erfordert die Auswahl der korrekten APIs aus einem domänenspezifischen Tool-Set. Die Anzahl der Tools pro Domäne variiert erheblich. Eine Herausforderung stellt die Beschränkung der Tool-Liste auf maximal 128 Tools in der OpenAI API Specification dar, was Mechanismus zur Vorauswahl erforderlich macht.

3. Multi-Hop-Reasoning mittels Dashboard-APIs

Dieser Abschnitt des Benchmarks enthält 869 Testinstanzen aus 38 Domänen, die ebenfalls auf der REST-BIRD API-Sammlung basieren. Der Fokus liegt hier auf Multi-Hop-Reasoning, bei dem mehrere Beweisstücke extrahiert und kombiniert werden müssen, um eine Antwort zu finden. Die Instanzen erfordern zwischen einem und fünf logischen Schritten zur Beantwortung einer Abfrage. Die Schwierigkeit steigt mit der Anzahl der benötigten Hops, was sich in der Performance der Modelle widerspiegelt.

4. Multi-Hop, Multi-Source-Reasoning und Policy-Adhärenz

Die komplexeste Fähigkeit umfasst 644 Instanzen aus 41 Domänen und baut ebenfalls auf der REST-BIRD API-Sammlung auf. Sie zeichnet sich durch folgende Merkmale aus:

Multi-Source: Abfragen können Informationen aus Dokumentenindizes und API-Aufrufen erfordern. Die Informationsquelle wird auf der Ebene jedes Hops angewendet (z.B. API - RAG - API).
Multi-Turn: Die Aufgaben sind als mehrstufige Dialoge konzipiert, bei denen der Agent die aktuelle Runde beantworten muss.
Tool-Nutzungsrichtlinien: Ein Teil der Instanzen enthält Richtlinien in natürlicher Sprache, die festlegen, welche Wissensquellen der Agent unter welchen Umständen nutzen darf. Die Einhaltung dieser Richtlinien ist für die Bewertung entscheidend und stellt eine erhebliche Herausforderung dar.

Der Bewertungsrahmen von VAKRA

VAKRA verwendet einen ausführungszentrierten Bewertungsrahmen, der nicht nur die finalen Ausgaben, sondern den gesamten Tool-Ausführungspfad bewertet, einschließlich Tool-Aufrufen, Eingaben und Zwischenergebnissen. Dies gewährleistet eine detaillierte Analyse der Agentenleistung.

Bewertungsmetrik

Der VAKRA-Evaluator vergleicht die vorhergesagte endgültige Antwort und die zugehörige Tool-Aufruf-Trajektorie. Die Tool-Aufrufe der vorhergesagten Trajektorie werden in derselben Umgebung wie die Ground Truth ausgeführt, um Zwischenergebnisse zu verifizieren. Die Bewertung erfolgt in einer Wasserfall-Pipeline:

Bei Capability 4-Aufgaben wird zuerst die Einhaltung der Richtlinien programmatisch überprüft.
Anschließend wird die vorhergesagte Tool-Aufrufsequenz mit der Ground Truth verglichen.
Nur Stichproben mit gültigen Trajektorien gelangen zur abschließenden Antwortbewertung.

Die Korrektheit wird durch Ausführung jedes vorhergesagten Tools und Vergleich der Tool-Antworten mit der Ground Truth bewertet, anstatt eine exakte Schritt-für-Schritt-Übereinstimmung zu erzwingen. Bei komplexen Fällen wird eine sekundäre LLM-basierte Bewertung eingesetzt, um festzustellen, ob die vorhergesagte Trajektorie alle erforderlichen Informationen erfasst, auch wenn sie über eine andere Sequenz von Tool-Aufrufen erfolgt ist.

Die abschließende Antwort wird von einem LLM-basierten Richter bewertet, um sicherzustellen, dass die Antwort (i) auf den vorhergesagten Tool-Ausgaben basiert und (ii) sachlich mit der Ground Truth übereinstimmt.

Scoring

Jede der vier Fähigkeiten wird gleich gewichtet, um eine endgültige Leaderboard-Punktzahl zu erhalten. Für die Fähigkeiten 1 bis 3 wird jede Stichprobe innerhalb einer Fähigkeit gleich gewichtet. Für Fähigkeit 4 werden heterogene Abfragen höher gewichtet, insbesondere Multi-Source-Abfragen.

Fehleranalyse und Herausforderungen

Die detaillierte Fehleranalyse über die vier VAKRA-Fähigkeiten hinweg zeigt spezifische Schwachstellen der Modelle auf. Fehler werden sequenziell der frühesten Fehlerstufe zugeordnet, um Doppelzählungen zu vermeiden und eine klare Kategorisierung zu ermöglichen.

Herausforderungen bei der API-Verkettung und Tool-Auswahl

Bei der API-Verkettung (Capability 1) hatten alle Modelle Schwierigkeiten, insbesondere bei der korrekten Benennung von Tool-Argumenten, wenn viele optionale Parameter vorhanden waren. Modelle wie GPT-OSS-120B zeigten hier eine bessere Leistung, da sie die Tool-Schemas besser verstanden. Bei der Tool-Auswahl (Capability 2) war Gemini-3-flash-preview den anderen Modellen überlegen, obwohl auch hier viele Fehler bei der Tool-Auswahl und Parameterwert-Auswahl auftraten, was auf die große Anzahl an Tool-Optionen zurückzuführen ist.

Multi-Hop-Reasoning und Multi-Source-Probleme

Multi-Hop-Reasoning (Capability 3) erhöhte die Schwierigkeit der Aufgaben erheblich. Die Leistung aller Modelle nahm erwartungsgemäß ab, je mehr logische Hops erforderlich waren. Bei der Multi-Hop, Multi-Source-Reasoning (Capability 4), die Dokumentenquellen einschließt, wurde die Aufgabe noch komplexer. Modelle hatten besondere Schwierigkeiten bei RAG-Hops und hybriden Abfragen. Es wurde beobachtet, dass GPT-OSS-120B bei Fragen, die einen einzelnen Dokumenten-Retriever-Aufruf erforderten, versuchte, die Antwort direkt aus seinem Parameterwissen zu geben, anstatt das Tool zu nutzen.

Auswirkungen von Richtlinien auf die Agentenleistung

Tool-Nutzungsrichtlinien stellten eine zusätzliche Schwierigkeit dar. Wenn Richtlinien den Zugriff auf relevante Informationsquellen einschränkten, kam es bei den Modellen zu einem deutlichen Leistungsabfall. Dies deutet darauf hin, dass Modelle zwar Tools und Quellen verarbeiten können, aber Schwierigkeiten haben, externe Einschränkungen in ihr Reasoning zu integrieren. Dies ist jedoch eine zentrale Anforderung für zuverlässige Implementierungen in der realen Welt.

Fazit

VAKRA deckt eine entscheidende Lücke zwischen oberflächlicher Tool-Kompetenz und robuster, durchgängiger Agenten-Zuverlässigkeit auf. Obwohl moderne Modelle zunehmend APIs auswählen und isolierte Tool-Aufrufe ausführen können, zeigt VAKRA, dass diese Fähigkeiten allein für den Einsatz in der Praxis unzureichend sind. In realen Szenarien scheitern Modelle oft, wenn kompositorisches Reasoning unter Ausführungseinschränkungen – über APIs, Dokumente, Dialogkontext und Richtlinienanforderungen hinweg – erforderlich ist.

Der Benchmark lädt Entwickler und Forscher ein, ihre Agenten auf VAKRA zu testen, um Schwachstellen in der Tool-Auswahl, im Multi-Hop-Reasoning oder bei der Einhaltung von Richtlinien zu identifizieren und so zur Weiterentwicklung zuverlässigerer KI-Agenten beizutragen.

Bibliographie

IBM Research (2026). VAKRA: A Benchmark for Evaluating Multi-Hop, Multi-Source Tool-Calling in AI Agents. Veröffentlicht auf Hugging Face. Verfügbar unter: https://huggingface.co/datasets/ibm-research/VAKRA
Naik, Ankita Rajaram (2026). Introducing VAKRA: Benchmark for evaluating multi-hop, multi-source tool-calling in enterprise AI agents. IBM Blog. Verfügbar unter: https://www.ibm.com/new/announcements/introducing-vakra-benchmark
IBM Research (2026). Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents. Hugging Face Blog. Verfügbar unter: https://huggingface.co/blog/ibm-research/vakra-benchmark-analysis
IBM (2026). VAKRA GitHub Repository. Verfügbar unter: https://github.com/IBM/vakra
VAKRA – Multi-Hop, Multi-Source, Multi-Tool Agent Benchmark. Hugging Face Space. Verfügbar unter: https://ibm-research-vakra.hf.space/