Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
IBM Research hat kürzlich VAKRA (eValuating API and Knowledge Retrieval Agents using multi-hop, multi-source dialogues) vorgestellt. Dieser Benchmark ist darauf ausgelegt, die Fähigkeiten von KI-Agenten in komplexen, unternehmensähnlichen Umgebungen umfassend zu bewerten. Im Gegensatz zu traditionellen Benchmarks, die oft isolierte Fähigkeiten testen, konzentriert sich VAKRA auf das kompositorische Denken über verschiedene APIs und Dokumente hinweg. Ziel ist es, zu beurteilen, ob Agenten mehrstufige Arbeitsabläufe zuverlässig abschließen können, anstatt nur einzelne Schritte korrekt auszuführen.
VAKRA bietet eine ausführbare Umgebung, in der Agenten mit über 8.000 lokal gehosteten APIs interagieren, die durch reale Datenbanken in 62 Domänen gestützt werden. Ergänzt wird dies durch domänenspezifische Dokumentsammlungen. Die Aufgaben erfordern Reasoning-Ketten von drei bis sieben Schritten, die strukturierte API-Interaktionen mit unstrukturierter Retrieval unter Berücksichtigung von Tool-Nutzungsbeschränkungen in natürlicher Sprache kombinieren. Die Ergebnisse erster Analysen zeigen, dass aktuelle Modelle auf VAKRA noch erhebliche Schwierigkeiten aufweisen.
Der VAKRA-Benchmark gliedert sich in vier Hauptfähigkeiten, die jeweils spezifische Aspekte der Agentenleistung testen und in ihrer Komplexität stufenweise aufgebaut sind:
Diese Fähigkeit umfasst 2.077 Testinstanzen aus 54 Domänen. Sie erfordert die Nutzung von Tools aus den Sammlungen SLOT-BIRD und SEL-BIRD. Die Aufgaben bestehen darin, eine Kette von 1 bis 12 Tool-Aufrufen zu bilden, um die endgültige Antwort zu erhalten. Jede Instanz ist mit einer JSON-Datenquelle verknüpft. Ein spezielles Tool, get_data(tool_universe_id=id), initialisiert die Datenquelle und stellt relevante Tools sowie die Daten aus der domänenspezifischen Datenbank bereit. Während SLOT-BIRD generische Datenmanipulationstools bietet, erweitert SEL-BIRD dies um spezialisiertere Funktionen, die eine größere und dynamischere Auswahl erfordern.
Hierbei handelt es sich um 1.597 Instanzen aus 17 Domänen, die Tools aus einer erweiterten REST-BIRD-Sammlung nutzen. Diese Tools verwenden Endpunkt-basierte Schnittstellen, die spezifische, auf Abfragen ausgerichtete Endpunkte bereitstellen. Die Aufgabe erfordert die Auswahl der korrekten APIs aus einem domänenspezifischen Tool-Set. Die Anzahl der Tools pro Domäne variiert erheblich. Eine Herausforderung stellt die Beschränkung der Tool-Liste auf maximal 128 Tools in der OpenAI API Specification dar, was Mechanismus zur Vorauswahl erforderlich macht.
Dieser Abschnitt des Benchmarks enthält 869 Testinstanzen aus 38 Domänen, die ebenfalls auf der REST-BIRD API-Sammlung basieren. Der Fokus liegt hier auf Multi-Hop-Reasoning, bei dem mehrere Beweisstücke extrahiert und kombiniert werden müssen, um eine Antwort zu finden. Die Instanzen erfordern zwischen einem und fünf logischen Schritten zur Beantwortung einer Abfrage. Die Schwierigkeit steigt mit der Anzahl der benötigten Hops, was sich in der Performance der Modelle widerspiegelt.
Die komplexeste Fähigkeit umfasst 644 Instanzen aus 41 Domänen und baut ebenfalls auf der REST-BIRD API-Sammlung auf. Sie zeichnet sich durch folgende Merkmale aus:
VAKRA verwendet einen ausführungszentrierten Bewertungsrahmen, der nicht nur die finalen Ausgaben, sondern den gesamten Tool-Ausführungspfad bewertet, einschließlich Tool-Aufrufen, Eingaben und Zwischenergebnissen. Dies gewährleistet eine detaillierte Analyse der Agentenleistung.
Der VAKRA-Evaluator vergleicht die vorhergesagte endgültige Antwort und die zugehörige Tool-Aufruf-Trajektorie. Die Tool-Aufrufe der vorhergesagten Trajektorie werden in derselben Umgebung wie die Ground Truth ausgeführt, um Zwischenergebnisse zu verifizieren. Die Bewertung erfolgt in einer Wasserfall-Pipeline:
Die Korrektheit wird durch Ausführung jedes vorhergesagten Tools und Vergleich der Tool-Antworten mit der Ground Truth bewertet, anstatt eine exakte Schritt-für-Schritt-Übereinstimmung zu erzwingen. Bei komplexen Fällen wird eine sekundäre LLM-basierte Bewertung eingesetzt, um festzustellen, ob die vorhergesagte Trajektorie alle erforderlichen Informationen erfasst, auch wenn sie über eine andere Sequenz von Tool-Aufrufen erfolgt ist.
Die abschließende Antwort wird von einem LLM-basierten Richter bewertet, um sicherzustellen, dass die Antwort (i) auf den vorhergesagten Tool-Ausgaben basiert und (ii) sachlich mit der Ground Truth übereinstimmt.
Jede der vier Fähigkeiten wird gleich gewichtet, um eine endgültige Leaderboard-Punktzahl zu erhalten. Für die Fähigkeiten 1 bis 3 wird jede Stichprobe innerhalb einer Fähigkeit gleich gewichtet. Für Fähigkeit 4 werden heterogene Abfragen höher gewichtet, insbesondere Multi-Source-Abfragen.
Die detaillierte Fehleranalyse über die vier VAKRA-Fähigkeiten hinweg zeigt spezifische Schwachstellen der Modelle auf. Fehler werden sequenziell der frühesten Fehlerstufe zugeordnet, um Doppelzählungen zu vermeiden und eine klare Kategorisierung zu ermöglichen.
Bei der API-Verkettung (Capability 1) hatten alle Modelle Schwierigkeiten, insbesondere bei der korrekten Benennung von Tool-Argumenten, wenn viele optionale Parameter vorhanden waren. Modelle wie GPT-OSS-120B zeigten hier eine bessere Leistung, da sie die Tool-Schemas besser verstanden. Bei der Tool-Auswahl (Capability 2) war Gemini-3-flash-preview den anderen Modellen überlegen, obwohl auch hier viele Fehler bei der Tool-Auswahl und Parameterwert-Auswahl auftraten, was auf die große Anzahl an Tool-Optionen zurückzuführen ist.
Multi-Hop-Reasoning (Capability 3) erhöhte die Schwierigkeit der Aufgaben erheblich. Die Leistung aller Modelle nahm erwartungsgemäß ab, je mehr logische Hops erforderlich waren. Bei der Multi-Hop, Multi-Source-Reasoning (Capability 4), die Dokumentenquellen einschließt, wurde die Aufgabe noch komplexer. Modelle hatten besondere Schwierigkeiten bei RAG-Hops und hybriden Abfragen. Es wurde beobachtet, dass GPT-OSS-120B bei Fragen, die einen einzelnen Dokumenten-Retriever-Aufruf erforderten, versuchte, die Antwort direkt aus seinem Parameterwissen zu geben, anstatt das Tool zu nutzen.
Tool-Nutzungsrichtlinien stellten eine zusätzliche Schwierigkeit dar. Wenn Richtlinien den Zugriff auf relevante Informationsquellen einschränkten, kam es bei den Modellen zu einem deutlichen Leistungsabfall. Dies deutet darauf hin, dass Modelle zwar Tools und Quellen verarbeiten können, aber Schwierigkeiten haben, externe Einschränkungen in ihr Reasoning zu integrieren. Dies ist jedoch eine zentrale Anforderung für zuverlässige Implementierungen in der realen Welt.
VAKRA deckt eine entscheidende Lücke zwischen oberflächlicher Tool-Kompetenz und robuster, durchgängiger Agenten-Zuverlässigkeit auf. Obwohl moderne Modelle zunehmend APIs auswählen und isolierte Tool-Aufrufe ausführen können, zeigt VAKRA, dass diese Fähigkeiten allein für den Einsatz in der Praxis unzureichend sind. In realen Szenarien scheitern Modelle oft, wenn kompositorisches Reasoning unter Ausführungseinschränkungen – über APIs, Dokumente, Dialogkontext und Richtlinienanforderungen hinweg – erforderlich ist.
Der Benchmark lädt Entwickler und Forscher ein, ihre Agenten auf VAKRA zu testen, um Schwachstellen in der Tool-Auswahl, im Multi-Hop-Reasoning oder bei der Einhaltung von Richtlinien zu identifizieren und so zur Weiterentwicklung zuverlässigerer KI-Agenten beizutragen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen