ClawMark: Neuer Benchmark zur Bewertung von KI-Agenten in dynamischen Arbeitsumgebungen

Kategorien:

No items found.

Freigegeben:

April 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

ClawMark ist ein neuer Benchmark zur Bewertung von KI-Agenten, die als "Mitarbeiter-Agenten" konzipiert sind.
Im Gegensatz zu traditionellen Benchmarks simuliert ClawMark reale Arbeitsszenarien über mehrere Tage hinweg.
Die Bewertung berücksichtigt dynamische Umgebungen, in denen sich Informationen eigenständig ändern (z.B. neue E-Mails, verschobene Termine).
ClawMark legt großen Wert auf multimodale Fähigkeiten, indem es Agenten mit verschiedenen Datenformaten wie Videos, Audio, PDFs und Tabellen konfrontiert.
Die Bewertung erfolgt rein regelbasiert, ohne den Einsatz von LLMs als Richter, um die Reproduzierbarkeit zu gewährleisten.
Aktuelle Ergebnisse zeigen, dass selbst die leistungsfähigsten Modelle noch deutliches Verbesserungspotenzial haben, insbesondere bei der Anpassung an dynamische Umgebungen.

ClawMark: Ein neuer Maßstab für KI-Mitarbeiter-Agenten in dynamischen Arbeitswelten

Die Entwicklung von KI-Agenten, die in der Lage sind, komplexe Aufgaben autonom zu bewältigen, schreitet stetig voran. Ein entscheidender Aspekt für ihren Einsatz in realen Geschäftsumgebungen ist jedoch ihre Fähigkeit, sich an dynamische und sich entwickelnde Arbeitsabläufe anzupassen. Hier setzt der kürzlich vorgestellte Benchmark ClawMark an, der speziell darauf ausgelegt ist, die Leistung von sogenannten "Mitarbeiter-Agenten" unter Bedingungen zu testen, die der menschlichen Arbeitswelt ähneln.

Die Herausforderung traditioneller Benchmarks

Bisherige Benchmarks für KI-Agenten konzentrieren sich oft auf isolierte Aufgaben in statischen Umgebungen. Sie ähneln Prüfungsfragen, bei denen ein Agent eine Aufgabe zu einem bestimmten Zeitpunkt in einer unveränderlichen Umgebung lösen muss. Dies bildet jedoch die Realität eines Arbeitsalltags nur unzureichend ab. In einer typischen Büroumgebung müssen Mitarbeiter-Agenten:

Fortschritte an derselben Aufgabe über mehrere Tage hinweg aufrechterhalten.
In einer Umgebung agieren, die sich kontinuierlich und unabhängig von den Aktionen des Agenten verändert (z.B. neue E-Mails, Kalenderänderungen, aktualisierte Dateien).
Informationen aus verschiedenen Quellen und Formaten verarbeiten, darunter Bilder, Audio, PDFs und Tabellen.
Mehrere Tools und Dienste koordinieren.

Diese Aspekte stellen für viele bestehende Benchmarks eine strukturelle Lücke dar, da sie die Dimension der Zeit und die Dynamik der Umgebung oft vernachlässigen.

ClawMark: Ein lebensechter Ansatz zur Evaluierung

ClawMark wurde entwickelt, um genau diese Lücken zu schließen. Es handelt sich um einen Benchmark, der 100 Aufgaben in 13 verschiedenen professionellen Szenarien umfasst. Jede Aufgabe erstreckt sich über ein bis drei "Arbeitstage" im simulierten Universum und erfordert vom Agenten, kontinuierliche Entscheidungen über verschiedene Tools, multimodale Evidenzen und Zeitlinien hinweg zu treffen. Die Kernmerkmale von ClawMark lassen sich wie folgt zusammenfassen:

Mehrere Tage und Phasen: Jede Aufgabe ist in mehrere Phasen unterteilt, die jeweils einem Arbeitstag entsprechen. Zwischen diesen Phasen vergeht Zeit, und der Agent erhält neue Anweisungen, während sich die Umgebung eigenständig weiterentwickelt.
Dynamische Umgebungen: Die simulierten Umgebungen sind nicht statisch. Neue E-Mails können eintreffen, Kalendereinträge können sich verschieben, und Dateien in freigegebenen Ordnern können aktualisiert werden. Der Agent muss diese externen Änderungen proaktiv wahrnehmen und darauf reagieren, anstatt auf veraltete Informationen zurückzugreifen.
Multimodale Evidenz: ClawMark konfrontiert die Agenten mit einer Vielzahl von Rohdaten wie Videos, Audioaufnahmen, PDFs, Bildern, CSV- und XLSX-Dateien. Die Modelle müssen diese Artefakte direkt verarbeiten, ohne dass vorab transkribierte Textversionen bereitgestellt werden.
Regelbasierte Bewertung: Ein zentraler Aspekt von ClawMark ist die rein regelbasierte Bewertung. Es werden keine Large Language Models (LLMs) als Richter eingesetzt. Stattdessen überprüfen 10 bis 25 deterministische Python-Prüffunktionen den Zustand der Umgebung nach jeder Phase. Dies gewährleistet eine hohe Reproduzierbarkeit der Ergebnisse.

Architektur und Aufgabenbeispiele

ClawMark nutzt simulierte Backends für Dateisysteme, E-Mail (GreenMail), Notion, Google Sheets und Kalender (CalDAV). Ein typisches Szenario erfordert die Interaktion mit drei bis fünf dieser Dienste. Die Aufgaben decken ein breites Spektrum ab, von alltäglichen Büroaufgaben bis hin zu spezialisierten professionellen Rollen in Bereichen wie Recht, Finanzen und elektronische Designautomatisierung. Einige Beispiele umfassen:

Fallstudie Versicherungsanspruch: Ein Agent muss einen Feuerversicherungsanspruch über mehrere Tage hinweg bearbeiten, wobei er Fotos, CCTV-Aufnahmen, Rechnungen und Polizeiberichte prüfen und dynamische Änderungen wie neue E-Mails und aktualisierte Richtlinien berücksichtigen muss.
Journalistische Aufgaben: Ein Redaktionsassistent muss widersprüchliche Quellen (Audio, Video, PDFs) abgleichen, Fakten überprüfen und Artikel verfassen, während neue Informationen eintreffen.

Ergebnisse und Implikationen

In ersten Evaluierungen wurden sechs verschiedene Modelle auf den 100 ClawMark-Aufgaben getestet, wobei jede Aufgabe dreimal pro Modell ausgeführt wurde. Die Ergebnisse zeigen, dass selbst die leistungsfähigsten Modelle, wie GPT-5.4 und Claude 4.6 Sonnet, mit einer durchschnittlichen Punktzahl von etwa 55 % noch erhebliches Verbesserungspotenzial aufweisen. Dies unterstreicht die Komplexität der simulierten Szenarien und die strengen Bewertungskriterien.

Besonders auffällig ist die Varianz in der Effizienz. Während GPT-5.4 und Claude 4.6 Sonnet ähnliche Leistungswerte erzielen, benötigt Claude 4.6 Sonnet deutlich mehr Eingabe-Tokens und verursacht höhere Kosten für eine vergleichbare Leistung. Dies deutet darauf hin, dass Effizienz ein wichtiger Differenzierungsfaktor für zukünftige Agentenmodelle sein wird.

Eine detaillierte Analyse der Leistung über die verschiedenen "Arbeitstage" hinweg offenbart, dass die meisten Modelle einen Leistungsabfall nach der ersten externen Umweltaktualisierung am zweiten Tag verzeichnen. Dies deutet darauf hin, dass die Anpassung an sich ändernde Zustände eine zentrale Herausforderung für KI-Agenten darstellt. Zwei dominante Fehlerursachen wurden identifiziert:

Erkennung stiller Änderungen: Agenten übersehen oft unangekündigte Änderungen in der Umgebung.
Backend-Schreibvorgänge: Agenten scheitern daran, korrekt ermittelte Ergebnisse in die entsprechenden Dienste zu übertragen.

Diese Erkenntnisse sind für die Entwicklung robuster und zuverlässiger KI-Mitarbeiter-Agenten von großer Bedeutung. Ein Modell, das externe Zustände nicht aktualisiert oder Ergebnisse nicht korrekt speichert, wird in einem professionellen Arbeitsablauf nur begrenzt vertrauenswürdig sein, unabhängig von seiner allgemeinen Leistungsfähigkeit.

Fazit und Ausblick

ClawMark stellt einen wichtigen Fortschritt in der Evaluierung von KI-Agenten dar. Durch die Simulation dynamischer, multimodaler und mehrtägiger Arbeitsabläufe bietet es eine realitätsnahe Bewertungsgrundlage, die über die Fähigkeiten traditioneller Benchmarks hinausgeht. Die rein regelbasierte Bewertung sorgt für Transparenz und Reproduzierbarkeit, was für die Weiterentwicklung der Agententechnologie unerlässlich ist.

Die aktuellen Ergebnisse zeigen, dass die Entwicklung von KI-Mitarbeiter-Agenten, die in der Lage sind, sich nahtlos in komplexe und sich ständig ändernde Arbeitsumgebungen zu integrieren, noch am Anfang steht. Insbesondere die Fähigkeit, proaktiv auf Umweltveränderungen zu reagieren und konsistent über verschiedene Dienste hinweg zu agieren, sind Bereiche, in denen weitere Forschung und Entwicklung erforderlich sind. ClawMark bietet die notwendige Infrastruktur und die Aufgabenstellungen, um diese Fortschritte zu messen und zu fördern.

Für Unternehmen, die KI-Agenten in ihre Geschäftsprozesse integrieren möchten, liefert ClawMark wertvolle Einblicke in die Leistungsfähigkeit und die Grenzen aktueller Modelle. Es hilft dabei, die Erwartungen an diese Technologien realistisch einzuschätzen und gezielt an den Schwachstellen zu arbeiten, um den maximalen Nutzen aus der Zusammenarbeit von Mensch und KI zu ziehen.

Bibliographie:

- Evolvent AI. (2026). ClawMark: A Living-World Benchmark for Multi-Day, Multimodal Coworker Agents. Verfügbar unter: https://evolvent.co/en/research/clawmark - ClawMark Team. (n.d.). ClawMark: Evaluating OpenClaw Agents in Omni Setting. Verfügbar unter: https://claw-mark.com/ - Meng, F., Du, L., Wu, Z., Chen, G., Liu, X., Liao, J., ... & Shieh, M. Q. (2026). ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents. arXiv preprint arXiv:2604.23781. Verfügbar unter: https://arxiv.org/abs/2604.23781 - GitHub. (n.d.). evolvent-ai/ClawMark. Verfügbar unter: https://github.com/evolvent-ai/ClawMark