Die fundamentale Rolle von Code in der Entwicklung autonomer KI-Agenten

Kategorien:

No items found.

Freigegeben:

May 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ein aktuelles Review-Paper von Forschenden der University of Illinois Urbana-Champaign, Meta und Stanford University beleuchtet die zentrale Rolle von Code für KI-Agenten.
Die Studie argumentiert, dass Code nicht nur ein Produkt von KI-Agenten ist, sondern die grundlegende Infrastruktur für deren Denkprozesse, Handlungen und Koordination darstellt.
Ein "Harness" – eine umgebende Softwareschicht – transformiert statische Sprachmodelle in funktionsfähige Agentensysteme, die in der Lage sind, Aufgaben zu planen, auszuführen und zu überprüfen.
Dieses Konzept findet bereits Anwendung in kommerziellen Systemen wie Claude Code und OpenAI's Codex.
Die Autoren betonen die Notwendigkeit verbesserter Evaluierungsmethoden und detaillierterer Risikobewertungen für Agentensysteme.

Eine neue Überblicksarbeit, verfasst von Forschenden der University of Illinois Urbana-Champaign, Meta und der Stanford University, schlägt eine veränderte Perspektive auf die Funktionsweise von KI-Agenten vor. Die zentrale These dieser Arbeit ist, dass Code nicht lediglich ein generiertes Produkt von KI-Agenten ist, sondern die fundamentale Ebene darstellt, auf der diese Agenten ihre Denkprozesse, Handlungen und die Koordination untereinander aufbauen.

Demzufolge wird der sogenannte "Harness" – eine umfassende Softwareschicht – als entscheidender Faktor für autonome Systeme identifiziert. Dieser Harness umfasst eine Vielzahl von Elementen, darunter Werkzeuge, Schnittstellen, isolierte Ausführungsumgebungen, Speicherverwaltung, Testmechanismen, Berechtigungsgrenzen, Ausführungsschleifen und Feedback-Kanäle. Ohne diese Schicht bliebe ein reines Sprachmodell statisch; erst durch den Harness wird es zu einem funktionsfähigen Agenten, der komplexe Aufgaben über längere Zeiträume hinweg bearbeiten kann.

Die Rolle von Code als fundamentale Schicht

Die Autoren der Studie legen dar, warum Code als integraler Bestandteil des Agentenverhaltens zu betrachten ist. Code ist ausführbar, was bedeutet, dass die Ausgaben des Modells in überprüfbare Operationen umgesetzt werden können. Es ist nachvollziehbar, da Zwischenberechnungen als strukturierte Spuren vorliegen, die vom System gelesen und gespeichert werden können. Darüber hinaus ist Code persistent, da das laufende Programm den Fortschritt einer Aufgabe in einer Form protokolliert, die der Agent später wieder aufgreifen kann.

Langlaufende Agentensysteme werden in der Arbeit in drei Kernbereiche unterteilt: Erstens die inhärenten Fähigkeiten des Modells, wie Argumentation und Planung. Zweitens die vom System bereitgestellte Infrastruktur. Und drittens der Code, den der Agent "on the fly" selbst schreibt – von Testskripten über temporäre Hilfsprogramme bis hin zu wiederverwendbaren Fähigkeiten und ausführbaren Workflows. Die Forschenden weisen darauf hin, dass diesen selbstgenerierten Artefakten in der bisherigen Forschung oft nicht ausreichend Beachtung geschenkt wurde.

Strukturierung des Feldes durch drei Ebenen

Ebene 1: Brücke zwischen Modell und Umgebung

Auf der ersten Ebene dient Code als Brücke zwischen dem Modell und seiner Umgebung. Ansätze wie "Program-of-Thoughts" oder "Chain of Code" verlagern tatsächliche Berechnungen auf ausführbare Programme, anstatt sie lediglich in natürlicher Sprache zu beschreiben. Andere Systeme, beispielsweise "Code as Policies", übersetzen natürliche Sprachbefehle direkt in Robotersteuerungs-Code.

Ebene 2: Gewährleistung der Zuverlässigkeit

Die zweite Ebene befasst sich mit der Sicherstellung der Zuverlässigkeit eines Agenten über mehrere Schritte hinweg. Dies umfasst Planung, Speicherverwaltung, Werkzeugnutzung und einen wiederkehrenden Zyklus von Planung, Ausführung und Verifikation. Dieser Zyklus ersetzt ad-hoc-Fehlerbehebung durch systematische Überprüfungen. Pläne definieren, welche Änderungen der Agent beabsichtigt. Die Ausführung erfolgt in isolierten Umgebungen mit klar definierten Berechtigungen. Ein Verifikationsschritt entscheidet dann, ob das Ergebnis akzeptiert, überarbeitet oder zur menschlichen Überprüfung weitergeleitet wird.

Ebene 3: Multi-Agenten-Koordination

Die dritte Ebene fokussiert auf die Zusammenarbeit mehrerer Agenten. Code-Sammlungen, Tests und Ausführungsprotokolle werden zu einem gemeinsamen Arbeitsbereich, in dem spezialisierte Rollen wie Manager, Planer, Programmierer, Prüfer, Tester und Ausführende die Arbeit aufteilen. Systeme wie ChatDev und MetaGPT demonstrieren diese Prinzipien. Die Forschenden stellen fest, dass diese Konzepte bereits in realen Produkten zum Einsatz kommen. Ein Beispiel ist Claude Code, wo Pull-Request-Reviews an ein Team von KI-Agenten delegiert werden können, die parallel nach Fehlern, Sicherheitslücken und Regressionen suchen, ohne selbst Änderungen genehmigen zu können.

Implementierung in kommerziellen Systemen

Die Autoren verweisen auf kommerzielle Produkte, die diese Muster bereits aufweisen. Anthropic's Claude Code integriert das lokale Terminal, die Entwicklungsumgebung und den Browser in einen Workflow, in dem der Agent Dateien bearbeitet, Befehle ausführt und Berechtigungsregeln befolgen muss. OpenAI's Codex und GitHub Copilot nutzen ähnliche Workflows in verwalteten Cloud-Umgebungen, wobei Änderungen über nachvollziehbare Pull-Request-Outputs gebündelt werden.

Die Bedeutung dieser Schicht wurde zufällig deutlich, als Anthropic etwa 500.000 Zeilen des Quellcodes von Claude Code durchsickern ließ. Darin enthalten war eine "Dreaming"-Funktion zur Aufgabenkonsolidierung und weitere Mechanismen zur Steuerung von Modellen als Code-Agenten. Anthropic ließ später über 8.000 Kopien und Forks aufgrund einer Urheberrechtsverletzung von GitHub entfernen.

Andere KI-Labore adaptieren diesen Ansatz ebenfalls. Deepseek plant, mit seinem Produkt Deepseek Code direkt mit Claude Code und Codex zu konkurrieren und baut hierfür ein dediziertes "Harness"-Team in Peking auf, das sich um alle Aspekte jenseits des Modells kümmert, von der Werkzeugnutzung über die Planung bis zur Speicherung. Die Kernformel des Teams lautet: Modell plus Harness ergibt KI-Agent.

Diese Produktionssysteme dienen zudem als Trainingsdaten für die nächste Generation von Modellen. Der Composer von Cursor wird beispielsweise durch kontinuierliches Reinforcement Learning auf Basis realer Nutzungsspuren trainiert. OpenAI's Codex-1, GPT-5-Codex und GPT-5.1-Codex-Max werden speziell auf lange, mehrstufige Coding-Sitzungen trainiert, die den Codex-Workflow widerspiegeln. Die Grenze zwischen Agent und Umgebung entwickelt sich somit selbst zu einer lernfähigen Schicht.

Optimierung der Umgebung durch Agenten

Mehrere Forschungssysteme behandeln den Harness selbst als Optimierungsziel. AutoHarness beispielsweise generiert automatisch Code, der unautorisierte Aktionen filtert, während Meta-Harness systematisch nach besseren Harness-Varianten sucht, indem es frühere Versionen, deren Evaluationen und Ausführungsprotokolle als Suchraum nutzt. Andere Ansätze analysieren Telemetriedaten, um einzelne Komponenten zu überarbeiten. Metas Hyperagents gehen noch einen Schritt weiter, indem sie Aufgabenlösung und Selbstmodifikation in einem editierbaren Programm kombinieren, das die Verbesserungsschleife selbst optimiert.

Die Autoren weisen jedoch auf mehrere ungelöste Probleme hin, die das Feld derzeit bremsen: aussagekräftigere Evaluationen jenseits reiner Erfolgsraten, die Überprüfung der Substanz von Ergebnissen, wenn Tests allein nicht ausreichen, die Selbstverbesserung des Harness ohne Regressionen, der gemeinsame Zustand über mehrere Agenten hinweg, die menschliche Aufsicht und die Erweiterung auf Umgebungen mit Bild- oder Sensordaten, wie etwa GUI-Agenten und Robotik.

Besonders kritisch äußern sie sich zur Angemessenheit aktueller Testkriterien. Tests können unvollständig sein, und Testprogramme für grafische Benutzeroberflächen können fehlerhafte Zwischenschritte übersehen. Simulatoren können physische Risiken kaschieren. Ein Harness könnte ein falsches Sicherheitsgefühl erzeugen, gerade weil er sichtbares Feedback liefert, und das grüne Häkchen bedeutet nicht zwangsläufig, dass der Code sicher ist. Die Forschenden schlagen vor, dass jede akzeptierte Aktion mit Dokumentationen versehen sein sollte, die aufzeigen, welche Tests tatsächlich durchgeführt wurden, welche Bereiche ungetestet blieben und welche Risiken weiterhin bestehen.

Die Zuverlässigkeit autonomer Code-Agenten resultiert demnach nicht aus besseren Reparatur-Prompts, sondern aus streng regulierten Zustandsübergängen innerhalb einer kontrollierten Schleife um das Modell, so die Argumentation der Forschenden.

Bibliography: - Ning, Xuying et al. "Code as Agent Harness ◆ Toward Executable, Verifiable, and Stateful Agent Systems ◆." arXiv preprint arXiv:2605.18747, 2026. - Petersen, Brian. "Review paper claims code defines AI agents' reasoning..." aidailypost.com, 29 May 2026. - Greyling, Cobus. "The Emerging Middle Layer of Agentic AI." Medium, 26 May 2026. - Hückmann, Dominic. "Agents Don’t Need Longer Prompts. They Need Harnesses." huecki.com, 20 May 2026. - Kumar, Ankur. "Code as Agent Harness." agentic-ai.readthedocs.io. - Hou, Alan. "Code as Agent Harness: When Programs Become the Infrastructure for AI Agents." alanhou.org. - ABV — Applied AI Reviews. "Code as Agent Harness: The Boring Layer That May Decide Whether Agents Actually Work." Medium, 22 May 2026. - SMITH, AA Ala & AI Research Desk. "Meta-Stanford Survey: Code as Agent Harness…" gentic.news, 25 May 2026. - Kemper, Jonathan. "New review paper argues code is how AI agents think and act, not just what they produce." the-decoder.com, 29 May 2026.