Autonome Roboterschulung durch KI-Agenten: Fortschritte im ENPIRE-Framework von Nvidia

Kategorien:

No items found.

Freigegeben:

June 18, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Nvidia-Forschung zeigt Roboter, die sich durch KI-Codierungsagenten selbst trainieren.
Das ENPIRE-Framework ermöglicht Robotern, Fähigkeiten in der realen Welt autonom zu erlernen und zu verbessern.
Eine Flotte von acht Robotern erreichte eine Erfolgsquote von bis zu 99 % bei komplexen Aufgaben.
Die KI-Agenten entwickeln eigene Bewertungskriterien und teilen Erkenntnisse über Git.
Die reale Welt stellt weiterhin größere Herausforderungen dar als Simulationen.

Autonome Roboterentwicklung: Nvidias ENPIRE-Framework revolutioniert das maschinelle Lernen in der Praxis

Die Forschung im Bereich der Robotik hat einen bedeutenden Fortschritt erzielt: Wissenschaftler von Nvidia, der Carnegie Mellon University und der UC Berkeley haben ein System namens ENPIRE (Agentic Robot Policy Self-Improvement in the Real World) entwickelt. Dieses Framework ermöglicht es Robotern, sich selbstständig und ohne menschliches Zutun neue Fähigkeiten anzueignen und zu optimieren. Im Fokus steht dabei die Anwendung von KI-Codierungsagenten, die den gesamten Lernprozess von der Problemanalyse bis zur Code-Anpassung autonom steuern.

Die Herausforderung der Geschicklichkeit in der Robotik

Die Fähigkeit von Robotern, komplexe und geschickte Manipulationen in der realen Welt durchzuführen, stellt seit Langem eine zentrale Herausforderung dar. Traditionell erfordert das Training solcher Fähigkeiten einen erheblichen menschlichen Aufwand. Dies umfasst das Sammeln von Trainingsdaten, das Zurücksetzen der Umgebung nach jedem Versuch und die manuelle Anpassung von Algorithmen. Dieser manuelle Overhead verlangsamt den Entwicklungsprozess erheblich und stellt einen Engpass für die Entwicklung einer allgemeinen physischen Intelligenz dar.

ENPIRE: Ein autonomer Feedback-Loop

Das ENPIRE-Projekt zielt darauf ab, diesen Engpass zu überwinden, indem es die Arbeit an KI-Codierungsagenten delegiert. Die Kernidee basiert auf einem autonomen Feedback-Loop, der auf realer Hardware ausgeführt wird. Dieser Zyklus besteht aus vier Modulen:

Umgebung (EN): Für das automatische Zurücksetzen und die Verifizierung der Szene.
Policy Improvement (PI): Initiierung der Richtlinienverfeinerung.
Rollout (R): Bewertung der Richtlinien.
Evaluierung: Überprüfung des Ergebnisses und Verfeinerung für die nächste Iteration.

Dieser Ansatz ermöglicht es den Robotern, kontinuierlich zu lernen und sich anzupassen, ohne ständige menschliche Intervention.

Zwei Phasen der Autonomie: Setup und Selbstoptimierung

ENPIRE operiert in zwei Hauptphasen:

Phase 1: Aufbau der Arbeitsumgebung und automatisierte Bewertung

In der ersten Phase richten die KI-Agenten die Arbeitsumgebung ein. Dies beinhaltet die Definition von Sicherheitsgrenzen, die Implementierung eines automatischen Zurücksetzens der Szene und vor allem die Entwicklung einer automatisierten Erfolgsprüfung. Anstatt dass ein Mensch jeden Versuch bewertet, schreiben die Agenten eigenständig Belohnungsfunktionen, die Erfolg von Misserfolg unterscheiden können. Hierfür benötigen sie lediglich wenige Minuten Beispielvideo von erfolgreichen und fehlgeschlagenen Versuchen.

Ein konkretes Beispiel ist das Einsetzen von Stiften, bei dem der Agent eine Prüfung entwickelte, die visuelle Ausrichtung, Greiferhöhe und geschätzte Kraft kombiniert. Beim Durchtrennen eines Kabelbinders nutzte der Agent zwei Kamerawinkel, um Fehlalarme zu vermeiden und die Reaktionszeit auf unter 150 Millisekunden zu senken. Diese selbst entwickelten Werkzeuge werden einmal erstellt und ohne weitere Änderungen wiederverwendet.

Phase 2: Autonome Forschung und Code-Anpassung

In der zweiten Phase agiert der Agent vollständig autonom. Er liest Forschungsartikel, formuliert Hypothesen und bearbeitet den Trainingscode direkt. Dabei kommen verschiedene Methoden zum Einsatz, wie zum Beispiel:

Behavior Cloning: Die Strategie ahmt menschliche Demonstrationen nach.
Reinforcement Learning: Die Strategie verbessert sich durch Versuch und Irrtum.

Der Agent wählt die jeweils geeignete Methode basierend auf den realen Erfolgssignalen selbst aus.

Roboterflotte koordiniert sich über Git

Ein wesentliches Merkmal von ENPIRE ist die Skalierbarkeit auf eine ganze Flotte von Robotern. Eine Demonstrationsflotte bestand aus acht YAM-Roboterstationen mit jeweils zwei Armen, eigener Hardware, Computern und Codierungsagenten. Diese Agenten testen gleichzeitig verschiedene Hypothesen und teilen ihre Ergebnisse ausschließlich über Git, ein Standard-Versionskontrollsystem für Softwareentwicklung. Erfolgreiche Trainingsrezepte werden von anderen Agenten übernommen, während schlechte Ideen eigenständig verworfen werden. Ein an einer Station erzielter Durchbruch verbreitet sich so über die gesamte Flotte.

Die Studie ergab, dass die Agenten eine Erfolgsquote von bis zu 99 % bei anspruchsvollen Aufgaben erreichten, wie dem "Push-T-Test" (ein T-förmiger Block muss in eine Zielposition und -ausrichtung geschoben werden), dem Sortieren von Stiften in eine Box und dem Durchtrennen eines Kabelbinders mit einem Schneidwerkzeug. Beim Stifteinsetzen konvergierte die Strategie schneller zu 100 % Erfolg als vergleichbare Methoden mit menschlicher Beteiligung.

Die Skalierung der Roboterflotte führte auch zu einer erheblichen Zeitersparnis. Beim Push-T-Test reduzierte sich die Zeit bis zum vollen Erfolg von etwa fünf Stunden bei einem Agenten auf zwei Stunden bei acht Agenten. Für das Stifteinsetzen sank die Zeit von über 90 Minuten auf etwa 40 Minuten. Die Forscher testeten drei aktuelle Codierungsagenten: Codex mit GPT-5.5, Claude Code mit Opus 4.7 und Kimi Code mit Kimi K2.6, wobei Codex in den meisten Fällen die beste Leistung zeigte.

Die Realität als ultimativer Test

Die Ergebnisse unterstreichen auch, dass die reale Welt nach wie vor eine größere Herausforderung darstellt als Simulationen. Beim Push-T-Test lösten alle drei Agenten die Aufgabe in der Simulation, jedoch scheiterten zwei von dreien in der realen Umgebung. Die Forscher führen dies auf unvorhersehbare und variable Bedingungen wie Roboterdynamik, Reibung und Objektbewegung zurück. In der RoboCasa-Simulation übertraf ENPIRE sowohl ein End-to-End-Vision-Language-Action-Modell (GR00T) als auch einen werkzeugbasierten Ansatz ohne Autorecherche (CaP-X).

Zur Messung der Effizienz schlugen die Forscher zwei Metriken vor:

Mean Robot Utilization (MRU): Misst, wie viel Forschungszeit der Roboter tatsächlich arbeitet.
Mean Token Utilization (MTU): Zählt die Nutzung des Sprachmodells pro Minute.

Ein weiterer wichtiger Aspekt ist der Transfer von erlernten Fähigkeiten: Erfahrungen aus dem Stifteinsetzen halfen den Agenten beispielsweise, GPUs mit Roboterarmen in Motherboards zu stecken.

Grenzen und zukünftige Perspektiven

Die Studie weist auch auf die Grenzen des Systems hin. Roboter und Rechenressourcen werden nicht vollständig ausgelastet, da die Agenten viel Zeit mit dem Lesen von Protokollen, dem Schreiben von Code und dem Warten verbringen. Je größer die Roboterflotte, desto geringer ist die Auslastung pro Roboter, da die Agenten mehr Zeit damit verbringen, die Ergebnisse der anderen zusammenzufassen. Auch die Token-Kosten steigen schneller als die Leistungssteigerung: Größere Flotten erreichen das Ziel zwar schneller, verbrauchen aber deutlich mehr Rechenbudget. Dennoch sehen die Forscher ENPIRE als einen praktikablen Weg zu Robotern, die sich in der realen Welt autonom verbessern können.

Dieses Forschungsprojekt von Nvidia und seinen Partnern demonstriert eindrucksvoll das Potenzial von KI-Codierungsagenten für die autonome Entwicklung und Optimierung von Robotersystemen. Es ebnet den Weg für eine Zukunft, in der Roboter nicht nur Aufgaben ausführen, sondern auch aktiv an ihrer eigenen Weiterentwicklung mitwirken können.

Bibliographie

Xiao, W. (n.d.). ENPIRE: Agentic Robot Policy Self-Improvement in the Real World. NVIDIA Research. Verfügbar unter: https://research.nvidia.com/labs/gear/enpire/
Schreiner, M. (2026, 17. Juni). Nvidia research shows robots that train themselves through AI coding agents. The Decoder. Verfügbar unter: https://the-decoder.com/nvidia-research-shows-robots-that-train-themselves-through-ai-coding-agents/
Ars Technica. (2026, 17. Juni). AI coding agents can autonomously direct robot training. Verfügbar unter: https://arstechnica.com/ai/2026/06/ai-coding-agents-can-autonomously-direct-robot-training/
Tyson, M. (2026, 17. Juni). Nvidia reveals AI robots that taught themselves to install GPUs into motherboards — video shows robot ‘solve high-precision tasks like… installing GPUs all by itself’. Tom's Hardware. Verfügbar unter: https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-reveals-ai-robots-that-taught-themselves-to-install-gpus-into-motherboards-video-shows-robot-solve-high-precision-tasks-like-installing-gpus-all-by-itself
Digg. (2026, 16. Juni). Nvidia releases ENPIRE, allowing a fleet of eight physical robot arms to autonomously self-improve using Codex agents. Verfügbar unter: https://digg.com/tech/e2a52ozk
Real Hacker Staff. (2026, 17. Juni). AI coding agents taught robots how to install GPUs and cut zip-ties. REAL HACKER NEWS. Verfügbar unter: https://realhacker.news/ai-coding-agents-taught-robots-how-to-install-gpus-and-cut-zip-ties/
36Kr. (n.d.). NVIDIA Equips Robots with Lobster Brains: The Harness for Embodied Intelligence Arrives. Verfügbar unter: https://eu.36kr.com/en/p/3749514454057473
MAXBIT. (2026, 17. Juni). Nvidia Built Robots That Train Themselves Using AI Coding Agents – Decrypt. Verfügbar unter: https://maxbit.cc/nvidia-built-robots-that-train-themselves-using-ai-coding-agents-decrypt/
Lee, A. (2023, 20. Oktober). Eureka! NVIDIA Research Breakthrough Puts New Spin on Robot Learning. NVIDIA Blog. Verfügbar unter: https://blogs.nvidia.com/blog/eureka-robotics-research/
NVIDIA Newsroom. (2026, 31. Mai). NVIDIA Releases Major Collection of Open Source Agent Tools and Skills for Physical AI. Verfügbar unter: https://nvidianews.nvidia.com/news/nvidia-releases-major-collection-of-open-source-agent-tools-and-skills-for-physical-ai