Neuer Ansatz zur Optimierung multimodaler agentenbasierter KI-Systeme

Kategorien:

No items found.

Freigegeben:

May 28, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die „Agent Explorative Policy Optimization“ (AXPO) ist ein neuer Ansatz zur Optimierung von multimodalen, agentenbasierten KI-Systemen.
AXPO zielt darauf ab, die „Thinking-Acting Gap“ zu überbrücken, eine Asymmetrie zwischen internem Denken und externer Werkzeugnutzung, die bei herkömmlichen Methoden auftritt.
Durch das Resampling von Werkzeugaufrufen in fehlgeschlagenen Rollouts verbessert AXPO das Trainingssignal und die Modellleistung.
Das Verfahren konnte auf neun multimodalen Benchmarks signifikante Leistungssteigerungen gegenüber etablierten Methoden wie GRPO erzielen.
AXPO ermöglicht es kleineren Modellen, die Leistung wesentlich größerer Modelle zu erreichen oder zu übertreffen, was auf eine höhere Effizienz hindeutet.

Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Leistungsfähigkeit multimodaler agentenbasierter Systeme maßgeblich zu beeinflussen: die „Agent Explorative Policy Optimization“ (AXPO). Diese Methode, die in einem kürzlich veröffentlichten Paper vorgestellt wurde, adressiert eine zentrale Herausforderung bei der Entwicklung von KI-Agenten, die sowohl interne Denkprozesse als auch externe Werkzeugnutzung beherrschen müssen.

Die Herausforderung multimodaler Agenten: Die „Thinking-Acting Gap“

Moderne Vision-Language-Modelle (VLM) demonstrieren beeindruckende Fähigkeiten in komplexen Problemlösungsszenarien, insbesondere wenn sie über erweiterte Denkfähigkeiten verfügen. Dennoch stoßen diese Modelle an Grenzen, sobald reale Probleme die Interaktion mit externen Werkzeugen erfordern. Agentenbasierte Systeme, die in der Lage sind, sowohl zu „denken“ (interne Schlussfolgerungen zu ziehen) als auch zu „handeln“ (externe Werkzeuge zu nutzen), sind hier gefragt. Diese Interaktion ist jedoch von einer strukturellen Asymmetrie geprägt, die als „Thinking-Acting Gap“ bezeichnet wird.

Asymmetrie zwischen Denken und Handeln

Das „Denken“ innerhalb eines Agenten ist primär ein in sich geschlossener Prozess, der auf den internen Repräsentationen des Modells basiert. Im Gegensatz dazu ist die „Werkzeugnutzung“ eine hochvariable externe Aktion. Diese Diskrepanz führt dazu, dass bei herkömmlichen Reinforcement Learning (RL)-Methoden, wie beispielsweise GRPO (Generalized Policy Optimization), das Potenzial der Werkzeugnutzung oft nicht voll ausgeschöpft wird. Beobachtungen zeigen, dass Werkzeugeinsätze nur in einem geringen Prozentsatz der „Rollouts“ (Durchläufe eines Szenarios) versucht werden. Zudem sind die Werkzeug-nutzenden Rollouts, wenn sie denn stattfinden, in einem signifikanten Anteil der Fälle fehlerhaft, was das Lernsignal auf der Ebene der Werkzeugaufrufe stark beeinträchtigt.

AXPO: Ein neuer Ansatz zur Überbrückung der Lücke

Die „Agent Explorative Policy Optimization“ (AXPO) wurde entwickelt, um genau diese „Thinking-Acting Gap“ zu schließen. Der Kernansatz von AXPO besteht darin, das Trainingssignal und die Modellleistung durch ein gezieltes Resampling von Werkzeugaufrufen in fehlgeschlagenen Rollouts zu verbessern.

Funktionsweise von AXPO

AXPO identifiziert jene Untergruppen von Rollouts, bei denen der Werkzeugeinsatz fehlerhaft war. Für diese fehlerhaften Sequenzen wird der „Thinking Prefix“ (der Teil des Denkprozesses, der dem Werkzeugaufruf vorausgeht) beibehalten, während der Werkzeugaufruf selbst und seine Fortsetzung neu gesampelt werden. Dieser Prozess wird durch eine unsicherheitsbasierte Präfixauswahl ergänzt, die es dem System ermöglicht, gezielter in Bereichen zu explorieren, in denen ein hohes Verbesserungspotenzial besteht. Durch dieses iterative Resampling lernt das Modell, effektivere Werkzeugaufrufe zu generieren und die negativen Auswirkungen fehlerhafter Aktionen zu minimieren.

Empirische Ergebnisse und deren Implikationen

Die Wirksamkeit von AXPO wurde auf neun multimodalen Benchmarks evaluiert. Die Ergebnisse zeigen eine signifikante Leistungssteigerung im Vergleich zu etablierten Methoden:

- SFT (Supervised Fine-Tuning) in Kombination mit AXPO übertrifft SFT mit GRPO im Durchschnitt um 1,8 Prozentpunkte bei Pass@1 und Pass@4 auf 8B-Modellen. - Ein 8B-Modell, das mit SFT und AXPO trainiert wurde, konnte die Leistung eines 32B-Basismodells bei Pass@4 übertreffen, und das mit viermal weniger Parametern.

Effizienz und Skalierbarkeit

Diese Ergebnisse deuten darauf hin, dass AXPO nicht nur die Robustheit und Genauigkeit multimodaler Agenten verbessert, sondern auch eine höhere Effizienz in Bezug auf die Modellgröße ermöglicht. Die Fähigkeit, mit weniger Parametern eine vergleichbare oder sogar bessere Leistung zu erzielen, ist von großer Bedeutung für praktische Anwendungen, da sie den Rechenaufwand und die Implementierungskosten reduziert. Dies ist ein entscheidender Faktor für den B2B-Bereich, wo Effizienz und Skalierbarkeit von KI-Lösungen von zentraler Bedeutung sind.

Zukünftige Perspektiven für agentenbasierte KI

Die Einführung von AXPO stellt einen Fortschritt in der Entwicklung multimodaler agentenbasierter KI-Systeme dar. Die Fähigkeit, die Interaktion zwischen internem Denken und externer Werkzeugnutzung effektiver zu gestalten, eröffnet neue Möglichkeiten für Anwendungen in komplexen Umgebungen. Dazu gehören Bereiche wie:

Automatisierte Problemlösung: Agenten, die komplexe Aufgaben durch den intelligenten Einsatz verschiedener Software-Tools lösen.
Interaktive KI-Assistenten: Systeme, die nicht nur Fragen beantworten, sondern auch aktiv externe Dienste nutzen können, um Anfragen zu bearbeiten.
Robotik und autonome Systeme: Agenten, die in der Lage sind, ihre Umgebung wahrzunehmen, zu planen und physische Werkzeuge zu manipulieren.

Die kontinuierliche Forschung in Methoden wie AXPO trägt dazu bei, die „Agentic Reasoning“-Fähigkeiten von KI-Systemen zu erweitern und sie robuster und anpassungsfähiger für die Anforderungen der realen Welt zu machen.

Fazit

Die „Agent Explorative Policy Optimization“ (AXPO) stellt einen vielversprechenden Ansatz dar, um die Leistungsfähigkeit multimodaler agentenbasierter KI-Systeme zu steigern. Durch das gezielte Adressieren der „Thinking-Acting Gap“ und die Optimierung des Lernsignals bei der Werkzeugnutzung, ermöglicht AXPO eine effizientere und präzisere Ausführung komplexer Aufgaben. Für Unternehmen, die auf fortgeschrittene KI-Lösungen setzen, bedeutet dies das Potenzial für leistungsfähigere und ressourcenschonendere Agenten, die in der Lage sind, eine breite Palette von Herausforderungen zu bewältigen.

Bibliography

- Kang, M., Diao, S., Hachiuma, R., Hwang, S. J., Molchanov, P., Wang, Y.-C. F., & Lee, B.-K. (2026). Agent Explorative Policy Optimization for Multimodal Agentic Reasoning. arXiv preprint arXiv:2605.28774. - Hugging Face Papers. (2026, May 28). Paper page - Agent Explorative Policy Optimization for Multimodal Agentic Reasoning. https://huggingface.co/papers/2605.28774 - Deeplearn.org. (2026, May 28). Agent Explorative Policy Optimization for Multimodal Agentic Reasoning - Paper Detail. https://deeplearn.org/arxiv/761783/agent-explorative-policy-optimization-for-multimodal-agentic-reasoning