Verbesserung autonomer KI-Agenten durch Reflective Tree Search und Selbstlernen

Kategorien:

No items found.

Freigegeben:

October 7, 2024

Autonome KI-Agenten durch Reflective Tree Search und Selbstlernen verbessern

Autonome Agenten haben ein bedeutendes Potenzial bei der Automatisierung komplexer, mehrstufiger Entscheidungsfindungsaufgaben gezeigt. Allerdings bleiben selbst hochmoderne Vision-Language-Modelle (VLMs) wie GPT-4o hinter der menschlichen Leistung zurück, insbesondere in komplexen Webumgebungen und bei Aufgaben mit langfristiger Planung.

Herausforderungen autonomer KI-Agenten

Die größten Herausforderungen für autonome KI-Agenten liegen in der Regel in den folgenden Bereichen:

- Komplexe Entscheidungsfindung: In realen Szenarien müssen Agenten oft Entscheidungen auf der Grundlage unvollständiger oder unsicherer Informationen treffen. - Langfristige Planung: Viele Aufgaben erfordern, dass Agenten eine Reihe von Aktionen planen und ausführen, um ein langfristiges Ziel zu erreichen, was die Erkennung und Vorhersage zukünftiger Ergebnisse schwierig macht. - Anpassung an dynamische Umgebungen: Sich ständig ändernde Umgebungen erfordern, dass Agenten flexibel sind und ihre Strategien anpassen, während sie neue Informationen sammeln.

Reflective Monte Carlo Tree Search (R-MCTS)

Um diese Einschränkungen zu beheben, wurde der Reflective Monte Carlo Tree Search (R-MCTS) entwickelt - ein neuartiger Testzeitalgorithmus, der die Fähigkeit von KI-Agenten, z. B. auf Basis von GPT-4o, verbessern soll, den Entscheidungsraum spontan zu erkunden. R-MCTS erweitert den traditionellen MCTS um zwei wesentliche Punkte:

- Einbeziehung von kontrastivem Reflektieren: Dies ermöglicht es Agenten, aus vergangenen Interaktionen zu lernen und ihre Sucheffizienz dynamisch zu verbessern. - Nutzung von Multi-Agenten-Debatten: Dies dient dazu, eine zuverlässige Bewertung des aktuellen Zustands zu gewährleisten.

Selbstlernen durch R-MCTS

Darüber hinaus lässt sich die Leistung des Agenten durch die Feinabstimmung von GPT-4o mittels Selbstlernen verbessern. Dabei werden die von R-MCTS generierten Baumdurchläufe verwendet, ohne dass der Mensch Labels bereitstellen muss.

Leistungssteigerung auf dem VisualWebArena Benchmark

Auf dem anspruchsvollen VisualWebArena-Benchmark erzielte der auf GPT-4o basierende R-MCTS-Agent eine relative Verbesserung von 6 % bis 30 % bei verschiedenen Aufgaben im Vergleich zum vorherigen Stand der Technik.

Wissenstransfer und verbesserte Effizienz

Es zeigt sich, dass das durch die Testzeitsuche gewonnene Wissen durch Feinabstimmung effektiv an GPT-4o zurückgegeben werden kann. Das feinabgestimmte GPT-4o erreicht 97 % der Leistung von R-MCTS bei gleichzeitig viermal geringerem Rechenaufwand zur Testzeit.

Qualitative Ergebnisse und Schlussfolgerungen

Qualitative Ergebnisse zeigen, dass das feinabgestimmte GPT-4o-Modell in der Lage ist, die Umgebung zu erkunden, einen Zustand zu bewerten und zu brauchbaren Zuständen zurückzukehren, wenn es erkennt, dass der aktuelle Zustand nicht zum Erfolg führen kann. R-MCTS und Selbstlernen erweisen sich als vielversprechende Ansätze, um die Argumentations- und Planungsfähigkeiten von VLMs für Anwendungen mit Agenten zu verbessern.

October 18, 2024

