Einheitliche Evolution von Skill-augmentierten Agenten durch Reinforcement Learning

Kategorien:

No items found.

Freigegeben:

May 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Skill1-Framework ermöglicht eine einheitliche Evolution von Skill-augmentierten Agenten durch Reinforcement Learning (RL).
Es optimiert Skill-Auswahl, -Nutzung und -Destillation simultan mittels eines einzigen, aufgabenergebnisbasierten Signals.
Die Zerlegung des Signals in niederfrequente Trends und hochfrequente Variationen ermöglicht eine präzise Kreditzuweisung für jede Fähigkeit.
Skill1 erzielt auf Benchmarks wie ALFWorld und WebShop höhere Erfolgsraten als frühere Ansätze.
Das Framework fördert eine breitere und vielfältigere Nutzung von Fähigkeiten und reduziert den Rechenaufwand durch effiziente Destillation.

Die Entwicklung von KI-Agenten, die in komplexen Umgebungen agieren und lernen können, stellt einen Schwerpunkt der aktuellen Forschung im Bereich des Reinforcement Learnings (RL) dar. Insbesondere die Fähigkeit von Sprachmodell-Agenten (LLM-Agenten), aus Erfahrungen zu lernen und erlernte Strategien wiederzuverwenden, ist von grossem Interesse. Ein aktueller Forschungsansatz, vorgestellt im Paper "Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning", adressiert diese Herausforderung durch ein integriertes Framework, das die Entwicklung von Agentenfähigkeiten umfassend optimiert.

Herausforderungen bei der Skill-Entwicklung traditioneller LLM-Agenten

Herkömmliche RL-Trainingsmethoden behandeln jede Aufgabe oft als isolierte Episode. Erfolgreiche Strategien werden dabei implizit in die Parameter der Policy integriert, können aber nicht explizit für zukünftige Aufgaben wiederverwendet werden. Um dem entgegenzuwirken, werden Agenten oft mit einer persistenten Skill-Bibliothek ausgestattet, die wiederverwendbare Strategien aus vergangenen Erfahrungen sammelt. Der Workflow solcher Skill-augmentierter Agenten umfasst typischerweise drei Phasen:

Skill-Auswahl: Der Agent wählt eine relevante Fähigkeit aus der Bibliothek für die aktuelle Aufgabe aus.
Skill-Nutzung: Der Agent führt Aktionen aus, die durch die ausgewählte Fähigkeit geleitet werden.
Skill-Destillation: Der Agent leitet aus den Trajektorien neue, wiederverwendbare Fähigkeiten ab.

Bestehende Methoden optimieren diese Fähigkeiten oft isoliert oder mit unterschiedlichen Belohnungsquellen, was zu einer fragmentierten und potenziell widersprüchlichen Evolution führen kann. Dies wirft zwei grundlegende Fragen auf: Wie können alle drei Fähigkeiten simultan entwickelt werden, und wie können sie sich auf ein gemeinsames Ziel hin ko-evolvieren?

Das Skill1-Framework: Eine integrierte Lösung

Skill1 ist ein Framework, das eine einheitliche Evolution von Skill-augmentierten Agenten durch das Training einer einzigen Policy ermöglicht, die Skill-Auswahl, -Nutzung und -Destillation ko-evolviert. Das Kernprinzip liegt in der Nutzung eines einzigen, aufgabenergebnisbasierten Signals zur Kreditzuweisung. Dieses Signal wird in einen niederfrequenten Trend und eine hochfrequente Variation zerlegt, um jeder der drei Fähigkeiten ein spezifisches Lernsignal zu liefern.

Arbeitsweise des Agenten

Für jede neue Aufgabe durchläuft der Agent im Skill1-Framework die folgenden Schritte:

Anfragegenerierung: Die Policy generiert eine Abfrage in natürlicher Sprache, um potenzielle Fähigkeiten aus der Skill-Bibliothek abzurufen.
Re-Ranking und Auswahl: Die abgerufenen Kandidaten werden neu bewertet, um die am besten geeignete Fähigkeit auszuwählen.
Interaktion und Ausführung: Der Agent interagiert mit der Umgebung, geleitet von der ausgewählten Fähigkeit.
Skill-Destillation: Nach der Ausführung destilliert der Agent aus der Erfahrung neue, wiederverwendbare Fähigkeiten.

Alle Lernsignale werden dabei aus einem einzigen Task-Outcome-Signal ($r(\tau)$) abgeleitet. Der niederfrequente Trend dieses Signals wird für die Bewertung der Skill-Auswahl herangezogen, während die hochfrequente Variation die Destillation neuer, verbesserter Fähigkeiten belohnt.

Kreditzuweisung und Optimierung

Die Kreditzuweisung innerhalb von Skill1 erfolgt differenziert, obwohl sie auf einem einzigen Aufgabenergebnissignal basiert:

Nutzung: Das Aufgabenergebnis dient direkt als Belohnung für die Nutzung der Fähigkeit.
Auswahl: Die Qualität der Abfragen wird durch Policy-Gradienten optimiert, die aus dem Nutzungsziel resultieren. Ein explizites Signal für das Re-Ranking ist der langfristige Nutzen einer Fähigkeit, der als gleitender Durchschnitt der Ergebnisse über mehrere Episoden hinweg aktualisiert wird.
Destillation: Die Belohnung für die Destillation wird aus der Variation des aktuellen Ergebnisses im Verhältnis zum Trend der Bibliothek abgeleitet. Ein positives Ergebnis deutet darauf hin, dass die neue Fähigkeit eine Verbesserung darstellt und zur Bibliothek hinzugefügt werden sollte.

Diese Signale werden in einem gemeinsamen Optimierungsziel kombiniert, das auf Algorithmen wie GRPO (Group Relative Policy Optimization) basiert. Das ermöglicht eine gleichzeitige Verbesserung aller drei Aspekte des Agentenverhaltens.

Experimentelle Ergebnisse und Analysen

Das Skill1-Framework wurde auf den Benchmarks ALFWorld und WebShop evaluiert. ALFWorld ist eine textbasierte Umgebung, die mehrstufige Planung und Objektinteraktion erfordert, während WebShop einen Online-Shopping-Simulator darstellt. Die Ergebnisse zeigen, dass Skill1 eine höhere Erfolgsrate erzielt als frühere Skill-basierte und Reinforcement Learning-Baselines. Auf ALFWorld erreichte Skill1 eine durchschnittliche Erfolgsrate von 97,5 %, was einer Steigerung von 2,6 Prozentpunkten gegenüber dem bisher besten RetroAgent entspricht.

Ablationsstudien und Ko-Evolutionsdynamik

Ablationsstudien bestätigten die Bedeutung jedes einzelnen Bestandteils des Skill1-Frameworks:

Das Entfernen der Skill-Bibliothek führte zum grössten Leistungsabfall.
Ohne Destillation speicherte die Bibliothek Roh-Trajektorien, was die Auswahl erschwerte und die Effektivität der Wiederverwendung minderte.
Eine ineffiziente Skill-Auswahl beeinträchtigte die gesamte Pipeline, selbst wenn die Nutzungsbelohnung intakt blieb.
Die beiden Hilfsziele (für Re-Ranking und Destillation) erwiesen sich als komplementär und notwendig für eine vollständige Ko-Evolution.

Die Trainingsdynamik zeigte, dass sich die Präzision der Auswahl, die Erfolgsrate der Nutzung und die Qualität der Bibliothek unter dem gemeinsamen Signal simultan verbesserten. Dies deutet auf eine gegenseitige Verstärkung der drei Fähigkeiten hin.

Diversität der Skill-Bibliothek und Rechenaufwand

Skill1 fördert eine breitere und vielfältigere Nutzung von Fähigkeiten. Die Visualisierung der konvergierten Bibliotheken zeigte, dass Skill1 fast doppelt so viele hochfrequente Fähigkeiten aktivierte und diese einen grösseren Bereich des Strategieraums abdeckten. Dies steht im Gegensatz zu Systemen ohne ko-evolvierende Signale, bei denen sich die Nutzung auf wenige dominierende Fähigkeiten konzentrierte.

Hinsichtlich des Rechenaufwands zeigte Skill1 einen moderaten Mehraufwand im Vergleich zu Baselines ohne Skill-Bibliothek. Die Destillation trug massgeblich dazu bei, die Qualität der Bibliothek zu steuern und den Rechenaufwand zu begrenzen, indem sie Erfahrungen in prägnante Fähigkeiten komprimierte und so ein übermässiges Wachstum der Bibliothek verhinderte.

Fazit und Ausblick

Das Skill1-Framework stellt einen Fortschritt in der Entwicklung von LLM-Agenten dar, indem es eine einheitliche Optimierung von Skill-Auswahl, -Nutzung und -Destillation ermöglicht. Die Nutzung eines einzigen, aufgabenergebnisbasierten Signals, das in seine niederfrequenten Trends und hochfrequenten Variationen zerlegt wird, bietet einen eleganten Weg zur Kreditzuweisung ohne zusätzliche Belohnungsmodelle. Die erzielten Leistungssteigerungen auf ALFWorld und WebShop sowie die bestätigte Ko-Evolution der Fähigkeiten unterstreichen das Potenzial dieses Ansatzes.

Trotz der vielversprechenden Ergebnisse bestehen weiterhin Limitationen. Die Evaluation war auf textbasierte Umgebungen beschränkt, und die Generalisierbarkeit auf komplexere oder visuelle Umgebungen bleibt zu untersuchen. Zudem ist die Skalierbarkeit der Skill-Bibliothek bei einer wachsenden Aufgabenvielfalt ein wichtiger Aspekt, der zukünftige Forschungsarbeiten erfordern könnte, etwa durch ausgefeiltere Verdrängungsstrategien oder hierarchische Organisationsformen.

Insgesamt bietet Skill1 eine vielversprechende Perspektive für die Entwicklung autonomer, lernfähiger Agenten und legt den Grundstein für weitere Forschungen zur Optimierung des gesamten Skill-Lebenszyklus in breiteren Agentenkontexten.

Bibliography: - Shi, Y., Chen, Y., Lu, Z., Miao, Y., Liu, S., Gu, Q., Cai, X., Wang, X., & Zhang, A. (2026). Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning. arXiv preprint arXiv:2605.06130. - Xia, P., Chen, J., Wang, H., Liu, J., Zeng, K., Wang, Y., Han, S., Zhou, Y., Zhao, X., Chen, H., et al. (2026). SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning. arXiv preprint arXiv:2602.08234. - Yao, S., Chen, H., Yang, J., & Narasimhan, K. (2022a). WebShop: Towards scalable real-world web interaction with grounded language agents. Advances in Neural Information Processing Systems, 35, 20744-20757. - Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36, 8634-8652. - Shridhar, M., Yuan, X., Côté, M., Bisk, Y., Trischler, A., & Hausknecht, M. J. (2021). ALFWorld: Aligning text and embodied environments for interactive learning. 9th International Conference on Learning Representations, ICLR 2021. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y., Wu, Y., et al. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300. - Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. - Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press. - Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 3982-3992. - Yang, A., Yang, B., Zhang, B., et al. (2024). Qwen2.5 technical report. arXiv preprint arXiv:2412.15115. - Feng, L., Xue, Z., Liu, T., & An, B. (2025). Group-in-group policy optimization for LLM agent training. The Thirty-ninth Annual Conference on Neural Information Processing Systems. - Zhang, X., Liu, Z., Zhang, Y., Hu, X., & Shao, W. (2026b). RetroAgent: From solving to evolving via retrospective dual intrinsic feedback. arXiv preprint arXiv:2603.08561.