RubricEM Ein neues Framework für Reinforcement Learning in komplexen Forschungsaufgaben

Kategorien:

No items found.

Freigegeben:

May 14, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

RubricEM ist ein neues Reinforcement Learning (RL)-Framework, das auf rubrikengestützter Policy-Dekonstruktion und reflexionsbasiertem Meta-Policy-Training basiert.
Es ermöglicht Deep-Research-Agenten, komplexe, offene Forschungsaufgaben zu bewältigen, die über herkömmliche überprüfbare Belohnungssysteme hinausgehen.
RubricEM zerlegt Forschungsaufgaben in vier semantische Phasen (Planung, Recherche, Überprüfung, Beantwortung) und verwendet dabei selbstgenerierte Rubriken zur Steuerung.
Das Framework nutzt Stage-Structured GRPO (SS-GRPO) zur feinkörnigeren Zuweisung von Belohnungen und eine Meta-Policy zur Destillation von Erfahrungen in wiederverwendbare Anleitungen.
RubricEM-8B erreicht in vier Long-Form-Forschungsbenchmarks eine starke Leistung und übertrifft vergleichbare offene Modelle.

Die Entwicklung von KI-Agenten, die komplexe Forschungsaufgaben autonom planen, durchsuchen, Beweise bewerten und detaillierte Berichte erstellen können, stellt das Reinforcement Learning (RL) vor grosse Herausforderungen. Insbesondere bei Aufgaben, bei denen es keine eindeutigen, überprüfbaren Antworten gibt, wie etwa bei der Erstellung von langen Forschungsberichten, sind traditionelle Belohnungssysteme oft unzureichend. Hier setzt RubricEM an, ein innovatives Framework, das darauf abzielt, diese Lücke zu schliessen und KI-Agenten zu befähigen, auch in weniger klar definierten Domänen effektiv zu lernen und zu agieren.

Die Herausforderung von nicht-verifizierbaren Belohnungen im Reinforcement Learning

Herkömmliche RL-Methoden stützen sich oft auf klare, überprüfbare Belohnungen, die eine eindeutige Richtig-Falsch-Bewertung ermöglichen. Bei Aufgaben wie der Beantwortung komplexer Forschungsfragen ist dies jedoch selten der Fall. Die Qualität eines Forschungsberichts ist vielschichtig und kann nicht einfach durch eine einzelne Metrik erfasst werden. Dies führt zu mehreren Problemen für RL-Agenten:

Fehlende Ground-Truth-Antworten: Für viele offene Aufgaben existieren keine perfekten oder eindeutigen Referenzantworten.
Verzögertes und grobes Feedback: Die Bewertung von Langform-Ausgaben ist oft verzögert und liefert nur grobe Rückmeldungen über die Gesamtqualität, anstatt spezifische Hinweise auf verbesserungswürdige Prozessschritte.
Schwierigkeit der Wiederverwendung von Erfahrungen: Bisherige Ansätze wandeln bewertete Versuche meist nur in parametrische Aktualisierungen um, ohne explizite, wiederverwendbare Anleitungen für zukünftige Aufgaben zu generieren.

Diese Einschränkungen erschweren es RL-Agenten erheblich, effektive Strategien für komplexe, offene Forschungsaufgaben zu erlernen.

RubricEM: Ein Framework für rubrikengestütztes Meta-RL

RubricEM begegnet diesen Herausforderungen, indem es Rubriken nicht nur als Evaluierungsinstrumente am Ende eines Prozesses betrachtet, sondern als eine durchgängige Schnittstelle, die die gesamte RL-Schleife strukturiert. Das Framework integriert drei zentrale Komponenten:

1. Rubrikengestützte Policy-Dekonstruktion durch ein strukturiertes Reasoning-Gerüst

RubricEM zerlegt die Forschungsaufgaben in vier semantisch definierte Phasen, die jeweils durch XML-Tags gekennzeichnet und von spezifischen Verhaltensanforderungen geleitet sind. Diese Phasen sind:

Planung (Plan): Der Agent analysiert die expliziten und impliziten Anforderungen der Benutzeranfrage, erstellt eine Wissens-Checkliste, definiert analytische Kriterien und negative Einschränkungen. Die Rubriken werden hier generiert und dienen als prospektive Ziele.
Recherche (Research): Der Agent führt iterative Aktionen aus, sammelt Beweise und bewertet diese anhand des Plans und der Rubriken. Der Plan kann bei Bedarf dynamisch angepasst werden.
Überprüfung (Review): Vor der finalen Antwort überprüft der Agent, ob die gesammelten Beweise den Rubriken entsprechen, und erstellt einen Schreibplan.
Beantwortung (Answer): Der Agent synthetisiert die endgültige Langform-Antwort unter Berücksichtigung des Schreibplans und der Rubriken.

Dieser strukturierte Ansatz gewährleistet, dass Rubriken nicht nur zur Bewertung, sondern aktiv zur Steuerung der Agentenplanung, Beweiserhebung und Synthese verwendet werden. Die selbstgenerierten Rubriken bieten dabei flexible Referenzen, die dem Judge helfen, passendere Kriterien zu finden.

2. Stage-Structured GRPO (SS-GRPO) für feinkörnige Belohnungszuweisung

Anstatt eine einzelne finale Punktzahl auf alle Token zu übertragen, verwendet SS-GRPO bühnenspezifische Rubriken, um die Phasen Planung, Recherche, Überprüfung und Beantwortung zu bewerten. Ein LLM-Judge verwaltet für jede Phase einen sich entwickelnden Rubrikenpuffer, der sich anpasst, indem er mehrere Rollouts für dieselbe Abfrage vergleicht und diskriminierende Kriterien vorschlägt. Diese stufenweisen Bewertungen liefern dichtere semantische Rückmeldungen, die sowohl die lokale Bühnenqualität als auch die nachgelagerten Auswirkungen berücksichtigen. Dies ermöglicht eine präzisere Belohnungszuweisung für die Optimierung über lange Zeiträume, ohne einen expliziten Kritiker zu benötigen.

3. Reflexionsbasiertes Meta-Policy-Training zur Wiederverwendung von Erfahrungen

RubricEM integriert die Wiederverwendung von Erfahrungen als explizites RL-Ziel. Eine gemeinsame Basis (Shared Backbone) dient sowohl als Aufgaben-Policy als auch als Reflexions-Meta-Policy. Nach der Bewertung eines Rollouts generiert die Basis rubrikengestützte Reflexionskandidaten. Ein separater Judge bewertet diese Kandidaten, und die höchsten bewerteten Reflexionen werden in eine Rubrikenbank des Agenten als natürlicher Sprachspeicher geschrieben. Diese Bank beeinflusst zukünftige Rollouts in zwei Modi:

Intra-Episode-Verfeinerung: Abruf der vorherigen Reflexion für dieselbe Abfrage.
Cross-Episode-Transfer: Abruf von Reflexionen aus verwandten Fragen.

Dieses asynchrone Design vermeidet Engpässe und ermöglicht es, dass jede Reflexion den Agenten sowohl parametrisch als auch textuell aktualisiert.

Experimentelle Ergebnisse und Analysen

Das entwickelte RubricEM-8B-Modell, das mit 1400 RL-Schritten trainiert wurde, zeigt beeindruckende Ergebnisse. Es erreicht in vier repräsentativen Long-Form-Forschungsbenchmarks (HealthBench, ResearchQA, DeepResearchBench (DRB) und ResearchRubrics) eine starke Leistung, übertrifft vergleichbare offene Modelle und nähert sich proprietären Deep-Research-Systemen wie Gemini und OpenAI Deep Research an. Die Analysen bestätigen, dass jede der vorgeschlagenen Komponenten – die strukturierte Gliederung, die feinkörnige Belohnungszuweisung und das Meta-Policy-Training – zu den Leistungsverbesserungen beiträgt.

Die Effizienz des RL-Trainings ist ebenfalls bemerkenswert. RubricEM erreicht höhere durchschnittliche Punktzahlen mit weniger RL-Trainingsschritten im Vergleich zu früheren Systemen wie DR Tulu. Dies deutet darauf hin, dass der strukturierte Ansatz und die verbesserte Signalgebung zu einem effektiveren Lernprozess führen.

Übertragbarkeit auf Short-Form-Benchmarks

Interessanterweise zeigt RubricEM auch eine starke Übertragbarkeit auf Short-Form-Such-Benchmarks (SimpleQA, 2WikiMultihopQA, WebWalker, DeepSearchQA), obwohl es primär für Long-Form-Forschung trainiert wurde. Diese Ergebnisse legen nahe, dass die erlernten Fähigkeiten zur Tool-Nutzung und Evidenzfundierung nicht nur für lange Berichte, sondern auch für präzisere, kürzere Antworten relevant sind.

Implikationen und zukünftige Richtungen

Die Ergebnisse von RubricEM deuten darauf hin, dass LLM-generierte Rubriken nicht nur als Bewertungsartefakte, sondern als eine allgemeine Schnittstelle zur Strukturierung des Agentenverhaltens, zur Zuweisung semantischer Gutschriften und zur Akkumulation wiederverwendbarer Erfahrungen dienen sollten. Dieses Framework bietet einen vielversprechenden Weg, um die Effektivität von Reinforcement Learning in Domänen zu erweitern, in denen überprüfbare Belohnungen begrenzt oder nicht vorhanden sind.

Zukünftige Arbeiten könnten die Robustheit der Rubrikengenerierung weiter verbessern, stärkere oder Ensemble-Judges einsetzen und menschenüberprüfbare Rubrikenbanken entwickeln, um die Zuverlässigkeit und Sicherheit von KI-Agenten in kritischen Anwendungen zu gewährleisten.

Fazit

RubricEM stellt einen bedeutenden Fortschritt im Reinforcement Learning für komplexe, offene Forschungsaufgaben dar. Durch die Integration von rubrikengestützter Policy-Dekonstruktion, feinkörniger Belohnungszuweisung und reflexionsbasiertem Meta-Policy-Training ermöglicht es KI-Agenten, über die Grenzen überprüfbarer Belohnungen hinaus effektiver zu lernen und zu agieren. Dies eröffnet neue Möglichkeiten für den Einsatz von KI in anspruchsvollen Forschungs- und Analysebereichen, in denen die Qualität der Ergebnisse vielfältig und schwer zu quantifizieren ist.

Bibliographie

- Gaotang Li, Bhavana Dalvi Mishra, Zifeng Wang, Jun Yan, Yanfei Chen, Chun-Liang Li, Long T. Le, Rujun Han, George Lee, Hanghang Tong, Chen-Yu Lee, Tomas Pfister (2026). RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards. arXiv preprint arXiv:2605.10899. - Hugging Face. (n.d.). Paper page - RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards. - ChatPaper. (n.d.). Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards. - Jiachen Yu, Zhihao Xu, Junjie Wang, Yujiu Yang (2026). Think-with-Rubrics: From External Evaluator to Internal Reasoning Guidance. arXiv preprint arXiv:2605.07461. - Ruipeng Jia, Yunyi Yang, Yuxin Wu, Yongbo Gai, Siyuan Tao, Mengyu Zhou, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang (2026). Open Rubric System: Scaling Reinforcement Learning with Pairwise Adaptive Rubric. arXiv preprint arXiv:2602.14069v1. - Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Yunzhong He, Bing Liu, Sean Hendryx (2025). Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains. NeurIPS 2025 Workshop on Efficient Reasoning. - William F. Shen, Xinchi Qiu, Chenxi Whitehouse, Lisa Alazraki, Shashwat Goel, Francesco Barbieri, Timon Willi, Akhil Mathur, Ilias Leontiadis (2026). Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks. arXiv preprint arXiv:2602.05125. - EmergentMind. (n.d.). Rubric-Supervised Critic Models.