Fortschritte in der Inferenzleistung durch TMAS und Multi-Agenten-Kooperation

Kategorien:

No items found.

Freigegeben:

May 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Methode TMAS (Test-time Scaling via Multi-Agent Synergy) verbessert die Inferenzleistung grosser Sprachmodelle (LLMs) durch eine kollaborative Multi-Agenten-Architektur.
TMAS überwindet die Grenzen herkömmlicher Testzeit-Skalierungsansätze, die oft unter mangelnder Koordination zwischen parallelen Denkprozessen und ineffizienter Nutzung historischer Informationen leiden.
Das Framework nutzt spezialisierte Agenten und eine hierarchische Speicherverwaltung, bestehend aus einer "Experience Bank" und einer "Guideline Bank", um Exploration und Exploitation auszubalancieren.
Ein hybrides Belohnungssystem, das auf Reinforcement Learning basiert, ist integraler Bestandteil von TMAS, um die grundlegende Denkfähigkeit zu erhalten, die Erfahrungsnutzung zu steigern und die Erkundung neuer Lösungsstrategien zu fördern.
Empirische Studien zeigen, dass TMAS eine stärkere iterative Skalierung als bestehende Baselines erreicht und die Effektivität und Stabilität über mehrere Verfeinerungsrunden hinweg verbessert.

Revolution in der Inferenz-Skalierung: TMAS und die Synergie von Multi-Agenten-Systemen

Die kontinuierliche Weiterentwicklung von grossen Sprachmodellen (LLMs) hat zu beeindruckenden Fähigkeiten in einer Vielzahl von Aufgaben geführt. Insbesondere die Fähigkeit zum logischen Denken und zur Problemlösung steht im Fokus der aktuellen Forschung. Eine vielversprechende Methode zur Steigerung dieser Fähigkeiten ist die Testzeit-Skalierung (Test-Time Scaling, TTS), bei der zusätzliche Rechenressourcen während der Inferenzphase zugewiesen werden. Aktuelle Ansätze zur strukturierten Testzeit-Skalierung haben zwar Fortschritte erzielt, indem sie Inferenz über mehrere Trajektorien, Verfeinerungsrunden und verifikationsbasiertes Feedback organisieren. Dennoch zeigen sich bei diesen Methoden oft Einschränkungen in der Koordination paralleler Denkprozesse und in der effektiven Nutzung historischer Informationen. Hier setzt TMAS (Test-time Scaling via Multi-Agent Synergy) an, ein Framework, das eine kollaborative Multi-Agenten-Architektur nutzt, um diese Herausforderungen zu adressieren und die Inferenzleistung signifikant zu verbessern.

Grenzen bestehender TTS-Methoden

Bisherige TTS-Methoden, die entweder auf die Aggregation von Trajektorien oder auf Verifikations- und Verfeinerungsparadigmen setzen, weisen Defizite in der Zusammenarbeit auf. Trajektorien-Aggregationsmethoden sammeln oft grosse Mengen an historischen Informationen an, ohne explizit zu entscheiden, welche davon beibehalten oder verworfen werden sollen. Dies kann dazu führen, dass Modelle durch verrauschte oder suboptimale Signale eingeschränkt werden. Verifikations- und Verfeinerungssysteme bieten zwar explizites Feedback, doch die verschiedenen Trajektorien sind oft nur schwach miteinander gekoppelt, wodurch nützliche Erkenntnisse und wiederverwendbare Erfahrungen unzureichend geteilt werden. Dies begrenzt sowohl die Exploration (Erkundung neuer Lösungswege) als auch die Exploitation (Nutzung bekannter, zuverlässiger Wege).

Um diese Einschränkungen zu überwinden, zielt TMAS darauf ab, bestehende Multi-Agenten- und parallele TTS-Paradigmen durch eine explizite, trajektorienübergreifende Zusammenarbeit zu erweitern. Dabei sollen Agenten gemeinsame Gedächtnisinhalte extrahieren, pflegen und über Denkprozesse hinweg verbreiten können. Die Realisierung eines solchen Frameworks erfordert die Bewältigung dreier Kernherausforderungen:

Multi-Agenten-Synergie: Ein Multi-Agenten-TTS-System muss spezialisierte Agenten innerhalb jeder Trajektorie koordinieren und gleichzeitig den Informationsfluss über parallele Trajektorien und Iterationen hinweg steuern. Ohne einen expliziten Synergiemechanismus könnten die Outputs der Agenten schwach aufeinander abgestimmt bleiben, und nützliche Erfahrungen einer Trajektorie würden anderen möglicherweise nicht zugutekommen.
Hierarchisches Gedächtnismanagement: Gedächtnis ist entscheidend für agentisches Denken über lange Zeiträume hinweg. Für komplexe Problemlösungen muss ein solches Gedächtnis sowohl globale Lösungsstrategien als auch zuverlässige lokale Denkzustände, wie verifizierte Anker und Zwischenergebnisse, bewahren. Bestehende Methoden unterscheiden oft nicht ausreichend zwischen diesen Signalen, was die effektive Informationsweitergabe und -wiederverwendung einschränkt.
Balance zwischen Exploration und Exploitation: Das Lösen schwieriger Probleme erfordert sowohl die Erkundung vielfältiger Hypothesen als auch die Nutzung gesammelter Evidenz zur Verfeinerung vielversprechender Richtungen. Ohne explizite Kontrolle dieses Kompromisses könnten Modelle entweder in suboptimalen Mustern gefangen bleiben oder Rechenressourcen für redundante Versuche verschwenden.

Das TMAS-Framework: Eine kollaborative Architektur

TMAS organisiert die Inferenzphase als einen kollaborativen Prozess zwischen spezialisierten Agenten, wodurch ein strukturierter Informationsfluss über Agenten, Trajektorien und Iterationen hinweg ermöglicht wird. Im Zentrum dieses Ansatzes steht ein hierarchisches Gedächtnismanagement, das durch zwei komplementäre Gedächtnisbänke realisiert wird:

Experience Bank: Diese Bank speichert zuverlässige Zwischenergebnisse und lokales Feedback, die von niederrangigen Agenten wiederverwendet werden können. Sie enthält konkrete Fähigkeiten, lokales Feedback und verifizierte Zwischenschlüsse, die es späteren Agenten ermöglichen, zuverlässigen Teilerfolg zu nutzen und lokale Fehler zu vermeiden.
Guideline Bank: Diese Bank zeichnet zuvor erkundete übergeordnete Strategien und strukturelle Erkenntnisse auf, um nachfolgende Denkprozesse von redundanten Mustern wegzulenken und eine diversifizierte Exploration zu fördern.

Diese hierarchischen Gedächtnisse dienen als Kommunikationsgrundlage für die Multi-Agenten-Synergie, indem sie spezialisierten Agenten ermöglichen, lokale Evidenz zu teilen, globale Strategien zu verbreiten und unabhängige parallele Trajektorien in einen koordinierten iterativen Denkprozess umzuwandeln.

Die spezialisierten Agenten in TMAS

TMAS zerlegt das iterative Denken in fünf spezialisierte Agenten, von denen jeder eine bestimmte Funktion im kollaborativen Inferenzprozess übernimmt:

Lösungsagent (Solution Agent): Dieser Agent generiert in jeder Iteration mehrere Kandidaten-Lösungswege. Die Generierung erfolgt mit einem Explorationskoeffizienten ε, der die Balance zwischen Exploitation (Nutzung früherer Erkenntnisse) und Exploration (Erkundung neuer Wege) steuert.
Verifikationsagent (Verification Agent): Er bewertet jede Kandidatenlösung durch mehrere unabhängige Verifikationsdurchläufe und liefert analytisches Feedback sowie Bewertungspunkte für Korrektheit oder Fehler.
Zusammenfassungsagent (Summary Agent): Dieser Agent fasst die Verifikationsergebnisse für jede Kandidatenlösung zusammen, hebt validierte Denkschritte hervor und identifiziert potenzielle logische Fehler.
Erfahrungsagent (Experience Agent): Er aktualisiert die Experience Bank, indem er wiederverwendbare Erfahrungen aus den aktuellen Durchläufen extrahiert, wie z.B. gemeinsame Zwischenschritte und Strategien zur Fehlervermeidung.
Richtlinienagent (Guideline Agent): Dieser Agent aktualisiert die Guideline Bank, indem er die übergeordneten Lösungsstrategien abstrahiert, die in parallelen Durchläufen erkundet wurden, um eine vielfältigere Exploration in nachfolgenden Iterationen zu fördern.

Hybrides Belohnungssystem mit Reinforcement Learning

Um die Modelle besser an das kollaborative Denkprinzip von TMAS anzupassen, wurde ein hybrides Belohnungssystem entwickelt. Dieses System besteht aus drei komplementären Trainingszielen:

Erhaltung der grundlegenden Denkfähigkeit.
Verbesserung der Erfahrungsnutzung.
Förderung der Erkundung über zuvor versuchte Lösungsstrategien hinaus.

Dieses Design ermöglicht es dem Modell, die kollaborative Gedächtnisstruktur von TMAS besser zu nutzen und gleichzeitig eine ausreichende Exploration während der iterativen Verfeinerung aufrechtzuerhalten.

Empirische Validierung und Ergebnisse

Umfangreiche Experimente auf anspruchsvollen Reasoning-Benchmarks zeigen, dass TMAS eine stärkere iterative Skalierung als bestehende TTS-Baselines erreicht. Das hybride Belohnungstraining verbessert zudem die Skalierungseffektivität und -stabilität über mehrere Verfeinerungsrunden hinweg. Die Ergebnisse deuten darauf hin, dass TMAS bei zunehmender Iterationszahl kontinuierlich bessere Leistungen erzielt, anstatt zu stagnieren. Dies gilt insbesondere für mathematische Denkaufgaben, wo TMAS signifikante Verbesserungen gegenüber etablierten Methoden wie Self-Refine, V-R, PaCoRe und RSE aufzeigt. Bemerkenswert ist auch, dass das hybride Belohnungssystem die Lücke zwischen Modellen unterschiedlicher Grösse (z.B. 4B und 30B Parameter) signifikant verringern kann, was die Skalierbarkeit und Stabilität der Methode unterstreicht.

Ein konkretes Fallbeispiel aus der HLE-Math-100-Benchmark (Problem 720) illustriert die Wirksamkeit der Experience Bank. Bei einem Kombinatorikproblem, das die Anzahl der Kachelungen eines 2x4-Bretts mit verschiedenen Kacheln betrifft, führte ein Modell ohne Experience Bank wiederholt zu einer falschen Annahme über die Platzierung von Kacheln. Dies resultierte in einer persistent falschen Antwort. Im Gegensatz dazu speicherte und nutzte TMAS ein verifiziertes Korrektursignal in seiner Experience Bank, was es dem Modell ermöglichte, das Problem schliesslich korrekt zu lösen. Dies zeigt, wie TMAS ein einzelnes korrektes Ergebnis in wiederverwendbares Wissen umwandelt, um systematische Denkfehler zu korrigieren und die Robustheit der Lösung zu erhöhen.

Theoretische Fundierung und Ausblick

Die Wirksamkeit von TMAS lässt sich durch ein theoretisches Framework erklären, das strukturierte Testzeit-Skalierung, Multi-Agenten-Systeme und allgemeine Inferenzarchitekturen unter einem Dach vereint. Dieses Framework identifiziert drei Mechanismen, die die exponentielle Fehlerakkumulation umgehen:

Topologie: Komprimiert die sequentielle Spanne von Θ(W) auf Õ(log W), wodurch der sequentielle Kontrollpfad logaritmisch zur Gesamtarbeit skaliert.
Bereichs-Isolation (Scope Isolation): Entkoppelt persistenten Zustand von ephemerem Kontext, um die inhärente Fehlerrate zu reduzieren und die Effizienz zu steigern, indem jede Aufgabe in einem sauberen, minimalen Kontext bearbeitet wird.
Verifikation: Filtert Fehler durch unabhängige Validierungsinstanzen, wodurch die Fehlerunterdrückung exponentiell und mit logarithmischer Redundanz erfolgt.

Diese Mechanismen wirken kausal aufeinander ein: Die Topologie schafft Zerlegungsgrenzen, die Isolation erzeugt überprüfbare atomare Einheiten, und die Verifikation nutzt diese Struktur zur Unterdrückung von Restfehlern. Die Bedeutung der Verifikation wird insbesondere durch die Unterscheidung zwischen "False Accept" (Akzeptieren einer falschen Lösung) und "False Reject" (Ablehnen einer richtigen Lösung) deutlich. Während False Reject hauptsächlich die Kosten durch Wiederholungen erhöht, ist False Accept kritischer, da es falsche Arbeit in den gemeinsamen Zustand überführt und spätere Korrekturen erschwert.

Zusammenfassend stellt TMAS einen bedeutenden Fortschritt in der Testzeit-Skalierung von LLMs dar, indem es eine kollaborative Multi-Agenten-Architektur mit hierarchischer Speicherverwaltung und einem hybriden Belohnungssystem kombiniert. Diese Innovationen ermöglichen eine effizientere Nutzung von Rechenressourcen und eine robustere Problemlösung, insbesondere bei komplexen Aufgaben, die ein tiefes und iteratives Denken erfordern. Die theoretische Fundierung und die empirischen Ergebnisse deuten darauf hin, dass die konsequente Anwendung dieser Prinzipien den Weg für zuverlässigere und leistungsfähigere KI-Systeme ebnet.

Bibliographie

Wu, G., Jing, N., Yi, Q., Hao, C., Yang, M., Chang, F., Wei, Y., Yang, J., Tao, R., & Dai, B. (2026). TMAS: Scaling Test-Time Compute via Multi-Agent Synergy. arXiv. https://arxiv.org/html/2605.10344v1
george-QF. (2026). george-QF/TMAS-code. GitHub. https://github.com/george-QF/TMAS-code
Wu, G., Jing, N., Yi, Q., Hao, C., Yang, M., Chang, F., Wei, Y., Yang, J., Tao, R., & Dai, B. (2026). TMAS: Scaling Test-Time Compute via Multi-Agent Synergy. Hugging Face. https://huggingface.co/papers/2605.10344
Tu, X. (2026). Structured Test-Time Scaling: From Multi-Agent Systems to General Inference Architectures. Commonplace. https://zby.github.io/commonplace/sources/xinmingtu-structured-test-time-scaling-hierarchical-mas-theory/
Tu, X. (2026). Structured Test-Time Scaling: From Multi-Agent Systems to General Inference Architectures. Xinming Tu's Blog. https://xinmingtu.github.io/blog/2026/hierarchical-mas-theory/
Yang, X., Zou, J., Pan, R., Qiu, R., Lu, P., Diao, S., Jiang, J., Tong, H., Zhang, T., Buehler, M. J., He, J., & Zou, J. (2026). Recursive Multi-Agent Systems. arXiv. https://arxiv.org/html/2604.25917
Jin, C., Peng, H., Zhang, Q., Tang, Y., Che, T., & Metaxas, D. (2025). Test-time Scaling of Multi-agent Collaborative Reasoning. NeurIPS. https://neurips.cc/virtual/2025/124541
Yu, X., Xu, C., Chen, Z., Zhang, Y., Lu, S., Yang, C., Zhang, J., Yan, S., & Hu, X. (2025). Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling. arXiv. https://arxiv.org/pdf/2508.03404
Wong, J. T. H., Zhang, Z., Liu, J., & Zhao, Y. (2026). TEAM OF THOUGHTS: EFFICIENT TEST-TIME SCALING OF AGENTIC SYSTEMS THROUGH ORCHESTRATED TOOL CALLING. arXiv. https://arxiv.org/pdf/2602.16485