Optimierung der Gewichtssynchronisation in asynchronen Reinforcement Learning Systemen

Kategorien:

No items found.

Freigegeben:

May 27, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die asynchrone Reinforcement Learning (RL)-Trainingsarchitektur steht vor der Herausforderung der Gewichtssynchronisation zwischen Trainer und Inferenz-Engine.
Traditionelle Methoden erfordern die Übertragung des gesamten Modellgewichts, was bei großen Modellen wie einem 7B-Modell (14 GB) oder einem 1T-Modell (1 TB) zu erheblichen Engpässen führt.
Neuere Erkenntnisse zeigen, dass bei RL-Optimierungsschritten typischerweise 98 % bis 99 % der BF16-Gewichte unverändert bleiben.
Die Implementierung von Delta-Gewichtssynchronisation, die nur die geänderten Elemente überträgt, kann die übertragene Datenmenge drastisch reduzieren (z. B. von 1,2 GB auf 20-35 MB bei einem 0,6B-Modell).
Hugging Face Buckets bieten eine robuste, Cloud-agnostische Infrastruktur für den transfer von Gewichts-Deltas, die eine Entkopplung von Trainer und Inferenz-Engine ermöglicht.
Diese Methode minimiert die Stillstandszeiten der Inferenz-Engine und ermöglicht skalierbares, verteiltes RL-Training über unterschiedliche Infrastrukturen hinweg.

Optimierung der Gewichtssynchronisation in asynchronen RL-Systemen: Eine Analyse der Delta-Gewichtsübertragung

Die Skalierung von Reinforcement Learning (RL)-Systemen, insbesondere für große Sprachmodelle (LLMs), stellt Entwickler vor erhebliche Herausforderungen. Ein zentrales Problem ist die effiziente Synchronisation von Modellgewichten zwischen der Trainingskomponente (Trainer) und der Inferenzkomponente (Rollout-Server). Während asynchrone Architekturen darauf abzielen, die Generierung von Daten und das Training zu entkoppeln, bleibt die Aktualisierung der Modellgewichte ein kritischer Pfad, der die Gesamtleistung maßgeblich beeinflussen kann. Aktuelle Forschung und Implementierungen zeigen jedoch vielversprechende Ansätze zur Bewältigung dieser Herausforderung durch die Nutzung von Delta-Gewichtssynchronisation.

Die Herausforderung der Gewichtssynchronisation bei großskaligem RL

In synchronen RL-Trainingsarchitekturen dominiert die Datengenerierung oft die Gesamtlaufzeit. Ein einzelner Batch von 32.000 Token-Rollouts auf einem Modell mit 32 Milliarden Parametern kann Stunden dauern, während die GPUs für das Training ungenutzt bleiben. Dies führte zur Entwicklung asynchroner Architekturen, bei denen Inferenz und Training auf getrennten GPU-Pools stattfinden und über einen Rollout-Puffer verbunden sind. Die Gewichte werden dabei asynchron übertragen, um Wartezeiten zu minimieren. Dennoch bleibt die Gewichtssynchronisation ein Engpass, da der Trainer nach Abschluss eines Optimierungsschritts die aktualisierten Gewichte an die Inferenz-Engine übermitteln muss, bevor diese mit einer veralteten Policy arbeitet.

Die schiere Größe moderner LLMs verschärft dieses Problem. Ein 7B-Modell in BF16 erfordert beispielsweise die Übertragung von rund 14 GB an Daten pro Synchronisationsschritt. Bei einem 1T-Modell kann dies bis zu einem Terabyte an Daten bedeuten. Solche Datenmengen erfordern eine hochentwickelte Infrastruktur mit Hochleistungsnetzwerken wie RDMA, was hohe Kosten und Komplexität mit sich bringt. Die traditionelle Annahme, dass bei jedem Update das gesamte Modell übertragen werden muss, führt zu erheblichen Stillstandszeiten der Inferenz-GPUs.

Das Phänomen der Gewichtsdichte: Warum 99 % der Gewichte unverändert bleiben

Eine entscheidende Beobachtung, die die Effizienz der Gewichtssynchronisation revolutioniert, ist die inhärente Sparsität von Gewichtsupdates in RL-Trainingsprozessen. Analysen zeigen, dass zwischen zwei aufeinanderfolgenden Optimierungsschritten im RL-Training typischerweise etwa 99 % der BF16-Gewichte bit-identisch bleiben. Selbst im ungünstigsten Fall liegt die Sparsität selten unter 98 %.

Dieses Phänomen lässt sich durch die Funktionsweise von BF16-Arithmetik und die typischen Lernraten im RL-Bereich erklären. Ein BF16-Zahlformat hat 7 Mantissen-Bits. Updates, die unterhalb eines bestimmten Schwellenwerts liegen (dem "BF16-Sichtbarkeitsschwellenwert"), werden durch Rundung absorbiert und führen zu keiner Änderung der binären Darstellung des Gewichts. Bei RL-Lernraten, die oft im Bereich von 3 x 10^-6 liegen, sind die einzelnen Gewichtsupdates in der Regel kleiner als dieser Schwellenwert. Dies führt dazu, dass der Großteil der Gewichte sich aus Sicht der BF16-Darstellung nicht ändert, obwohl im FP32-Hauptgewicht kleinere Anpassungen vorgenommen wurden. Diese Eigenschaft ermöglicht es, anstatt des gesamten Modells nur die tatsächlich geänderten Elemente zu übertragen.

Delta-Gewichtssynchronisation: Ein Paradigmenwechsel

Das Konzept der Delta-Gewichtssynchronisation basiert auf dieser Beobachtung. Anstatt das gesamte Modell zu senden, werden nur die Indizes und Werte der geänderten Elemente übertragen. Dies führt zu einer drastischen Reduzierung der zu übertragenden Datenmenge. Bei einem 0,6B-Modell kann die Nutzlast von 1,2 GB auf 20 bis 35 MB sinken. Für ein 1T-Modell, bei dem das vollständige BF16-Modell 810 GB umfasst, würde ein Delta-Update nur etwa 6 GB betragen, was einer Reduzierung um das 135-fache entspricht.

Diese Methode wurde bereits in der Praxis erfolgreich eingesetzt und validiert. Unternehmen wie Fireworks.ai und Cursor haben ähnliche Ansätze verfolgt, um die Skalierbarkeit und Kosteneffizienz ihrer RL-Trainingsprozesse zu verbessern. Die Kernprinzipien sind dabei konsistent:

Die meisten Gewichte ändern sich zwischen RL-Schritten nicht.
Die Übertragung nur der geänderten Teile reduziert den Bandbreitenbedarf erheblich.
Die Nutzung eines gemeinsamen Objektspeichers für den Transfer der Deltas eliminiert die Notwendigkeit, dass Trainer und Inferenz-Cluster im selben Rechenzentrum angesiedelt sind.

Hugging Face Buckets als Rückgrat der Infrastruktur

Ein entscheidender Faktor für die praktische Umsetzung der Delta-Gewichtssynchronisation ist eine geeignete Infrastruktur für den Datentransfer. Hugging Face Buckets bieten hierfür eine robuste und flexible Lösung. Als Repository-Typ auf dem Hugging Face Hub sind sie für die Speicherung häufig aktualisierter Objekte konzipiert und ermöglichen den Upload, die Auflistung und den Download von Dateien ohne die Komplexität traditioneller Versionskontrollsysteme.

Die Funktionsweise ist dabei denkbar einfach: Der Trainer lädt die serialisierten Gewichts-Deltas in einen Bucket hoch. Die Inferenz-Engine ruft diese Deltas bei Bedarf ab. Die zugrunde liegende Xet-Technologie des Hubs nutzt inhaltsdefinierte Chunking-Verfahren, um selbst bei vollständigen Snapshot-Uploads eine Deduplizierung zu gewährleisten. Das bedeutet, dass nur die tatsächlich geänderten Datenblöcke übertragen und gespeichert werden, selbst wenn das gesamte Modell als Ankerpunkt hochgeladen wird.

Die Architektur umfasst dabei drei Hauptkomponenten, die über den Hugging Face Bucket miteinander kommunizieren:

Trainer: Erstellt und optimiert die Modellgewichte, generiert sparse Deltas und lädt diese in den Bucket hoch.
HF Bucket: Dient als zentraler Speicherort für Anker-Snapshots (gelegentlich) und Delta-Patches (laufend).
vLLM Rollout-Server: Lädt Deltas aus dem Bucket herunter, wendet sie auf seine lokale Modellkopie an und führt Inferenz durch.
Umgebung: Interagiert mit dem Rollout-Server.

Ein wesentlicher Vorteil dieser Entkopplung ist, dass Trainer und Rollout-Server nicht direkt miteinander kommunizieren müssen und nicht an denselben physischen Standort gebunden sind. Dies ermöglicht eine hohe Flexibilität bei der Bereitstellung und Skalierung.

Das Protokoll im Detail: Safetensors und Change Detection

Die technische Implementierung der Delta-Gewichtssynchronisation basiert auf mehreren Schlüsselelementen:

Wire-Format: Safetensors: Das Safetensors-Format wird für die Speicherung der Gewichte und Deltas verwendet. Es ist ein etabliertes Format im ML-Ökosystem und ermöglicht eine effiziente Speicherung und Metadaten-Einbettung. Anker-Dateien enthalten vollständige BF16-Gewichte, während Delta-Dateien Indizes (int32) und Werte (bf16) der geänderten Elemente speichern.
Trainer-seitige Änderungserkennung: Ein BF16ChangeDetector-Modul überwacht die Modellgewichte vor und nach jedem Optimierungsschritt. Es vergleicht die BF16-Darstellungen der Gewichte und identifiziert die tatsächlich geänderten Elemente. Diese Methode ist robust, da sie die tatsächlichen Bit-Änderungen erfasst und nicht auf analytische Vorhersagen angewiesen ist, die aufgrund der Komplexität von Optimierern wie Adam ungenau sein können.
vLLM-Erweiterung: Eine schlanke Erweiterung für vLLM (DeltaWeightTransferEngine) ermöglicht es der Inferenz-Engine, die Deltas aus dem Hugging Face Bucket herunterzuladen und auf die lokalen Modellgewichte anzuwenden. Diese Erweiterung kann als Worker-Extension in vLLM geladen werden, ohne dass Änderungen am vLLM-Kern notwendig sind.

Der Synchronisationsprozess läuft wie folgt ab: Der Trainer lädt die erkannten Deltas in den Bucket hoch, während die Inferenz-Engine weiterläuft. Anschließend wird der vLLM-Server kurz pausiert, um die Bucket-Koordinaten des Deltas zu erhalten. vLLM lädt das Delta herunter, wendet es an und nimmt den Betrieb wieder auf. Die Stillstandszeit der Inferenz-Engine reduziert sich dabei von der gesamten Synchronisationszeit auf wenige Sekunden für den Apply-Schritt.

Praktische Implikationen und Ausblick

Die Delta-Gewichtssynchronisation in Kombination mit einer Cloud-agnostischen Bucket-Infrastruktur eröffnet neue Möglichkeiten für das skalierbare RL-Training:

Asynchrones RL-Training ohne dedizierten Cluster: Es wird möglich, dezentrales Training mit einem lokalen Trainer und einer Rollout-Flotte in Hugging Face Spaces durchzuführen, verbunden über einen Bucket. Dies senkt die Einstiegshürden erheblich.
Skalierbare Multi-Replika-Inferenz: Mehrere Inferenz-Replicas können dieselben Deltas aus dem Bucket abrufen. Die Deduplizierungsfunktionen der Speicherinfrastruktur und Edge-Caches machen dies effizient.
Transparenz und Debugging: Das Safetensors-Format ermöglicht eine einfache Inspektion der Deltas, was die Fehlerbehebung vereinfacht.
Weg zur Frontier-Skala: Die Reduzierung der Datenmenge um den Faktor 50 bis 130 ermöglicht die effiziente Synchronisation von Modellen im Terabyte-Bereich, selbst über Bandbreiten-limitierte Netzwerke.

Aktuell gibt es noch Bereiche für weitere Optimierungen, wie die Reduzierung von BF16-Snapshots auf der CPU, adaptive Ankerpunkt-Strategien und die Integration mit Multi-Node FSDP2-Trainern. Dennoch stellt die Delta-Gewichtssynchronisation einen bedeutenden Fortschritt für die Effizienz und Zugänglichkeit des großskaligen RL-Trainings dar.

Vergleich der Synchronisationsmethoden

Die Wahl des Gewichtssynchronisationsprotokolls ist entscheidend für die Leistung und Skalierbarkeit von asynchronen RL-Systemen. Im Folgenden werden verschiedene Ansätze und deren Merkmale beleuchtet.

Orchestrierung und Parallelisierungsstrategien

Die Koordination verteilter Komponenten ist eine grundlegende Designentscheidung. Systeme nutzen verschiedene Orchestrierungs-Frameworks, die sich in Abstraktionsgrad, Fehlermodell und Bereitstellungsanforderungen unterscheiden:

Distributed Actor Model (z.B. Ray, Monarch): Komponenten agieren als isolierte, zustandsbehaftete Prozesse. Ray wird von vielen Bibliotheken (z.B. verl, SkyRL, NeMo-RL) als Rückgrat genutzt, da es Scheduling, Ressourcenplatzierung und Fehlertoleranz bietet. Monarch ist ein auf PyTorch zugeschnittenes Framework von Meta.
Native Python Concurrency (z.B. asyncio, multiprocessing): Bietet minimale Abhängigkeiten und volle Kontrolle, ist aber auf Einzelknoten beschränkt, es sei denn, es wird mit IPC für Multi-Node-Kommunikation kombiniert. Beispiele sind verifiers-rl und PipelineRL.
Pub/Sub Message Bus (z.B. Redis Streams): Entkoppelt Produzenten und Konsumenten über append-only Streams. Es ist eine Datentransportschicht, die keine Prozesslebenszyklen oder Fehlertoleranz verwaltet.
HTTP Microservices (z.B. FastAPI): Bietet maximale Entkopplung und Sprachunabhängigkeit, kann aber höhere Latenzen aufweisen. Atropos nutzt diesen Ansatz.

Rollout-Puffer-Design

Der Rollout-Puffer ist die Schnittstelle zwischen Generierung und Training. Seine Tiefe bestimmt den Grad der Asynchronität und damit die maximale Veralterung der Daten:

Kein Puffer (synchron): Generierung und Training wechseln sich strikt ab (z.B. TRL aktuell, ART).
Doppelpuffer (One-Step-Ahead): Überlappt genau eine Generierung mit einem Trainingsschritt, führt zu maximal einem Schritt Richtlinienverzögerung (z.B. verifiers-rl, MILES).
Begrenzte asynchrone Warteschlange: Mehrere Batches sind gleichzeitig in Bearbeitung; die Veralterung ist durch die Kapazität der Warteschlange begrenzt (z.B. SkyRL, verl, NeMo-RL).
Unbegrenzt/Stream: Kontinuierliche Generierung, Veralterung nur durch explizite Versionskontrolle begrenzt (z.B. PipelineRL, Atropos).

Gewichtssynchronisations-Protokoll

Das Protokoll für die Übertragung neuer Modellgewichte an die Inferenz-Server ist entscheidend für Latenz, Interrupt-Granularität und die Möglichkeit partieller Rollouts. Dies ist der architektonisch folgenreichste Aspekt in dezentralisierten Systemen.

Transportmechanismen:

NCCL Broadcast: Häufig verwendet, bietet Latenzen von ca. 100-500 ms.
NCCL + Bucketing: Reduziert die Latenz auf ca. 20 ms durch paketierte Übertragungen (z.B. verl).
Dateisystem + HTTP: Mittlere Latenz (z.B. PRIME-RL, AReaL).
CUDA IPC (Zero-Copy): Sehr geringe Latenz, für Co-Located-Modi (z.B. NeMo-RL, MILES).
JAX Cross-Mesh: Geringe Latenz, für JAX-basierte Systeme (z.B. Tunix).

Interrupt-Modelle:

Das Interrupt-Modell bestimmt, wann die Generierung pausiert, um neue Gewichte zu akzeptieren:

Nie (In-Flight Per-Forward-Pass): Sequenzen werden nie unterbrochen. Der Gewichts-Swap erfolgt zwischen Token-Dekodierungsschritten (~1-10 ms). PipelineRL nutzt diesen Ansatz.
Pro HTTP-Anfrage (Abbruch + Resync): Laufende HTTP-Anfragen werden abgebrochen, partielle Token werden mit einem Präfix-Resume-Mechanismus erneut gesendet (z.B. SkyRL, SLIME).
Sanfte Pause (In-Flight-Drain): Keine neuen Generierungsanfragen werden akzeptiert, bis laufende abgeschlossen sind. Danach werden Gewichte synchronisiert und die Generierung fortgesetzt (z.B. PRIME-RL, AReaL).
Pro Trainingsschritt/Batch (Blockierend): Generierung muss vollständig abgeschlossen sein, Trainer und Inferenz-Engine blockieren sich gegenseitig (z.B. NeMo-RL, ROLL).

Staleness Management

Wenn Generierung und Training überlappen, können Samples von einer älteren Policy stammen (Off-Policy). Es gibt drei Hauptstrategien, um dies zu handhaben:

Per-Sample Version Rejection: Jedes Sample wird mit seiner Policy-Version versehen. Samples, deren Version zu alt ist, werden verworfen. Einfach, aber verschwendet Rechenressourcen.
Depth Bounding: Der Puffer zwischen Generierung und Training hat eine begrenzte Kapazität, wodurch die Veralterung architektonisch begrenzt wird.
IS-Weighted Loss Correction: Veraltete Samples werden durch Importance Sampling (IS) neu gewichtet, um den Durchsatz zu erhalten, allerdings auf Kosten der Gradientenvarianz.

Produktionssysteme tendieren zu hybriden Ansätzen, die Depth Bounding mit optionaler IS-Korrektur kombinieren, um Stabilität zu gewährleisten.

Umgang mit partiellen Rollouts

Was passiert, wenn während einer laufenden Generierung ein Gewichtsupdate eintrifft? Dies ist besonders wichtig bei langen Kontexten:

Implizite Fortsetzung: Sequenzen werden nie unterbrochen, Gewichte wechseln zwischen Forward Passes (z.B. PipelineRL).
Abbruch + Wiederholung mit Präfix: Aktive Sequenzen werden abgebrochen, partielle Token werden gesammelt und mit neuen Gewichten erneut gesendet (z.B. SkyRL, SLIME).
Explizites Speichern/Fortsetzen: Der Rollout-Worker speichert partielle Token-IDs und Logprobs, wartet auf die Synchronisation und setzt dann von diesem Punkt aus fort (z.B. verl).
Keine Unterstützung für partielle Rollouts: Gewichts-Sync findet nur an Batch-Grenzen statt, laufende Generierungen müssen beendet werden (z.B. verifiers-rl).

LoRA-Trainingsunterstützung

LoRA (Low-Rank Adaptation) reduziert die Anzahl der trainierbaren Parameter erheblich. Wenn der Inferenz-Server LoRA-fähig ist, können nur die Adapter-Deltas synchronisiert werden, was zu extrem schnellen Gewichtsübertragungen führt (z.B. ~50 MB statt mehrerer GB).

Viele Bibliotheken unterstützen LoRA und nutzen Adapter-only-Sync, um die Übertragungsgröße zu minimieren (z.B. AReaL, ART, Atropos).
Einige Bibliotheken, insbesondere solche, die auf DeepSpeed oder Megatron basieren, haben spezifische Implementierungen für LoRA.

Verteilter Trainings-Backend und Parallelisierung

Die Wahl des Trainings-Backends beeinflusst die maximale Modellgröße, die Anzahl der kollektiven Operationen für die Gewichtssammlung und die unterstützten Modellarchitekturen. Dies ist besonders relevant für Modelle über 30B Parametern oder Mixture-of-Experts (MoE)-Modelle.

MoE-Unterstützung: Immer wichtiger für sparse Modelle. Erfordert Expert Parallelism (EP), was nicht von allen Bibliotheken unterstützt wird. Megatron-basierte Bibliotheken und PRIME-RL bieten hier oft Vorteile.
MoE LoRA: Eine aufkommende Anforderung, die komplex ist, da jeder Experte einen eigenen Adapter erhält, was zu einer hohen Anzahl von Adaptern führt, die über EP-Ranks verteilt sind.

Zukünftige Entwicklungen und Herausforderungen

Die Landschaft des asynchronen RL-Trainings entwickelt sich ständig weiter. Mehrere Trends werden die bestehenden Architekturen auf die Probe stellen:

Kritikerfreie Algorithmen: Reduzieren den Speicherbedarf, erhöhen aber den Druck auf die Gewichtssynchronisation, da sie größere Gruppengrößen und schnellere Policy-Drifts erfordern.
Prozess-Rewards: Die Bewertung von Zwischenschritten in einer Reasoning-Kette erzeugt neue Synchronisationsengpässe, da die Reward-Berechnung teuer werden kann und asynchrone Reward-Pipelines erforderlich macht.
Multi-Agent Co-Evolution: Das Straggler-Problem verschärft sich in Multi-Agenten-Szenarien, da die Latenzen über mehrere Modelle hinweg kumulieren.
Training-Inferenz-Diskrepanz (DeepSeek v3.2 MoE Fallstudie): Inkonsistenzen im MoE-Expert-Routing oder bei Sampling-Masken zwischen Training und Inferenz können die Optimierung destabilisieren und erfordern erweiterte Metadatenübertragung vom Inferenz-Server.
Destillation: On-Policy-Destillation, bei der ein Student-Modell Sequenzen generiert und ein Teacher-Modell diese bewertet, weist strukturell Ähnlichkeiten zu RL-Problemen auf und kann von denselben asynchronen Infrastrukturen profitieren.

Die Entwicklung hin zu leichteren Orchestrierungssystemen, einer feingranularen Nachverfolgung der Modellversionen pro Token und der Nutzung von gepackten NCCL-Transfers wird die Effizienz weiter steigern. Die Unterstützung von partiellen Rollouts, insbesondere für agentische Workloads, ist entscheidend, um Pipeline-Stillstände bei langen Rollouts zu vermeiden.

Die Delta-Gewichtssynchronisation mit Hugging Face Buckets stellt einen wichtigen Schritt dar, um diese Herausforderungen zu meistern und die Skalierbarkeit und Zugänglichkeit des RL-Trainings für LLMs zu verbessern. Die kontinuierliche Weiterentwicklung und Anpassung der Infrastruktur an neue algorithmische Anforderungen wird entscheidend sein, um die nächste Generation von KI-Modellen zu ermöglichen.

Bibliographie

Keep the Tokens Flowing: Lessons from 16 Open-Source RL Libraries. Hugging Face Blog. Veröffentlicht am 10. März 2026.
vLLM Server Mode and Weight Synchronization | huggingface/trl | DeepWiki. DeepWiki. Veröffentlicht am 24. April 2026.
Scaling GRPO to 70B+ Models and Multi-Node Training with vLLM Server & NCCL Communication. Pull Request #3094 · huggingface/trl. Veröffentlicht am 16. März 2025.
Memory-efficient PEFT/LoRA vLLM weight sync under DeepSpeed ZeRO-3. Pull Request #5766 · huggingface/trl. Veröffentlicht am 13. Mai 2026.
SparseRL-Sync: Lossless Weight Synchronization with ~ 100x Less Communication. arXiv. Veröffentlicht am 16. Mai 2026.
RL over Commodity Networks: Overcoming the Bandwidth Barrier with Lossless Sparse Deltas. arXiv. Veröffentlicht am 12. Februar 2026.
TensorHub: Scalable and Elastic Weight Transfer for LLM RL Training. arXiv. Veröffentlicht am 14. April 2026.
Weight Synchronization — torchrl 0.12 documentation. PyTorch.
Add Optional ZeRO-3 Weight Gathering for GRPO in Sequence Generation. Pull Request #2667 · huggingface/trl. Veröffentlicht am 27. Januar 2025.