Hugging Face präsentiert neue Storage Buckets für optimierte Datenverwaltung im maschinellen Lernen

Kategorien:

No items found.

Freigegeben:

March 13, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face hat "Storage Buckets" eingeführt, eine neue Form der Objektspeicherung, die speziell für maschinelles Lernen (ML) optimiert ist.
Diese Buckets sind als mutable, nicht-versionierte Speicher konzipiert und nutzen die Xet-Technologie zur Deduplizierung.
Sie bieten eine Alternative zu Git-basierten Repositories für temporäre oder sich häufig ändernde ML-Artefakte wie Trainings-Checkpoints, Logs und Zwischenergebnisse.
Die neue Lösung ermöglicht schnelle Uploads und Downloads, unterstützt Streaming in Trainingsprozesse und bietet kosteneffiziente Speicherung durch Deduplizierung.
Integrationen über CLI, Python SDK und fsspec erleichtern den Workflow für Entwickler und Unternehmen.

Die Landschaft des maschinellen Lernens (ML) ist durch einen stetig wachsenden Bedarf an effizienter Datenverwaltung gekennzeichnet. Insbesondere die Speicherung und der Austausch großer Mengen von ML-Artefakten stellen Entwickler und Unternehmen vor Herausforderungen. In diesem Kontext hat Hugging Face, eine zentrale Plattform für die ML-Community, eine neue Lösung vorgestellt: die "Storage Buckets". Diese Neuerung, die als mutable, S3-ähnliche Objektspeicherung auf dem Hugging Face Hub konzipiert ist, zielt darauf ab, Engpässe in ML-Workflows zu adressieren und die Handhabung von Daten zu optimieren.

Die Herausforderung der Datenverwaltung im ML-Bereich

Traditionell wurden Modelle und Datensätze auf dem Hugging Face Hub in Git-basierten Repositories gespeichert. Während dieser Ansatz für die Versionierung und Veröffentlichung finaler Artefakte geeignet ist, stößt er bei der Verwaltung von Zwischenergebnissen und sich schnell ändernden Daten an seine Grenzen. ML-Workflows generieren eine konstante Flut von temporären Dateien – darunter Trainings-Checkpoints, Optimierer-Zustände, verarbeitete Datensatz-Shards, Logs und Traces. Diese Daten zeichnen sich durch hohe Änderungsfrequenzen, gleichzeitige Schreibzugriffe durch Trainingscluster und ein enormes Volumen aus, Eigenschaften, die mit den Beschränkungen von Git nicht immer effizient zu handhaben sind.

Probleme, die sich hierbei ergeben, umfassen unter anderem:

Größenbeschränkungen: Git ist nicht für sehr große Dateien oder Repositories konzipiert.
Performance: Häufige Commits und die Verwaltung der Historie großer Binärdateien können den Workflow verlangsamen.
Komplexität: Das Versionieren von sich ständig ändernden Artefakten wie Logs ist oft unnötig und aufwendig.

Hugging Face Storage Buckets: Eine neue Lösung

Als Reaktion auf diese Herausforderungen hat Hugging Face die Storage Buckets entwickelt. Diese stellen eine dedizierte Speicherlösung dar, die speziell auf die Anforderungen von ML-Workflows zugeschnitten ist. Im Gegensatz zu den Git-basierten Repositories sind Buckets:

Mutable und nicht-versioniert: Sie ermöglichen das freie Schreiben, Überschreiben und Löschen von Objekten ohne die Notwendigkeit von Commits oder einer umfassenden Historie. Dies ist ideal für Artefakte, die keinen Audit-Trail benötigen, sondern schnelle und kostengünstige Speicherung erfordern.
Xet-basiert: Die zugrunde liegende Xet-Technologie nutzt chunk-basierte Deduplizierung. Das bedeutet, dass Dateien in Inhalts-definierte Chunks zerlegt werden, und identische Chunks nur einmal gespeichert werden. Dies führt zu erheblichen Einsparungen bei Speicherplatz und Bandbreite, insbesondere bei ML-Artefakten, die oft hohe Ähnlichkeiten zwischen aufeinanderfolgenden Versionen aufweisen (z.B. Trainings-Checkpoints).

Technische Merkmale und Vorteile

Die Storage Buckets bieten eine Reihe von Funktionen, die den Umgang mit großen ML-Datenmengen vereinfachen:

Hohe Durchsatzraten: Optimiert für schnelle Schreib- und Lesezugriffe, was für das Streaming von Daten in Trainings-Loops entscheidend ist.
Kosteneffizienz: Durch die Xet-Deduplizierung werden die effektiven Speicherkosten reduziert. Hugging Face bietet wettbewerbsfähige Preise, die bei hohem Volumen deutlich unter denen traditioneller Cloud-Speicheranbieter liegen können.
Vorwärmen von Daten ("Pre-warming"): Diese Funktion ermöglicht es, oft genutzte Daten in Cloud-Regionen, in denen Rechenressourcen betrieben werden, vorab zu cachen. Dies reduziert Latenzzeiten und beschleunigt verteilte Trainingspipelines erheblich.
Integrationsmöglichkeiten: Die Buckets sind nahtlos in das Hugging Face Ökosystem integriert und können über die Kommandozeile (CLI), das Python SDK (huggingface_hub) und fsspec angesprochen werden. Dies ermöglicht eine einfache Einbindung in bestehende ML-Pipelines und Tools wie Pandas, Polars und Dask.

Anwendungsfälle in der Praxis

Die Storage Buckets sind für verschiedene Szenarien im ML-Workflow konzipiert:

Speicherung von Trainings-Checkpoints: Während des Trainings erstellte Modell-Checkpoints können schnell gespeichert und bei Bedarf wieder abgerufen werden.
Verwaltung von Datensatz-Shards: Iterative Verarbeitung großer Datensätze und Speicherung der Zwischenergebnisse.
Agent-Speicher: KI-Agenten benötigen oft persistenten Speicher für ihre Traces, Erinnerungen und Wissensgraphen. Buckets bieten hierfür eine schnelle und zugängliche Lösung.
Assemblierung von Trainingsdaten: Das Zusammenführen von Rohdaten aus verschiedenen Quellen in einem zentralen Bucket, ohne die Einschränkungen von Git.

Ein Blick in die Zukunft

Hugging Face plant, die Integration zwischen den Buckets und den versionierten Repositories weiter zu vertiefen. Ziel ist es, einen nahtlosen Workflow zu ermöglichen, bei dem Artefakte zunächst in den Buckets entwickelt und bearbeitet werden, bevor finale, stabile Versionen in die versionierten Modell- oder Datensatz-Repos überführt werden. Dies würde eine durchgängige Hub-native Workflow-Erfahrung schaffen, die sowohl die Flexibilität der Arbeitsphase als auch die Stabilität der Veröffentlichungsphase gewährleistet.

Die Einführung der Storage Buckets durch Hugging Face stellt einen wichtigen Schritt zur Optimierung der Dateninfrastruktur für maschinelles Lernen dar. Durch die Kombination von mutierbarem, hochperformantem Speicher mit intelligenter Deduplizierung und nahtloser Integration in das bestehende Ökosystem wird die Entwicklung und Skalierung von ML-Anwendungen weiter vereinfacht. Unternehmen und Entwickler können somit effizienter mit ihren Daten umgehen, Kosten senken und ihre ML-Pipelines beschleunigen.

Bibliography

- Hugging Face Blog. (2026, March 10). *Introducing Storage Buckets on the Hugging Face Hub*. Retrieved from Hugging Face: https://huggingface.co/blog/storage-buckets - Hugging Face. (n.d.). *Storage*. Retrieved from Hugging Face: https://huggingface.co/storage - Hugging Face. (n.d.). *Buckets*. Retrieved from Hugging Face Hub Documentation: https://huggingface.co/docs/huggingface_hub/guides/buckets - Chaumond, J. (2026, March 11). *The HF team f-ing COOKED 😮 Today, we are launching a S3 ...*. Retrieved from LinkedIn: https://www.linkedin.com/posts/julienchaumond_the-hf-team-f-ing-cooked-today-we-are-activity-7437175730662309889-z_Wx - Zhang, S. (2026, March 10). *Hugging Face Launches Storage Buckets for ML Artifacts | Awesome Agents*. Retrieved from Awesome Agents: https://awesomeagents.ai/news/huggingface-storage-buckets-mutable-object-storage/ - lhoestq. (2026, February 13). *Basic Bucket API support in HfFileSystem · Pull Request #3807 · huggingface/huggingface_hub*. Retrieved from GitHub: https://github.com/huggingface/huggingface_hub/pull/3807 - adithya-s-k. (2026, January 15). *Question: Is there a faster way to push_to_hub for large image datasets? · Issue #7946 · huggingface/datasets*. Retrieved from GitHub: https://github.com/huggingface/datasets/issues/7946 - sleepingcat4. (2024, October 16). *Resolving pain-points for uploading large files and folders · Issue #2612 · huggingface/huggingface_hub*. Retrieved from GitHub: https://github.com/huggingface/huggingface_hub/issues/2612 - sleepingcat4. (2024, August 13). *[Question] Uploadibg datset on HF through command-line CLI for hf_transfer · Issue #47 · huggingface/hf_transfer*. Retrieved from GitHub: https://github.com/huggingface/hf_transfer/issues/47 - lhoestq. (2022, November 22). *Support cloud storage in load_dataset · Issue #5281 · huggingface/datasets*. Retrieved from GitHub: https://github.com/huggingface/datasets/issues/5281