Optimierung der Datenverarbeitung durch Kooperation von Hugging Face und Databricks

Kategorien:

No items found.

Freigegeben:

April 15, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Hugging Face und Databricks vertiefen ihre Zusammenarbeit, um die Effizienz bei der Verarbeitung und Nutzung großer KI-Datensätze zu steigern.
Die Integration von Apache Spark™ und Hugging Face ermöglicht eine direkte Konvertierung von Spark DataFrames in Hugging Face Datasets, was den Datentransfer beschleunigt und Ressourcen spart.
Einführung von "Storage Buckets" auf dem Hugging Face Hub bietet eine S3-ähnliche Objektspeicherung für mutable ML-Artefakte, ergänzend zu den versionierten Repositories.
Die "Storage Buckets" basieren auf der Xet-Technologie, die eine effiziente Deduplizierung und schnellere Datenübertragungen für ML-Workloads ermöglicht.
Durch diese Neuerungen wird die End-to-End-Pipeline für das Training und Tuning von Large Language Models (LLMs) optimiert, was zu erheblichen Zeit- und Kosteneinsparungen führen kann.

Die Landschaft der Künstlichen Intelligenz (KI) ist geprägt von rasanten Entwicklungen und der Notwendigkeit, immer größere und komplexere Datensätze effizient zu verwalten und zu verarbeiten. In diesem Kontext haben Hugging Face, eine führende Plattform für KI-Modelle und Datensätze, und Databricks, ein Unternehmen spezialisiert auf Daten- und KI-Plattformen, ihre Zusammenarbeit intensiviert. Diese Kooperation zielt darauf ab, die Integration zwischen Apache Spark™ und dem Hugging Face Hub zu optimieren und neue Möglichkeiten für eine beschleunigte Datenverarbeitung und -speicherung zu eröffnen.

Optimierte Integration von Spark und Hugging Face Datasets

Ein zentraler Aspekt der jüngsten Entwicklungen ist die verbesserte Unterstützung von Apache Spark™ für Hugging Face Datasets. Apache Spark™ ist bekannt für seine Fähigkeiten in der Echtzeit- und Großdatenverarbeitung in verteilten Umgebungen. Bislang war der Transfer von Daten zwischen einem Spark DataFrame und einem Hugging Face Dataset ein mehrstufiger Prozess, der oft das Schreiben von Daten in Parquet-Dateien und das anschließende erneute Laden in das Hugging Face Dataset erforderte. Dieser Ansatz war zeitaufwendig und ressourcenintensiv.

Mit der Einführung der neuen "from_spark"-Funktion in den Hugging Face Datasets wird dieser Prozess nun erheblich vereinfacht. Anwender können Spark DataFrames direkt in Hugging Face Datasets konvertieren. Dies eliminiert den Zwischenschritt des Speicherns auf der Festplatte und des erneuten Ladens, was zu einer deutlichen Beschleunigung führt. Ein Beispiel verdeutlicht dies: Die Verarbeitung eines 16 GB großen Datensatzes, die zuvor etwa 22 Minuten dauerte, kann nun in nur 12 Minuten abgeschlossen werden – eine Effizienzsteigerung von über 40 Prozent. Diese Optimierung resultiert aus der Kombination der Kosteneffizienz und Geschwindigkeit von Spark mit den Optimierungen von Hugging Face Datasets, wie Memory-Mapping und intelligentem Caching.

Einführung von Hugging Face Storage Buckets

Neben der Spark-Integration stellt Hugging Face auch eine neue Funktion namens "Storage Buckets" vor. Diese Buckets sind als eine S3-ähnliche Objektspeicherung konzipiert und ergänzen die bestehenden, versionierten Repositories für Modelle und Datensätze auf dem Hugging Face Hub. Während traditionelle Repositories ideal für die Veröffentlichung finaler Artefakte sind, entstehen im maschinellen Lernprozess kontinuierlich temporäre und häufig wechselnde Dateien wie Checkpoints, Optimizer-Zustände, verarbeitete Shards und Logs. Diese Dateien benötigen in der Regel keine detaillierte Versionskontrolle, erfordern aber eine schnelle und flexible Speicherung.

Die "Storage Buckets" sind speziell für diese Anforderungen entwickelt worden. Sie bieten eine mutable (veränderliche) Speicherung, die direkt über den Hub, per Python-Skript oder über die hf-CLI verwaltet werden kann. Ein wesentliches Merkmal dieser Buckets ist ihre Basierung auf der Xet-Technologie von Hugging Face. Xet ist ein Chunk-basiertes Speicher-Backend, das Inhalte in kleinere Blöcke zerlegt und eine Deduplizierung über diese Blöcke hinweg ermöglicht. Dies bedeutet, dass bei der Speicherung von Artefakten, die sich nur geringfügig voneinander unterscheiden (z.B. aufeinanderfolgende Modell-Checkpoints), nur die geänderten Chunks übertragen und gespeichert werden müssen. Dies führt zu:

Weniger Bandbreitenverbrauch: Da nur neue oder geänderte Daten übertragen werden.
Schnellere Übertragungen: Durch reduzierte Datenmengen.
Effizientere Speicherung: Durch Deduplizierung wird der benötigte Speicherplatz minimiert.

Für Enterprise-Kunden hat dies auch direkte Auswirkungen auf die Kosten, da die Abrechnung auf der Grundlage des deduplizierten Speichers erfolgt.

Pre-Warming für optimale Performance

Eine weitere Funktion der "Storage Buckets" ist das "Pre-Warming". Da die Buckets global auf dem Hub gehostet werden, kann der Standort der Daten die Leistung bei verteilten Trainings und großen Pipelines beeinflussen. Pre-Warming ermöglicht es, "heiße" Daten näher an den Cloud-Anbieter und die Region zu bringen, in der die Rechenressourcen laufen. Dies stellt sicher, dass die Daten bereits verfügbar sind, wenn die Jobs starten, was besonders für Trainingscluster mit hohem Datenzugriffsbedarf oder für Multi-Region-Setups vorteilhaft ist.

Praktische Anwendung und Zukunftsblicke

Die neuen Funktionen sind darauf ausgelegt, die End-to-End-Pipeline für KI-Entwickler zu optimieren. Von der effizienten Datenvorbereitung mit Spark bis zur flexiblen Speicherung von ML-Artefakten in "Storage Buckets" wird der gesamte Workflow auf dem Hugging Face Hub zusammengeführt. Dies ermöglicht es Unternehmen, ihre wertvollen Daten effektiver zu nutzen, um die Leistung ihrer KI-Modelle zu verbessern.

Die Integration von Spark und Hugging Face, kombiniert mit den "Storage Buckets", bietet eine robuste Lösung für die Herausforderungen der großskaligen Datenverarbeitung in der KI. Sie trägt dazu bei, den Prozess des Trainings und Fein-Tunings von Large Language Models (LLMs) zu beschleunigen und die damit verbundenen Kosten zu senken. Die fortgesetzte Open-Source-Unterstützung durch Databricks und Hugging Face deutet auf weitere zukünftige Entwicklungen hin, wie zum Beispiel die geplante Streaming-Unterstützung durch Spark, um das Laden von Datensätzen noch weiter zu beschleunigen.

Diese Entwicklungen unterstreichen die Bedeutung kollaborativer Bemühungen in der KI-Community, um leistungsfähigere und zugänglichere Tools für die Entwicklung fortschrittlicher KI-Anwendungen bereitzustellen.

Bibliography: - Databricks Blog: "Databricks ❤️ Hugging Face: up to 40% faster training and tuning of Large Language Models" (Published April 26, 2023) - Hugging Face Blog: "Introducing Storage Buckets on the Hugging Face Hub" (Published March 10, 2026) - Hugging Face Docs: "Spark" (datasets-spark documentation) - GitHub: huggingface/datasets commit "Read (and write) from HF Storage Buckets: load raw data, process and save to Dataset Repos"