Gemma Modelle von Google: Ein Meilenstein in der Welt der großen Sprachmodelle

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In der Welt der künstlichen Intelligenz (KI) sind große Sprachmodelle (engl. "Large Language Models", LLMs) aufgrund ihrer vielfältigen Anwendungsmöglichkeiten und ihrer Fähigkeit, menschenähnliche Texte zu generieren, ein heißes Thema. Eines der jüngsten und bemerkenswertesten Modelle in diesem Bereich ist Gemma – eine Familie von LLMs, die von Google entwickelt wurde und in verschiedenen Größen und Konfigurationen verfügbar ist. Diese Modelle sind Teil einer wachsenden Gemeinschaft von Open-Source-KI-Modellen und werden auf Plattformen wie Hugging Face Spaces vorgestellt und getestet. In diesem Artikel werden wir einen Blick auf die neuesten Entwicklungen rund um die Gemma-Modelle werfen und ihre Positionierung im Vergleich zu anderen Modellen in der Hugging Face Community diskutieren.

Die Gemma-Modelle wurden als Teil von Googles Engagement für Open-Source-KI eingeführt und sind in zwei Konfigurationen verfügbar: als 7B-Version für effiziente Bereitstellung und Entwicklung auf Verbraucher-GPUs und TPUs sowie als 2B-Version für CPU- und Geräteanwendungen. Beide Varianten sind sowohl in Basis- als auch in anweisungsoptimierten Versionen erhältlich. Die anweisungsoptimierten Modelle, auch "instruction-tuned" genannt, sind darauf trainiert, Anweisungen des Benutzers besser zu verstehen und darauf zu reagieren, was sie insbesondere für interaktive Anwendungen interessant macht.

Die Integration der Gemma-Modelle in das Hugging Face-Ökosystem wurde in enger Zusammenarbeit mit Google sichergestellt. Benutzer können auf die vier Open-Access-Modelle (zwei Basismodelle und zwei feinabgestimmte) im Hugging Face Hub zugreifen. Zu den herausragenden Eigenschaften und Integrationen zählen die Verfügbarkeit der Modelle auf dem Hub mit ihren Modellkarten und Lizenzen, die Integration in die 🤗 Transformers-Bibliothek, die Integration mit Google Cloud sowie mit Inference Endpoints und ein Beispiel für das Feintuning von Gemma auf einer einzelnen GPU mit 🤗 TRL.

Gemma-Modelle sind in der Lage, auf einer Vielzahl von Verbraucherhardware zu laufen, sogar ohne Quantisierung, und besitzen eine Kontextlänge von 8K Token. Die Modellperformance wird auf dem LLM Leaderboard bewertet, einem Benchmark, der besonders nützlich ist, um die Qualität von vortrainierten Modellen zu messen. Gemma 7B ist ein starkes Modell und vergleichbar mit den besten Modellen im 7B-Gewichtsbereich, einschließlich Mistral 7B. Gemma 2B ist aufgrund seiner Größe interessant, auch wenn es auf der Leaderboard nicht so hoch wie die besten Modelle ähnlicher Größe punktet.

Die Gemma-Modelle können auch mit 🤗 Transformers verwendet werden, wodurch alle Tools innerhalb des Hugging Face-Ökosystems zugänglich sind, wie Trainings- und Inferenzskripte und Beispiele, Safe-File-Format (safetensors), Integrationen mit Tools wie bitsandbytes (4-Bit-Quantisierung), PEFT (Parameter Efficient Fine-Tuning) und Flash Attention 2. Zusätzlich sind die Gemma-Modelle kompatibel mit torch.compile() mit CUDA-Graphen, was ihnen eine etwa 4-fache Geschwindigkeitssteigerung bei der Inferenzzeit gibt.

KI-Enthusiasten und Entwickler können auch mit den Gemma Instruct-Modellen im Hugging Chat chatten und sich so selbst ein Bild von den Fähigkeiten dieser Modelle machen. Die Basisversionen der Modelle haben kein spezifisches Prompt-Format und können für die Fortsetzung einer Eingabesequenz mit einer plausiblen Fortsetzung oder für Zero-Shot/Few-Shot-Inferenz verwendet werden. Sie dienen auch als Grundlage für das Feintuning auf eigenen Anwendungsfällen.

Die technischen Berichte der Modelle enthalten Informationen über die Trainings- und Evaluierungsprozesse der Basismodelle, jedoch keine ausführlichen Details zur Zusammensetzung und Vorverarbeitung der Daten. Bekannt ist, dass sie mit Daten aus verschiedenen Quellen, hauptsächlich Webdokumenten, Code und mathematischen Texten, trainiert wurden. Die Daten wurden gefiltert, um Inhalte wie CSAM und PII sowie Lizenzprüfungen zu entfernen. Für die Gemma Instruct-Modelle wurden keine Details zu den Feintuning-Datensätzen oder den damit verbundenen Hyperparametern geteilt.

Gemma kann auf Google Cloud über Vertex AI oder Google Kubernetes Engine (GKE) bereitgestellt und trainiert werden, wobei Text Generation Inference und Transformers zum Einsatz kommen. Die Modelle können auch über die Inference Endpoints von Hugging Face bereitgestellt werden, die Text Generation Inference als Backend verwenden. Text Generation Inference ist ein produktionsbereiter Inferenzcontainer, der von Hugging Face entwickelt wurde, um die einfache Bereitstellung großer Sprachmodelle zu ermöglichen. Es bietet Funktionen wie kontinuierliches Batching, Token-Streaming, Tensorparallelismus für schnelle Inferenz auf mehreren GPUs und produktionsbereites Logging und Tracing.

Die Gemma-Modelle von Google wurden kürzlich in den Hugging Face Spaces vorgestellt, wo sie gegen andere Modelle wie Mistral, TinyLlama und andere HF-Modelle getestet werden können. Spaces ist eine Plattform für die KI-Community, die es ermöglicht, beeindruckende maschinelle Lernanwendungen zu entdecken und zu erstellen.

Zusammenfassend lässt sich sagen, dass die Gemma-Modelle von Google eine spannende Ergänzung zum Ökosystem der KI-Modelle darstellen. Ihre Offenheit und Flexibilität ermöglichen es Entwicklern und Forschern, an der Spitze der KI-Technologie zu arbeiten, während die breite Verfügbarkeit und die Integration in etablierte Plattformen wie Hugging Face die Demokratisierung von Zugang und Innovation in diesem Bereich vorantreiben.

Quellen:
- Hugging Face Spaces: https://huggingface.co/spaces
- Hugging Face Blog über Gemma: https://huggingface.co/blog/gemma
- Twitterbeitrag von LastMile: https://twitter.com/LastMile/status/1760344587535552785
- Hugging Face Modellseite für Gemma: https://huggingface.co/google/gemma-2b-it

Was bedeutet das?

No items found.