PaliGemma Ein neuer Meilenstein in der Entwicklung von Vision-Language Modellen durch Google

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der Welt der Künstlichen Intelligenz (KI) gibt es ständige Fortschritte und Entwicklungen. Einer der neuesten Durchbrüche ist die Einführung von PaliGemma, einem innovativen Ansatz für sprachbildende Modelle (Vision-Language Models, VLMs), entwickelt von Google. PaliGemma ist darauf ausgelegt, Bilder und Text zu verarbeiten und als Ergebnis Text auszugeben. Es handelt sich um eine Familie von Modellen mit unterschiedlichen Konfigurationen, die für verschiedene Anwendungen und Auflösungen optimiert sind.

Das PaliGemma-Modell ist eine Kombination aus SigLIP, einem modernen Bildverarbeitungsmodell, und Gemma-2B, einem reinen Textdekodermodell. SigLIP besteht aus Bild- und Textcodierern, die gemeinsam trainiert werden, ähnlich dem bekannten CLIP-Modell. PaliGemma wurde auf einer Mischung aus Bild-Text-Daten vortrainiert und kann dann problemlos auf nachgelagerte Aufgaben wie Bildbeschriftung oder Referenzsegmentierung feinabgestimmt werden.

Google hat drei Arten von Modellen veröffentlicht: die vortrainierten (pretrained, pt) Modelle, die Mix-Modelle und die feinabgestimmten (fine-tuned, ft) Modelle. Jedes dieser Modelle ist in verschiedenen Auflösungen (224x224, 448x448, 896x896) und Präzisionen (bfloat16, float16 und float32) verfügbar und auf dem Hugging Face Hub mit passenden Modellkarten und Integration in die Transformers-Bibliothek zugänglich.

PaliGemma ist nicht für den Einsatz in Konversationen gedacht, sondern funktioniert am besten, wenn es für eine spezifische Anwendung feinabgestimmt wird. Durch die Vorgabe von Aufgabenpräfixen wie "detect" oder "segment" können Sie das Modell für die gewünschte Aufgabe konfigurieren.

Die PT-Modelle sind vortrainierte Modelle, die auf nachgelagerte Aufgaben feinabgestimmt werden können. Die Mix-Modelle sind PT-Modelle, die auf eine Mischung aus Aufgaben feinabgestimmt wurden und sich für allgemeine Inferenzaufgaben mit Freitext-Eingabeaufforderungen eignen, während die FT-Modelle auf verschiedene akademische Benchmarks spezialisiert sind und für Forschungszwecke bestimmt sind.

Einige der Fähigkeiten von PaliGemma umfassen:

- Bildbeschriftung: PaliGemma kann Bilder beschriften, wenn es dazu aufgefordert wird.
- Visuelle Fragebeantwortung: Das Modell kann Fragen zu einem Bild beantworten.
- Erkennung: PaliGemma kann Entitäten in einem Bild erkennen und die Koordinaten für die Begrenzungsrahmen ausgeben.
- Referenzierungsausdruckssegmentierung: Das Modell kann auch Entitäten in einem Bild segmentieren, wenn es dazu aufgefordert wird.
- Dokumentenverständnis: PaliGemma verfügt über hervorragende Fähigkeiten zum Verständnis und zur Argumentation von Dokumenten.

Zur Demonstration der Fähigkeiten von PaliGemma kann die Community die Mix-Modelle verwenden, die auf einer Mischung aus Aufgaben feinabgestimmt wurden. Diese Modelle sind für interaktive Tests gedacht und ermöglichen es, verschiedene Kapazitäten von PaliGemma auszuprobieren.

Für den Zugriff auf die PaliGemma-Modelle müssen die Nutzer die Nutzungsbedingungen von Gemma akzeptieren. Nach der Authentifizierung kann das Modell verwendet werden. Die Einbindung in die Transformers-Bibliothek ermöglicht es auch, die PaliGemmaForConditionalGeneration-Klasse zu verwenden, um mit den veröffentlichten Modellen zu arbeiten. Benutzer können die Eingabeaufforderung und das Bild mit dem integrierten Prozessor vorverarbeiten und dann die vorverarbeiteten Eingaben zur Generierung übergeben.

PaliGemma wurde mit modernster TPU-Hardware (TPUv5e) trainiert und nutzt JAX, Flax, TFDS und big_vision für das Training und die Architektur des Modells. Die Forschergemeinschaft kann das Modell für eine Vielzahl akademischer Aufgaben feinabstimmen und die Ergebnisse auf verschiedenen Auflösungen melden, um einen Eindruck davon zu bekommen, welche Aufgaben von einer erhöhten Auflösung profitieren könnten.

Die Veröffentlichung von PaliGemma durch Google stellt einen bedeutenden Fortschritt im Bereich der KI dar und bietet der Forschungsgemeinschaft ein vielseitiges Werkzeug für vision-sprachliche Aufgaben. Mit der Verfügbarkeit auf dem Hugging Face Hub und der nahtlosen Integration in die Transformers-Bibliothek ist PaliGemma für eine breite Palette von Anwendungen und Forschungszwecken zugänglich.

Quellen:
- Hugging Face Blog: "PaliGemma – Googles neues Cutting-Edge Open Vision Language Model"
- Hugging Face Hub: PaliGemma-Modellkarten und -Sammlungen
- Gradio Guide: "Using Hugging Face Integrations"
- LinkedIn-Posts von Merve Noyan
- Twitter-Beiträge von Merve Noyan
- Hugging Face Dokumentation: "Transformers Hauptklassenmodell"