PaliGemma Googles neuestes Vision-Sprach-Modell zur Überbrückung visueller und textueller Daten

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Die künstliche Intelligenz hat sich in den letzten Jahren rasant entwickelt und ist zu einem integralen Bestandteil vieler Industriebereiche geworden. Eine der aufregendsten Entwicklungen in diesem Bereich sind die sogenannten Vision-Sprach-Modelle (Vision-Language Models, VLMs), die die Kluft zwischen visuellen und textuellen Daten überbrücken.

Google, einer der führenden Akteure im Bereich der KI, hat kürzlich PaliGemma vorgestellt, ein neues Mitglied in der Familie der Vision-Sprach-Modelle. Dieses Modell ist inspiriert von PaLI-3 und basiert auf offenen Komponenten wie dem SigLIP-Vision-Modell und dem Gemma-Sprachmodell. PaliGemma kann sowohl Bilder als auch Text als Eingabe nehmen und Text als Ausgabe generieren, wodurch es eine Vielzahl von Anwendungen in verschiedenen Sprachen unterstützt.

PaliGemma ist als transferfähiges Modell für eine breite Palette von Vision-Sprach-Aufgaben konzipiert, darunter Bild- und Kurzvideo-Beschreibung, visuelle Fragebeantwortung, Textlesen, Objekterkennung und Objektsegmentierung. Zu den wichtigsten Vorteilen dieses Modells gehören multimodales Verständnis, ein vielseitiges Basismodell für das Feintuning bei einer Vielzahl von Vision-Sprach-Aufgaben sowie die sofortige Forschungsnutzung mit einem auf eine Mischung von Aufgaben feinabgestimmten Kontrollpunkt.

Die Architektur von PaliGemma besteht aus einem Transformer-Decoder und einem Vision-Transformer-Bildencoder mit insgesamt 2,9 Milliarden Parametern. Der Textdecoder ist von Gemma-2B abgeleitet, während der Bildencoder von SigLIP-So400m/14 stammt. PaliGemma wurde nach den Rezepten von PaLI-3 trainiert.

Die Vorabtrainierung von PaliGemma umfasste eine Mischung aus Datenmengen, darunter WebLI, eine webbasierte, mehrsprachige Bild-Text-Datenbank, die aus dem öffentlichen Web aufgebaut wurde. Weitere verwendete Datensätze sind CC3M-35L, VQ²A-CC3M-35L/VQG-CC3M-35L und OpenImages. Die Vielfalt dieser Datensätze trägt dazu bei, dass das Modell vielseitige Fähigkeiten im Bereich des visuellen semantischen Verständnisses, der Objektlokalisierung und des visuell-situativen Textverständnisses erwirbt.

Um die Transferierbarkeit von PaliGemma auf eine breite Palette von akademischen Aufgaben zu überprüfen, wurden die vortrainierten Modelle auf jeder Aufgabe feinabgestimmt. Zusätzlich wurde das Mix-Modell mit einer Mischung aus den Transferaufgaben trainiert. Die Ergebnisse wurden auf verschiedenen Auflösungen berichtet, um einen Eindruck davon zu geben, welche Aufgaben von einer erhöhten Auflösung profitieren könnten.

Bei der Entwicklung von PaliGemma wurden auch Verantwortungsfilter angewandt, um sicherzustellen, dass auf reine Daten trainiert wird. Dazu gehören Filterungen pornografischer Bilder und die Identifizierung und Entfernung von Bildern, die mit unsicherem oder beleidigendem Text gepaart sind.

Die Herausforderungen der Ethik und Sicherheit sind auch bei PaliGemma von Bedeutung. Die bekannten Risiken umfassen die Verstärkung von Vorurteilen und die Generierung schädlicher Inhalte. Es wird empfohlen, kontinuierliches Monitoring durchzuführen und bei der Modellnutzung entsprechende Sicherheitsvorkehrungen zu ergreifen.

PaliGemma ist über verschiedene Plattformen und Ressourcen verfügbar, darunter kostenlose Optionen wie Kaggle und Colab-Notebooks. Akademische Forscher können sich um Google Cloud-Guthaben bewerben, um ihre Arbeit zu unterstützen.

Die Einführung von PaliGemma und die Aussicht auf Gemma 2 zeigt das Engagement von Google, KI-Modelle zu entwickeln, die nicht nur leistungsstark und vielseitig sind, sondern auch für ein breites Spektrum von Entwicklern und Forschern zugänglich sind. Mit diesen Entwicklungen bleibt Google an der Spitze der Innovation im Bereich der künstlichen Intelligenz.

Quellen:
- Google AI Blog
- Google Developers Site Policies
- Google Cloud Vertex AI
- Kaggle
- LinkedIn Beiträge von Merve Noyan und anderen KI-Experten
- Medium Artikel über PaliGemma
- Analytics India Mag
- VentureBeat

Was bedeutet das?