SigLIP 2: Neue Entwicklungen in der mehrsprachigen Bild-Text-Enkodierung

Kategorien:
No items found.
Freigegeben:
February 21, 2025

Artikel jetzt als Podcast anhören

SigLIP 2: Fortschrittliche mehrsprachige Bild-Text-Enkodierung

Bild-Enkoder spielen eine zentrale Rolle in der Künstlichen Intelligenz. Sie wandeln Bilder in maschinenlesbare Repräsentationen um, die für Aufgaben wie Klassifizierung, Objekterkennung und Bildsegmentierung verwendet werden. Die stetige Verbesserung dieser Enkoder ist ein wichtiger Forschungsschwerpunkt, mit dem Ziel, dichtere, lokalitätsbewusstere und semantisch reichhaltigere Repräsentationen zu erzeugen.

Frühe Modelle wie CLIP und ALIGN brachten einen Durchbruch, indem sie Bild- und Text-Enkoder durch gemeinsames Training aufeinander abstimmten. SigLIP verfeinerte diesen Ansatz durch die Verwendung eines Sigmoid-Loss anstelle des kontrastiven Loss von CLIP. SigLIP 2 baut auf diesem Fundament auf und führt weitere Optimierungen ein, um die Leistung der Enkoder zu steigern.

Verbesserte Lokalisierung und Semantik

SigLIP 2 erweitert das Training um einen Dekoder mit drei Zielen: die Vorhersage einer ganzheitlichen Bildbeschreibung, die Vorhersage von Bounding-Box-Koordinaten anhand von Beschreibungen bestimmter Bildregionen und die Vorhersage regionsspezifischer Beschreibungen anhand von Bounding-Box-Koordinaten. Dieser Dekoder liefert dem Bild-Enkoder zusätzliche Informationen über die räumliche Anordnung von Objekten im Bild.

Um die fein abgestimmte lokale Semantik der Bildrepräsentation zu verbessern, verwendet SigLIP 2 Selbstdestillation mit Global-Local Loss und Masked Prediction Loss. Beim Global-Local Loss erhält das Schülernetzwerk eine teilweise Ansicht des Bildes und lernt, die Repräsentation des Lehrernetzwerks, das das gesamte Bild sieht, zu reproduzieren. Beim Masked Prediction Loss werden 50% der eingebetteten Bild-Patches maskiert, und das Schülernetzwerk muss die Merkmale des Lehrernetzwerks an diesen maskierten Stellen vorhersagen.

Flexible Auflösung

Die Empfindlichkeit von Bildmodellen gegenüber unterschiedlichen Auflösungen und Seitenverhältnissen wird in SigLIP 2 durch zwei Ansätze adressiert. Die Variante mit fester Auflösung verwendet Checkpoints aus dem Training und passt die Positions- und Patch-Einbettungen an die gewünschte Auflösung an. Die dynamische Auflösungsvariante (naflex) hingegen ermöglicht die Verarbeitung von Bildern mit unterschiedlichen Sequenzlängen und nativen Seitenverhältnissen. Dies ist besonders nützlich für Aufgaben wie OCR und Dokumentenverständnis.

Anwendung und Leistung

SigLIP 2 bietet eine einfache Integration in bestehende Workflows. Die Modelle können direkt für Zero-Shot-Klassifizierung und die Enkodierung von Bildern für nachgelagerte Aufgaben verwendet werden. Die verfügbaren Modelle decken verschiedene Größen und Architekturen ab, von der Base-Variante mit 86 Millionen Parametern bis zur Giant-Variante mit 1 Milliarde Parametern.

Evaluierungen zeigen, dass SigLIP 2 seinen Vorgänger in verschiedenen Bereichen übertrifft, darunter Zero-Shot-Klassifizierung, Bild-Text-Retrieval und die Extraktion visueller Repräsentationen für Vision-Language Models (VLMs). Die verbesserte Leistung eröffnet neue Möglichkeiten für die Entwicklung von VLMs, wie beispielsweise PaliGemma 2, das SigLIP mit dem Gemma 2 LLM kombiniert.

Fazit

SigLIP 2 repräsentiert einen signifikanten Fortschritt in der mehrsprachigen Bild-Text-Enkodierung. Durch die Kombination innovativer Trainingsziele und flexibler Architekturen bietet SigLIP 2 eine leistungsstarke Grundlage für eine Vielzahl von Anwendungen im Bereich der Künstlichen Intelligenz. Die offenen Modelle stehen der Community zur Verfügung und ermöglichen weitere Forschung und Entwicklung in diesem dynamischen Feld.

Bibliographie: https://huggingface.co/blog/siglip2 https://arxiv.org/abs/2502.14786 https://arxiv.org/pdf/2502.14786? https://twitter.com/gm8xx8/status/1892777807408668739 https://github.com/gokayfem/Awesome-VLM-Architectures/blob/main/README.md https://www.ultralytics.com/blog/google-paligemma-2-insights-advanced-vlm-models https://aiintransit.medium.com/paligemma-2-revolutionizing-vision-language-models-7c435c74a3f9 https://huggingface.co/blog https://x.com/arankomatsuzaki/status/1892777324715634971 https://github.com/google-research/big_vision
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.