xGen MM BLIP 3 Eine neue Ära offener großer multimodaler Modelle

Kategorien:

No items found.

Freigegeben:

August 19, 2024

Einführung in xGen-MM (BLIP-3): Eine Familie von Open Large Multimodal Models

Einführung

In den letzten Jahren hat das Interesse an großen multimodalen Modellen (Large Multimodal Models, LMMs) erheblich zugenommen. Diese Modelle haben das Potenzial, eine Vielzahl von Aufgaben zu bewältigen, die sowohl visuelle als auch sprachliche Fähigkeiten erfordern. Die jüngsten Fortschritte in diesem Bereich haben sowohl proprietäre als auch Open-Source-Modelle hervorgebracht. Ein bemerkenswerter Beitrag zu dieser Entwicklung ist das xGen-MM (BLIP-3), ein neues Framework für die Entwicklung von LMMs. Dieses Framework wurde von einem Forscherteam unter der Leitung von Le Xue und Manli Shu entwickelt und zielt darauf ab, die bestehende xGen-Initiative von Salesforce zu erweitern.

Hintergrund und Motivation

Ein zentrales Anliegen bei der Entwicklung von LMMs ist der Zugang zu offenen Gewichten, Trainingsrezepten und kuratierten Datensätzen. Proprietäre Modelle haben oft einen Vorteil durch den Zugriff auf große, qualitativ hochwertige Datenmengen und spezialisierte Trainingsverfahren. Diese Ressourcen sind in der Regel nicht für die Open-Source-Gemeinschaft verfügbar, was die Replikation, das Verständnis und die Verbesserung von LMMs erschwert.

Das xGen-MM (BLIP-3) Framework

Das xGen-MM (BLIP-3) Framework adressiert diese Herausforderungen durch die Bereitstellung einer umfangreichen Sammlung von Datensätzen, einer Trainingsrezeptur, Modellarchitekturen und einer Suite von LMMs. Das Framework baut auf dem Erfolg von BLIP-2 auf, einem früheren Modell, das synthetische Daten nutzte, um beeindruckende Ergebnisse zu erzielen. Im Vergleich zu BLIP-2 erweitert xGen-MM die Vielfalt und Qualität der Trainingsdaten erheblich und ersetzt die komplexen Q-Former-Schichten durch einen skalierbaren Vision Token Sampler. Zudem wird der Trainingsprozess durch die Vereinfachung der Trainingsziele optimiert.

Modellarchitektur

Die Architektur von xGen-MM (BLIP-3) besteht aus einem Vision Transformer (ViT), einem Vision Token Sampler (Perceiver Resampler) und einem vortrainierten großen Sprachmodell (LLM). Die Eingabe in das Modell kann frei geformte multimodale, verschachtelte Texte und Vision Tokens aus den verschiedenen multimodalen Datenquellen sein. Durch die Verwendung eines dynamischen hochauflösenden Bildcodierungsverfahrens wird die Integration von visuellen und sprachlichen Modalitäten weiter vereinfacht.

Trainingsmethodik und Datensätze

Das Training von LMMs folgt in der Regel zwei Hauptstrategien: einer leichten Vortrainingsprozedur, gefolgt von einer visuellen Instruktionsfeinabstimmung, oder einem umfangreichen Vortraining auf groß angelegten, diversifizierten Datensätzen, gefolgt von einer visuellen Instruktionsfeinabstimmung. xGen-MM (BLIP-3) verfolgt den zweiten Ansatz und nutzt dabei zwei maßgebliche Datensätze: MINT-1T, ein Datensatz im Billionen-Token-Maßstab, und BLIP3-KALE, ein qualitativ hochwertiger Datensatz mit dichten Beschreibungen. Darüber hinaus werden zwei spezialisierte Datensätze vorgestellt: BLIP3-OCR-200M, ein Datensatz mit dichten OCR-Anmerkungen, und BLIP3-GROUNDING-50M, ein visueller Grundierungsdatensatz.

Leistung und Sicherheitsaspekte

Die Modelle von xGen-MM (BLIP-3) wurden rigoros über verschiedene Aufgaben hinweg evaluiert, einschließlich Einzel- und Mehrbild-Benchmarks. Das vortrainierte Basismodell zeigt starke In-Context-Lernfähigkeiten, während das instruktionsabgestimmte Modell eine wettbewerbsfähige Leistung unter den Open-Source-LMMs ähnlicher Größe demonstriert. Ein sicherheitsabgestimmtes Modell mit DPO (Differentiable Prompt Optimization) wurde ebenfalls eingeführt, um schädliche Verhaltensweisen wie Halluzinationen zu mindern und die Sicherheit zu verbessern.

Open-Source-Bereitstellung

Ein zentraler Aspekt von xGen-MM (BLIP-3) ist das Engagement für Open-Source. Die Modelle, die kuratierten Großdatensätze und der Feinabstimmungs-Code werden öffentlich zugänglich gemacht, um die Weiterentwicklung der LMM-Forschung zu fördern. Durch die Bereitstellung dieser Ressourcen soll die Forschungsgemeinschaft in die Lage versetzt werden, die Potenziale und Fähigkeiten von LMMs besser zu verstehen und weiter zu erforschen.

Fazit

Das xGen-MM (BLIP-3) Framework stellt einen bedeutenden Fortschritt in der Entwicklung von LMMs dar. Mit seinen umfangreichen Datensätzen, optimierten Modellarchitekturen und vereinfachten Trainingsverfahren bietet es eine robuste Grundlage für zukünftige Forschung und Anwendung im Bereich der multimodalen künstlichen Intelligenz. Durch die offene Bereitstellung der Modelle und Ressourcen trägt xGen-MM (BLIP-3) dazu bei, die LMM-Forschung zugänglicher und kollaborativer zu gestalten. Bibliographie: - https://www.arxiv.org/abs/2408.08872 - https://huggingface.co/papers/2408.08872 - https://arxiv.org/html/2408.08872v1 - https://twitter.com/gm8xx8/status/1825342992070185359 - https://synthical.com/article/xGen-MM-(BLIP-3)%3A-A-Family-of-Open-Large-Multimodal-Models-444c6e70-fff9-4ea7-935b-00fdc7a981be? - https://huggingface.co/collections/anushmohan/multimodal-66c2b7a15f4422f886759b33 - https://x.com/_akhaliq?lang=de - https://arxiv-sanity-lite.com/ - https://anas-awadalla.streamlit.app/

Was bedeutet das?