Multimodale KI erreicht herausragende Leistungen mit reduzierter Modellgröße

Kategorien:
No items found.
Freigegeben:
November 5, 2024

Artikel jetzt als Podcast anhören

Neue Multimodale KI übertrifft große Modelle trotz geringer Größe

Ein Forschungsteam hat einen neuen multimodalen KI-Ansatz entwickelt, der trotz deutlich geringerer Größe in Benchmarks besser abschneidet als viele größere Modelle. Der Schlüssel zum Erfolg liegt in der Kombination eines riesigen, multimodalen Datensatzes mit einem innovativen, mehrstufigen Trainingsprozess.

Der Datensatz: Infinity-MM

Das Team erstellte zunächst Infinity-MM, einen der größten öffentlich verfügbaren multimodalen Datensätze. Infinity-MM umfasst rund 40 Millionen Bild-Text-Paare und deckt vier Hauptkategorien ab:

    10 Millionen Bildbeschreibungen 24,4 Millionen allgemeine visuelle Instruktionsdaten 6 Millionen ausgewählte, qualitativ hochwertige Instruktionsdaten 3 Millionen synthetisch generierte Daten von KI-Modellen wie GPT-4

Die Erstellung der synthetischen Daten erfolgte durch einen mehrschichtigen Prozess. Dabei analysierte das RAM++ Modell zunächst Bilder und extrahierte wichtige Informationen. Diese dienten dann zur Generierung von Fragen und Antworten. Ein spezielles Klassifizierungssystem mit sechs Hauptkategorien gewährleistete die Qualität und Vielfalt der generierten Daten.

Das Modell: Aquila-VL-2B

Das auf dem Datensatz trainierte Modell, Aquila-VL-2B, basiert auf der LLaVA-OneVision Architektur. Es verwendet Qwen-2.5 als Sprachmodell und SigLIP für die Bildverarbeitung. Bemerkenswert ist die vergleichsweise geringe Größe von nur zwei Milliarden Parametern.

Vierstufiges Training

Der Trainingsprozess von Aquila-VL-2B erfolgte in vier Phasen:

    Phase 1: Erlernen grundlegender Bild-Text-Assoziationen. Phase 2: Bearbeitung allgemeiner visueller Aufgaben. Phase 3: Ausführung spezifischer Instruktionen. Phase 4: Integration der synthetisch generierten Daten und schrittweise Erhöhung der Bildauflösung.

Überzeugende Leistung in Benchmarks

In umfassenden Tests erzielte Aquila-VL-2B trotz seiner geringen Größe Spitzenwerte. Im MMStar Benchmark für multimodales Verständnis erreichte es 54,9% – die beste Leistung für ein Modell dieser Größe. Besonders beeindruckend ist die Leistung bei mathematischen Aufgaben: Im MathVista Test erreichte Aquila-VL-2B 59% und übertraf damit vergleichbare Systeme deutlich. Auch in allgemeinen Bildverständnistests wie HallusionBench (43%) und MMBench (75,2%) schnitt das Modell sehr gut ab.

Die Forscher konnten zudem nachweisen, dass die Integration synthetisch generierter Daten die Leistung signifikant verbessert. Tests ohne diese zusätzlichen Daten führten zu einem durchschnittlichen Leistungsabfall von 2,4%.

Open Source und zukünftige Forschung

Sowohl der Datensatz Infinity-MM als auch das Modell Aquila-VL-2B werden der Forschungsgemeinschaft zur Verfügung gestellt. Das Modell wurde auf Nvidia A100 GPUs sowie chinesischen Chips trainiert. Die Entwicklung von Aquila-VL-2B zeigt das Potenzial von Open-Source-Modellen und synthetischen Trainingsdaten im Bereich der multimodalen KI. Zukünftige Forschung wird sich auf die Verbesserung der Bildverarbeitung und die Erweiterung der Möglichkeiten von Vision Language Models (VLMs) konzentrieren.

Bibliographie: Huang, L., Zhang, Z., Zhang, Y., Zhou, X., & Wang, S. (2024). RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection. arXiv preprint arXiv:2406.04906. Heikkilä, M. (2024, September 25). A tiny new open-source AI model performs as well as powerful big ones. MIT Technology Review. Wu, S., Fei, H., Qu, L., Ji, W., & Chua, T.-S. (2024). NExT-GPT: Any-to-Any Multimodal LLM. ICML. Pichai, S., & Hassabis, D. (2023, December 6). Introducing Gemini: our largest and most capable AI model. The Keyword. Huyen, C. (2023, October 10). Multimodality and Large Multimodal Models (LMMs). Chip Huyen. Luo, H., Kim, Y., Glass, J., & Ge, J. (2023). MIT researchers make language models scalable self-learners. MIT News. Martens, S. (2024, May 7). When AI Makes AI: Synthetic Data, Model Distillation, And Model Collapse. Jina AI. microsoft/unilm. (n.d.). GitHub.
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.