Multimodale KI erreicht herausragende Leistungen mit reduzierter Modellgröße

Kategorien:

No items found.

Freigegeben:

November 5, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Neue Multimodale KI übertrifft große Modelle trotz geringer Größe

Ein Forschungsteam hat einen neuen multimodalen KI-Ansatz entwickelt, der trotz deutlich geringerer Größe in Benchmarks besser abschneidet als viele größere Modelle. Der Schlüssel zum Erfolg liegt in der Kombination eines riesigen, multimodalen Datensatzes mit einem innovativen, mehrstufigen Trainingsprozess.

Der Datensatz: Infinity-MM

Das Team erstellte zunächst Infinity-MM, einen der größten öffentlich verfügbaren multimodalen Datensätze. Infinity-MM umfasst rund 40 Millionen Bild-Text-Paare und deckt vier Hauptkategorien ab:

10 Millionen Bildbeschreibungen 24,4 Millionen allgemeine visuelle Instruktionsdaten 6 Millionen ausgewählte, qualitativ hochwertige Instruktionsdaten 3 Millionen synthetisch generierte Daten von KI-Modellen wie GPT-4

Die Erstellung der synthetischen Daten erfolgte durch einen mehrschichtigen Prozess. Dabei analysierte das RAM++ Modell zunächst Bilder und extrahierte wichtige Informationen. Diese dienten dann zur Generierung von Fragen und Antworten. Ein spezielles Klassifizierungssystem mit sechs Hauptkategorien gewährleistete die Qualität und Vielfalt der generierten Daten.

Das Modell: Aquila-VL-2B

Das auf dem Datensatz trainierte Modell, Aquila-VL-2B, basiert auf der LLaVA-OneVision Architektur. Es verwendet Qwen-2.5 als Sprachmodell und SigLIP für die Bildverarbeitung. Bemerkenswert ist die vergleichsweise geringe Größe von nur zwei Milliarden Parametern.

Vierstufiges Training

Der Trainingsprozess von Aquila-VL-2B erfolgte in vier Phasen:

Phase 1: Erlernen grundlegender Bild-Text-Assoziationen. Phase 2: Bearbeitung allgemeiner visueller Aufgaben. Phase 3: Ausführung spezifischer Instruktionen. Phase 4: Integration der synthetisch generierten Daten und schrittweise Erhöhung der Bildauflösung.

Überzeugende Leistung in Benchmarks

In umfassenden Tests erzielte Aquila-VL-2B trotz seiner geringen Größe Spitzenwerte. Im MMStar Benchmark für multimodales Verständnis erreichte es 54,9% – die beste Leistung für ein Modell dieser Größe. Besonders beeindruckend ist die Leistung bei mathematischen Aufgaben: Im MathVista Test erreichte Aquila-VL-2B 59% und übertraf damit vergleichbare Systeme deutlich. Auch in allgemeinen Bildverständnistests wie HallusionBench (43%) und MMBench (75,2%) schnitt das Modell sehr gut ab.

Die Forscher konnten zudem nachweisen, dass die Integration synthetisch generierter Daten die Leistung signifikant verbessert. Tests ohne diese zusätzlichen Daten führten zu einem durchschnittlichen Leistungsabfall von 2,4%.

Open Source und zukünftige Forschung

Sowohl der Datensatz Infinity-MM als auch das Modell Aquila-VL-2B werden der Forschungsgemeinschaft zur Verfügung gestellt. Das Modell wurde auf Nvidia A100 GPUs sowie chinesischen Chips trainiert. Die Entwicklung von Aquila-VL-2B zeigt das Potenzial von Open-Source-Modellen und synthetischen Trainingsdaten im Bereich der multimodalen KI. Zukünftige Forschung wird sich auf die Verbesserung der Bildverarbeitung und die Erweiterung der Möglichkeiten von Vision Language Models (VLMs) konzentrieren.

Bibliographie: Huang, L., Zhang, Z., Zhang, Y., Zhou, X., & Wang, S. (2024). RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection. arXiv preprint arXiv:2406.04906. Heikkilä, M. (2024, September 25). A tiny new open-source AI model performs as well as powerful big ones. MIT Technology Review. Wu, S., Fei, H., Qu, L., Ji, W., & Chua, T.-S. (2024). NExT-GPT: Any-to-Any Multimodal LLM. ICML. Pichai, S., & Hassabis, D. (2023, December 6). Introducing Gemini: our largest and most capable AI model. The Keyword. Huyen, C. (2023, October 10). Multimodality and Large Multimodal Models (LMMs). Chip Huyen. Luo, H., Kim, Y., Glass, J., & Ge, J. (2023). MIT researchers make language models scalable self-learners. MIT News. Martens, S. (2024, May 7). When AI Makes AI: Synthetic Data, Model Distillation, And Model Collapse. Jina AI. microsoft/unilm. (n.d.). GitHub.