Zukunft der KI: LLaVa-NeXT verbindet Sprachverarbeitung und visuelle Intelligenz

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Die Entwicklung Künstlicher Intelligenz (KI) schreitet unaufhaltsam voran, und mit ihr die Möglichkeiten, wie wir mit Maschinen interagieren. Ein besonders spannendes Feld ist dabei die Verknüpfung von Sprachverarbeitung und visueller Wahrnehmung durch KI-Modelle. Ein neuer Meilenstein in diesem Bereich ist LLaVa-NeXT, ein Modell, das eine herausragende Bildauflösung und verbesserte Datenvermischung mit einem skalierten Backbone für Sprachmodelle kombiniert.

LLaVa-NeXT ist eine Weiterentwicklung von LLaVa, einem KI-Modell, das von Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen und Yong Jae Lee entwickelt wurde. Die Verbesserungen gegenüber dem Vorgängermodell LLaVa-1.5 sind beachtlich. So wurde unter anderem die Auflösung der Eingabebilder vervierfacht, um mehr visuelle Details erfassen zu können. Dies ermöglicht dem Modell, visuelle Informationen besser zu verarbeiten und zu interpretieren. Unterstützt werden dabei drei verschiedene Bildverhältnisse mit Auflösungen bis zu 672x672, 336x1344 und 1344x336 Pixeln.

Ein entscheidender Vorteil von LLaVa-NeXT ist seine verbesserte Fähigkeit zur optischen Zeichenerkennung (OCR) und zum logischen Denken. Dies wird durch eine verbesserte Datenmischung für das visuelle Instruktionstraining erreicht. Das Modell ist in der Lage, in verschiedenen Szenarien visuelle Unterhaltungen zu führen und verfügt über ein erweitertes Weltwissen sowie logische Schließfähigkeiten. Trotz dieser Fortschritte behält LLaVa-NeXT das minimalistische Design und die Dateneffizienz seines Vorgängers bei und wird weiterhin mit weniger als 1 Million visuellen Instruktionstraining-Beispielen trainiert.

Die Entwickler von LLaVa-NeXT haben besonderen Wert auf eine effiziente Bereitstellung und Inferenz mit SGLang gelegt. Damit ist das Modell nicht nur leistungsfähiger, sondern auch in der Anwendung effizienter. Die größte Variante des Modells mit 34 Milliarden Parametern kann innerhalb von etwa einem Tag auf 32 A100-Grafikprozessoren trainiert werden.

Für die Verwendung von LLaVa-NeXT ist es wichtig, dass Nutzer die richtigen Formatierungen für Texteingabeaufforderungen beachten, da jedes Checkpoint mit einem spezifischen Format trainiert wurde, das von dem verwendeten großen Sprachmodell (LLM) abhängt. So gibt es beispielsweise für die Eingabeaufforderung "Was wird in diesem Bild gezeigt?" verschiedene korrekte Formate, die je nach verwendetem LLM variieren können.

Eine Besonderheit von LLaVa-NeXT ist auch die Möglichkeit zur Modellquantisierung mit Bitsandbytes. Dadurch können Modelle in 8 oder 4 Bits geladen werden, was die Speicheranforderungen drastisch reduziert, während die Leistung des Originalmodells erhalten bleibt. Zusätzlich bietet der Einsatz von Flash-Attention 2 eine weitere Geschwindigkeitssteigerung bei der Generierung von Antworten.

Die Einsatzmöglichkeiten für LLaVa-NeXT sind vielfältig und reichen von der Bildbeschreibung über die Beantwortung von Fragen bis hin zum visuellen Dialog in verschiedenen Anwendungsszenarien. Es ist ein Spitzenmodell im Bereich der Open-Source-VLLM (Visual Large Language Models) und unterstützt LLMs wie Mistral-7B und Vicuna, was endlose Möglichkeiten für die Forschung und Entwicklung neuer Anwendungen eröffnet.

Die öffentliche Verfügbarkeit des Codes und der Modelle trägt dazu bei, dass Forscher und Entwickler auf der ganzen Welt Zugang zu dieser fortschrittlichen Technologie haben und sie für ihre eigenen Projekte nutzen können. Dies ist ein bedeutender Schritt in Richtung einer inklusiven und offenen KI-Forschung und -Entwicklung.

Quellen:
- Liu, Haotian et al. "LLaVa-NeXT: Improved reasoning, OCR, and world knowledge." arXiv (2023).
- Liu, Haotian et al. "Visual Instruction Tuning." NeurIPS (2023).
- Hugging Face Transformers Dokumentation über LLaVa-NeXT.
- Hugging Face Model Cards und Ressourcen zu LLaVa-Versionen.

Dieser Bericht gibt einen umfassenden Überblick über die neuesten Entwicklungen im Bereich der KI, speziell der multimodalen KI-Modelle, und stellt mit LLaVa-NeXT eine bedeutende Innovation vor, die sowohl in der Forschung als auch in der praktischen Anwendung große Wellen schlagen könnte.

Was bedeutet das?