Visuelle Sprachmodelle (VLMs) haben in den letzten Jahren erhebliche Fortschritte gemacht, angetrieben durch den Erfolg großer Sprachmodelle (LLMs). Diese Fortschritte sind jedoch nicht nur auf verbesserte Modellarchitekturen und Trainingsinfrastrukturen zurückzuführen, sondern auch auf die zunehmende Integration visueller Daten in Sprachmodelle. Während sich die Forschung bisher stark auf das Feintuning von Modellen mit visuellen Eingaben konzentrierte, bleibt der Bereich der Datenkuratierung weitgehend unerforscht. In diesem Kontext steht das VILA-Modell im Mittelpunkt, das durch eine verbesserte Vortrainingsstrategie besticht.
Große Sprachmodelle haben sich als äußerst leistungsfähig für natürliche Sprachaufgaben erwiesen. Die Erweiterung dieser Modelle um visuelle Eingaben ermöglicht es, einige der attraktiven Eigenschaften wie Befolgung von Anweisungen, Zero-Shot-Generalisation und Few-Shot-In-Context-Learning (ICL) auf verschiedene visuelle Sprachaufgaben zu übertragen. Die zentrale Herausforderung dabei liegt darin, die Verbindung zwischen dem LLM und dem visuellen Grundmodell herzustellen. Diese Modelle werden in der Regel einzeln vortrainiert und anschließend durch ein gemeinsames Training auf visuelle Sprachdaten ausgerichtet.
In der Arbeit von Ji Lin und Kollegen wird untersucht, wie verschiedene Designentscheidungen im Vortraining von visuellen Sprachmodellen die Leistung in nachgelagerten Aufgaben beeinflussen. Drei wesentliche Erkenntnisse wurden dabei gewonnen:
- Das Einfrieren der LLMs während des Vortrainings kann eine anständige Zero-Shot-Leistung erzielen, aber die In-Context-Learning-Fähigkeit bleibt begrenzt. - Interleaved-Vortrainingsdaten sind vorteilhaft, wohingegen reine Bild-Text-Paare nicht optimal sind. - Die erneute Mischung von textbasierten Anweisungsdaten mit Bild-Text-Daten während des Feintunings verbessert nicht nur die Genauigkeit bei textbasierten Aufgaben, sondern steigert auch die Leistung bei VLM-Aufgaben.Mit einem verbesserten Vortrainingsrezept wurde das VILA-Modell entwickelt, das konsequent die Leistung der aktuellen Spitzenmodelle übertrifft. VILA zeigt dabei ansprechende Eigenschaften wie Mehrbild-Schlussfolgerungen, verbesserte In-Context-Learning-Fähigkeiten und ein besseres Weltwissen. Diese Eigenschaften machen VILA zu einem herausragenden Modell für verschiedene visuelle Sprachaufgaben.
Multimodale LLMs können allgemein in zwei Kategorien eingeteilt werden: Cross-Attention-basierte Modelle und auto-regressive Modelle. Letztere tokenisieren Bilder in visuelle Tokens, die dann mit Text-Tokens kombiniert und als Eingabe für LLMs verwendet werden. Diese Methode ist eine natürliche Erweiterung textbasierter LLMs und kann beliebige interleaved Bild-Text-Eingaben verarbeiten. Das VILA-Modell besteht aus einem visuellen Encoder, einem LLM und einem Projektor, der die Einbettungen der beiden Modalitäten verbindet.
Das Training kann in drei Phasen unterteilt werden:
- Projektorinitialisierung: Der LLM und ViT werden separat vortrainiert, während der Projektor üblicherweise mit zufälligen Gewichten initialisiert wird. - Visuelles Sprachvortraining: Das Modell wird auf einem visuellen Sprachkorpus vortrainiert, um die visuelle Sprachausrichtung zu gewährleisten. - Visuelles Instruktionstuning: Das vortrainierte Modell wird auf visuellen Sprachinstruktionsdatensätzen weiter feinabgestimmt.Während der Ablationsstudie wurde das feingetunte Modell auf vier visuellen Sprachaufgaben bewertet: Genauigkeit für OKVQA und TextVQA sowie CIDEr-Score für COCO und Flickr. Es wurden sowohl die Zero-Shot- als auch die Four-Shot-Leistung bewertet, was die In-Context-Learning-Fähigkeit der Modelle widerspiegelt.
Die Untersuchung ergab, dass das Einfrieren der LLMs während des Vortrainings die Zero-Shot-Genauigkeit nicht beeinträchtigt, jedoch zu einer schlechteren In-Context-Learning-Fähigkeit führt. Die Verwendung eines einfachen linearen Projektors zwingt den LLM dazu, mehr zu lernen und führt zu einer besseren Generalisierung. Diese Erkenntnisse bieten wertvolle Hinweise für das Design zukünftiger visueller Sprachmodelle.
Die Fortschritte bei visuellen Sprachmodellen wie VILA zeigen, dass durch verbesserte Vortrainingsstrategien signifikante Leistungssteigerungen erzielt werden können. Die Untersuchung der Designoptionen und die daraus gewonnenen Erkenntnisse bieten eine solide Grundlage für die Entwicklung zukünftiger Modelle, die sowohl in der Forschung als auch in der Praxis Anwendung finden können.