Verbesserung der Token Integration in multimodalen Sprachmodellen durch Supervised Embedding Alignment

Kategorien:
No items found.
Freigegeben:
August 27, 2024
SEA: Supervised Embedding Alignment für die Integration von visuellen und textlichen Token in MLLMs

Ein neuer Ansatz zur Verbesserung der Integration von visuellen und textlichen Token in Multimodalen Großen Sprachmodellen

Einführung

Multimodale Große Sprachmodelle (Multimodal Large Language Models, MLLMs) haben in den letzten Jahren beeindruckende Fähigkeiten in der Wahrnehmung und im logischen Denken demonstriert. Sie bestehen typischerweise aus einem Vision Encoder, einem Adapter und einem großen Sprachmodell (Large Language Model, LLM). Der Adapter dient als entscheidende Brücke zwischen den visuellen und sprachlichen Komponenten. Allerdings führt das Training von Adaptern mit Bildebene-Supervision oft zu erheblichen Fehlanpassungen, was die Fähigkeiten der LLMs untergräbt und das Potenzial von Multimodalen LLMs einschränkt.

Das Problem der Fehlanpassung

Traditionelle Trainingsparadigmen in MLLMs umfassen in der Regel zwei Schlüsselphasen: Vortraining und Anweisungstuning. Während der Vortrainingsphase wird der Adapter ausschließlich darauf trainiert, seine Fähigkeit zur Umwandlung visueller Darstellungen in Text zu verbessern und die Relevanz von Bildinhalten und deren entsprechenden Textbeschreibungen zu verstehen. Dies erleichtert eine effektive cross-modale Anpassung. Die Anweisungstuning-Phase verbessert die Anpassungsfähigkeit des Modells an spezifische Aufgaben.

Diese Paradigmen stoßen jedoch auf inhärente Einschränkungen aufgrund der Diskrepanz zwischen dem hauptsächlich auf Texttoken trainierten, eingefrorenen Sprachmodell und den visuellen Merkmalen, die oft keine direkten textuellen Entsprechungen haben. Darüber hinaus erfolgt das Training hauptsächlich mit einfacher und impliziter Supervision, bei der Verluste nur für die Vorhersage von Sprachantworten berechnet werden. In dieser Konstellation fungieren visuelle Informationen lediglich als kontextuelle Hinweise und dienen nicht als direkte Supervision für die Anpassung an textliche Darstellungen.

Einführung von Supervised Embedding Alignment (SEA)

Um dieses Problem anzugehen, wurde die Methode Supervised Embedding Alignment (SEA) entwickelt, eine Token-Level-Ausrichtungsmethode, die vision-language vortrainierte Modelle wie CLIP nutzt, um visuelle Token durch kontrastives Lernen an den Einbettungsraum des LLM anzupassen. Dieser Ansatz stellt sicher, dass visuelle und sprachliche Darstellungen kohärent integriert werden, wodurch die Leistung und Interpretierbarkeit von multimodalen LLMs verbessert wird, während ihre inhärenten Fähigkeiten erhalten bleiben.

Methodik

Token-Level-Labeling für feinkörnige Anpassung

Während der Vortrainingsphase wird eine Captioning-Aufgabe verwendet, um einen Adapter zu trainieren, visuelle Patches mit dem Einbettungsraum des LLM abzugleichen, wodurch visuelle Token wie Texttoken behandelt werden können. Derzeitige Methoden zur Anpassung auf Bildebene sind jedoch grob und bieten keine feingranulare Anleitung, was zu suboptimalen Ergebnissen führt.

Ein neues Supervised Alignment Paradigma

Herkömmliche Ansätze, die eine Supervision auf Bildebene am Ausgabeende des LLM anwenden, weichen von dem Ziel ab, visuelle und textuelle Token gleich zu behandeln, was es schwierig macht, die Lücke zwischen ihnen zu überbrücken. Um dies zu adressieren, schlagen wir ein neues Ausrichtungs-Supervisionsparadigma vor, das visuelle Token direkt mit textuellen Token abgleicht und es dem LLM ermöglicht, visuelle Token ähnlich wie textuelle Token zu verarbeiten. Durch die Nutzung semantischer Labels für jedes visuelle Token und den Einsatz von kontrastivem Lernen stellen wir sicher, dass visuelle Token-Darstellungen eng mit ihren entsprechenden semantischen Labels im Einbettungsraum des LLM übereinstimmen.

Experimente und Ergebnisse

Um die Effektivität von SEA zu testen, wurden umfangreiche Experimente durchgeführt, die gezeigt haben, dass SEA MLLMs erheblich verbessert, insbesondere bei kleineren Modellen, ohne zusätzliche Daten oder Rechenleistung für die Inferenz hinzuzufügen. Zudem bietet SEA eine universelle, kosteneffiziente Trainingsstrategie für Vision-Encoder, die auf Vision-Language-Aufgaben trainiert werden, und zeigt dabei hohe Renditen und außergewöhnliche Innovationen.

Schlussfolgerung

SEA stellt einen bedeutenden Fortschritt in der Entwicklung von MLLMs dar, indem es eine genauere Integration visueller und sprachlicher Darstellungen ermöglicht. Dies verbessert nicht nur die Leistung und Interpretierbarkeit der Modelle, sondern legt auch den Grundstein für die Entwicklung allgemeiner und anpassungsfähiger Lösungen zur Verbesserung multimodaler Systeme.

Bibliografie

- https://arxiv.org/abs/2408.11813 - https://arxiv.org/html/2408.11813v1 - https://deeplearn.org/arxiv/520253/sea:-supervised-embedding-alignment-for-token-level-visual-textual-integration-in-mllms - https://synthical.com/article/SEA%3A-Supervised-Embedding-Alignment-for-Token-Level-Visual-Textual-Integration-in-MLLMs-552e1da5-ef70-4567-9508-89b00c10dbc0? - https://twitter.com/gm8xx8/status/1826436232873734200 - https://huggingface.co/papers - https://chatpaper.com/chatpaper/zh-CN/paper/52524 - https://arxiv-sanity-lite.com/ - https://github.com/52CV/CVPR-2024-Papers
Was bedeutet das?