Vision trifft Sprache: Revolution der KI durch multimodale Modelle

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren hat sich die Forschung im Bereich der künstlichen Intelligenz (KI) enorm entwickelt, insbesondere im Hinblick auf Modelle, die mehrere Modalitäten verarbeiten können. Eine der vielversprechendsten Entwicklungen in diesem Bereich ist die Kombination von visuellen und sprachlichen Modellen, die es ermöglichen, Bild- und Videomaterial mit Text zu verknüpfen und zu verstehen. Diese multimodalen Modelle haben das Potenzial, Anwendungen wie Bildbeschreibung, visuelle Fragebeantwortung und sogar Textgenerierung zu revolutionieren.

Einer der neuesten Fortschritte auf diesem Gebiet ist COSMO, ein vortrainiertes visionäres Sprachmodell, das für das ineinandergreifende Verständnis von Bild-Text- und Video-Text-Daten entwickelt wurde. COSMO steht für COntrastive Streamlined MultimOdal Model und ist das Ergebnis der Arbeit eines Teams von Forschern, die ihre Ergebnisse auf der Plattform Hugging Face veröffentlicht haben. Das Modell und die dazugehörigen Trainingsdaten sind Open Source, was bedeutet, dass sie der Öffentlichkeit zur Verfügung stehen und von anderen Forschern und Entwicklern genutzt werden können.

COSMO stellt eine Weiterentwicklung in der Evolution der vortrainierten Vision-Sprache-Modelle dar. Es zielt darauf ab, von einem Verständnis kurzer Texte zu einer umfassenden Erfassung erweiterter Textkontexte überzugehen. Frühere autoregressive visionäre Sprachmodelle wie Flamingo und Palme, die die Fähigkeit großer Sprachmodelle zur Verarbeitung langer Kontexte nutzen, haben sich bei Aufgaben zur Textgenerierung mit wenigen Schüssen ausgezeichnet, stoßen jedoch bei Ausrichtungsaufgaben auf Herausforderungen. Um diese Lücke zu schließen, führt COSMO den Kontrastverlust in Textgenerierungsmodelle ein und präsentiert das Kontrastive-Streamlined-Multimodal-Framework, das das Sprachmodell in dedizierte unimodale Textverarbeitungs- und kompetente multimodale Datenverarbeitungskomponenten aufteilt.

Das Modell vereint unimodale und multimodale Elemente, um die Leistung für Aufgaben zu verbessern, die sowohl textuelle als auch visuelle Daten beinhalten, und reduziert gleichzeitig die Anzahl der lernbaren Parameter. Diese Modelle erfordern jedoch umfangreiche Langtextdatensätze, und die Verfügbarkeit hochwertiger Langtext-Videodatensätze ist nach wie vor begrenzt. Um diese Lücke zu überbrücken, haben die Forscher Howto-Interlink7M eingeführt, einen neuartigen, ineinandergreifenden Video-Text-Datensatz mit umfassenden Untertiteln, der einen großen Fortschritt darstellt.

Die Bedeutung von COSMO und Howto-Interlink7M wird durch die erheblichen Leistungssteigerungen in einer Vielzahl von nachgelagerten Datensätzen unterstrichen, die sowohl Bild-Text- als auch Video-Text-Aufgaben umfassen. Mit 34 % lernbaren Parametern und unter Verwendung von 72 % der verfügbaren Daten zeigt das Modell eine deutliche Überlegenheit gegenüber OpenFlamingo. Beispielsweise verbessert sich die Leistung bei der 4-Shot-Flickr-Beschriftungsaufgabe von 57,2 % auf 65 %.

Die Forschung im Bereich der visionären Sprachmodelle ist keineswegs neu, aber die Konstruktion solcher Modelle hat sich im Laufe der Jahre drastisch verändert. Während in der früheren Forschung handgefertigte Bildbeschreibungen und vorab trainierte Wortvektoren oder die auf Frequenz basierenden TF-IDF-Features verwendet wurden, übernehmen die neuesten Forschungsansätze Bild- und Textkodierer mit Transformatorarchitekturen, um Bild- und Textmerkmale getrennt oder gemeinsam zu lernen. Diese Modelle werden mit strategischen Vortrainingszielen vortrainiert, die verschiedene nachgelagerte Aufgaben ermöglichen.

Ein anderer neuer Ansatz in diesem Bereich ist das von einem Team um die Entwickler von Qwen-VL vorgestellte LVLM (large-scale vision-language model), das sowohl Texte als auch Bilder wahrnehmen und verstehen kann. Ausgehend vom Qwen-LM als Grundlage wurde es mit visueller Kapazität durch einen sorgfältig gestalteten visuellen Rezeptor, eine Input-Output-Schnittstelle, einen 3-stufigen Trainingspipeline und einem mehrsprachigen, multimodalen, bereinigten Korpus versehen. Jenseits der konventionellen Bildbeschreibung und Fragenbeantwortung implementieren die Qwen-VLs die Verankerungs- und Textlesefähigkeit, indem sie Bild-Beschriftung-Box-Tupel ausrichten. Die resultierenden Modelle, darunter Qwen-VL und Qwen-VL-Chat, setzen neue Rekorde für Generalistenmodelle unter ähnlichen Modellskalen auf einer breiten Palette von visuell-zentrierten Benchmarks (z. B. Bildbeschriftung, Fragebeantwortung, visuelle Verankerung) und verschiedenen Einstellungen (z. B. Nullschuss, Wenigschuss). Darüber hinaus zeigt unser auf Anweisungen abgestimmter Qwen-VL-Chat auf realen Dialog-Benchmarks auch eine Überlegenheit gegenüber bestehenden Vision-Sprache-Chatbots. Alle Modelle werden öffentlich gemacht, um die zukünftige Forschung zu erleichtern.

Sowohl COSMO als auch Qwen-VL zeigen das Potenzial von multimodalen Lernansätzen und die Bedeutung der Offenheit in der Forschung. Durch die Bereitstellung von Daten und Modellen können Forscher auf diesen Arbeiten aufbauen und neue Erkenntnisse gewinnen, was letztlich allen zugutekommt, die auf dem schnell wachsenden Gebiet der KI arbeiten.

Was bedeutet das?

No items found.