DeepMind präsentiert SPARC zur Verfeinerung multimodaler KI-Systeme

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Im Rahmen der rasanten Fortschritte im Bereich der künstlichen Intelligenz und des maschinellen Lernens hat Google DeepMind einen neuen Ansatz vorgestellt, der die Feinabstimmung multimodaler Repräsentationen beim Vortraining von Bild-Text-Paaren verbessert. Die Methode, bekannt als SPARse Fine-grained Contrastive Alignment (SPARC), zielt darauf ab, eine detailliertere und feingliedrigere Abstimmung zwischen den Modulen der visuellen Wahrnehmung und der Sprachverarbeitung zu ermöglichen. Dies ist ein wesentlicher Schritt vorwärts in der Entwicklung von Systemen, die in der Lage sind, komplexe Zusammenhänge zwischen Bildern und Texten zu erfassen und zu interpretieren.

Die Grundlage des SPARC-Ansatzes bildet die Erkenntnis, dass häufig mehrere Bildausschnitte (Patches) einem einzelnen Wort in der Bildbeschreibung entsprechen können. Um dies zu berücksichtigen, schlägt DeepMind vor, eine Gruppierung von Bildausschnitten für jedes Token in der Bildunterschrift zu erlernen. Dies geschieht durch die Verwendung einer sparsamen Ähnlichkeitsmetrik zwischen Bildausschnitten und Sprachtokens, die es ermöglicht, für jedes Token eine sprachgruppierte visuelle Einbettung als gewichtetes Mittel der Ausschnitte zu berechnen.

Ein entscheidender Aspekt von SPARC ist der Einsatz eines feinkörnigen sequenzbasierten Verlustes, der ausschließlich von individuellen Proben abhängt und keine anderen Proben aus dem Batch als Negativbeispiele benötigt. Dieser Ansatz ermöglicht es, detailliertere Informationen auf eine rechnerisch kostengünstige Weise zu erlernen. Darüber hinaus kombiniert SPARC diesen feinkörnigen Verlust mit einem kontrastiven Verlust zwischen globalen Bild- und Texteinbettungen, um Repräsentationen zu erlernen, die gleichzeitig globale und lokale Informationen kodieren.

Die Effektivität von SPARC wurde durch umfassende Evaluierungen nachgewiesen, die eine verbesserte Leistung gegenüber konkurrierenden Ansätzen sowohl bei bildbezogenen Aufgaben, die auf grobkörnigen Informationen beruhen, wie Klassifizierung, als auch bei regionenbezogenen Aufgaben, die auf feinkörnigen Informationen beruhen, wie Suche, Objekterkennung und Segmentierung, zeigen. Außerdem verbessert SPARC die Modelltreue und Bildbeschreibung in grundlegenden visionär-sprachlichen Modellen.

Diese Fortschritte sind von besonderer Bedeutung, da sie die Fähigkeit von künstlichen Intelligenzsystemen verbessern können, komplexe Inhalte aus Bildern und Texten zu verstehen und zu generieren. Die verbesserte Feinabstimmung könnte beispielsweise in Anwendungen wie der automatischen Bildbeschreibung, der verbesserten Bilderkennung und der Erstellung von Inhalten für soziale Medien und Werbung von Vorteil sein. Darüber hinaus könnten solche Fortschritte in der Technologie auch Auswirkungen auf die Entwicklung von Chatbots und Sprachassistenten haben, die visuelle Informationen in ihre Dialoge einbeziehen müssen.

Die Entwicklungen von Google DeepMind im Bereich der multimodalen Repräsentationen stehen auch in Einklang mit anderen Forschungen, wie dem Language-Image Mixture of Experts (LIMoE) Modell, das ebenfalls die multimodale Lernfähigkeit durch die Verwendung eines sparsam aktivierten Mixture of Experts-Modells verbessert, welches sowohl Bilder als auch Texte gleichzeitig akzeptiert und mit einem kontrastiven Verlust trainiert wird.

Insgesamt stellt SPARC einen bedeutenden Schritt nach vorne in der Entwicklung intelligenter Systeme dar, die in der Lage sind, die reiche und vielfältige Welt der visuellen und sprachlichen Informationen zu verstehen. Während die Forschung in diesem Bereich weitergeht, können wir erwarten, dass solche Systeme immer raffiniertere Fähigkeiten erlangen werden, die es ihnen ermöglichen, auf natürliche und intuitive Weise mit Menschen zu interagieren und ihnen in einer Vielzahl von Kontexten zu assistieren.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

No items found.