Fortschritte in der Bewertung visueller Sprachmodelle durch NL-Eye

Kategorien:
No items found.
Freigegeben:
October 7, 2024

Visuelles Abduktives Schlussfolgern: Wie gut sind VLMs wirklich?

Stellen Sie sich einen auf einem visuellen Sprachmodell (VLM) basierenden Roboter vor, der uns vor dem Ausrutschen warnt, wenn er einen nassen Boden entdeckt. Klingt futuristisch, nicht wahr? Obwohl VLMs in letzter Zeit erstaunliche Fähigkeiten bewiesen haben, bleibt ihre Fähigkeit, in realistischen Szenarien auf plausible Ergebnisse oder Ursachen zu schließen, weitgehend unerforscht.

NL-Eye: Ein neuer Maßstab für VLMs

Um diese Herausforderung anzugehen, stellen Forscher NL-Eye vor, einen Benchmark, der speziell entwickelt wurde, um die visuellen abduktiven Denkfähigkeiten von VLMs zu bewerten. NL-Eye basiert auf der Idee der abduktiven Natural Language Inference (NLI) und überträgt diese auf den visuellen Bereich.

In der Praxis bedeutet das: Einem VLM wird ein "Premise"-Bild und ein oder zwei "Hypothese"-Bilder präsentiert. Die Aufgabe des VLMs besteht darin, zu bewerten, wie plausibel ein Hypothese-Bild aus dem Prämissen-Bild resultiert oder zu diesem führt. Diese Bewertung kann entweder für jedes Hypothese-Bild einzeln oder im Vergleich zueinander erfolgen.

Ein Beispiel: Ein Bild zeigt einen Mann mit gebrochenem Bein. Zwei Hypothese-Bilder zeigen einmal einen nassen Boden ohne Warnschild und einmal einen nassen Boden mit Warnschild. Der VLM müsste nun schlussfolgern, dass – ausgehend vom gebrochenen Bein – die Wahrscheinlichkeit höher ist, dass der Mann auf dem nassen Boden ohne Warnschild ausgerutscht ist.

NL-Eye geht jedoch über die reine Vorhersage der Plausibilität hinaus. Der Benchmark fordert die VLMs auch dazu auf, ihre Entscheidungen zu erklären. Dadurch können die Forscher beurteilen, ob die Modelle aus den richtigen Gründen zu korrekten Schlussfolgerungen gelangen oder ob sie sich auf oberflächliche Heuristiken verlassen.

Die Architektur von NL-Eye

Jeder Datensatz in NL-Eye besteht aus einem Prämissen-Bild und zwei Hypothese-Bildern. Zusätzlich enthält jeder Datensatz ein "Gold Label", das die plausibelste Hypothese kennzeichnet, sowie eine "Gold Erklärung", die erläutert, warum diese Hypothese plausibler ist als die Alternative.

Um die Vielfalt der Aufgaben zu gewährleisten, werden die Beispiele in sechs Kategorien unterteilt:

- Physisch (z. B. "Ein Glas fällt zu Boden und zerbricht.") - Logisch (z. B. "Wenn es regnet, ist der Boden nass.") - Emotional (z. B. "Ein weinendes Kind hat möglicherweise seinen Schnuller verloren.") - Funktional (z. B. "Ein Hammer wird verwendet, um einen Nagel einzuschlagen.") - Kulturell (z. B. "bestimmte Kleidungsstücke werden mit bestimmten Feiertagen assoziiert.") - Sozial (z. B. "Gesten und Körpersprache können auf bestimmte soziale Interaktionen hindeuten.")

Zusätzliche zeitliche Annotationen geben an, ob die Hypothese-Bilder zeitlich vor, nach oder gleichzeitig mit dem Prämissen-Bild angeordnet sind.

Erstellungsprozess: Von der Idee zum Bild

Die Erstellung von NL-Eye erfolgte in mehreren Schritten. Zunächst verfassten erfahrene Personen eine Sammlung von hochwertigen "textlichen Szenen". Diese Szenen dienten professionellen Designern als Grundlage, um mithilfe von Text-zu-Bild-Modellen wie Midjourney und DALL-E die entsprechenden Bilder zu generieren. Dieser Prozess war iterativ und erforderte mehrere Versuche, um die Konsistenz zwischen den Textbeschreibungen und den visuellen Szenen sowie die visuelle Kohärenz innerhalb der Bildtriplets sicherzustellen.

Mensch vs. Maschine: Wer schneidet besser ab?

Erste Evaluierungen mit menschlichen Probanden zeigen, dass Menschen in 85 % der Fälle die plausibelste Hypothese korrekt identifizieren. Darüber hinaus liefern sie in 94 % der Fälle, in denen sie die richtige Hypothese auswählen, auch eine korrekte Erklärung. Dies verdeutlicht, dass abduktives Denken für Menschen eine natürliche Fähigkeit ist.

VLMs hingegen haben erhebliche Schwierigkeiten mit NL-Eye. Die meisten Modelle erreichen bei der Vorhersage der Plausibilität nicht einmal das Niveau eines Zufallsgenerators (Random Baseline). Selbst wenn sie die richtige Hypothese auswählen, gelingt es den VLMs in über 50 % der Fälle nicht, dafür eine zutreffende Erklärung zu liefern. Dies deutet auf eine deutliche Schwäche im abduktiven Denken hin.

Herausforderungen und Erkenntnisse

Interessanterweise zeigen begleitende textbasierte Experimente, dass VLMs häufig in der Lage sind, auf Basis von Textbeschreibungen der Szenen korrekte Schlussfolgerungen zu ziehen, selbst wenn ihnen dies anhand der Bilder nicht gelingt. Dies legt die Vermutung nahe, dass die Schwierigkeiten der VLMs möglicherweise auf einer ungenauen Interpretation der visuellen Informationen beruhen.

Zusätzlich zeigt sich, dass VLMs empfindlich auf die Reihenfolge der präsentierten Hypothesen und auf das Eingabeformat reagieren (drei separate Bilder vs. ein kombiniertes Bild). Diese Empfindlichkeit ist insofern besorgniserregend, als sie die Möglichkeit aufwirft, dass die Modelle die zugrunde liegenden Konzepte nicht wirklich verstehen und sich stattdessen auf oberflächliche Hinweise verlassen, um Entscheidungen zu treffen.

NL-Eye: Ein wichtiger Schritt in Richtung robustere VLMs

Zusammenfassend lässt sich sagen, dass NL-Eye einen neuen und wichtigen Schritt in der Evaluierung und Weiterentwicklung von VLMs darstellt. Der Benchmark zeigt deutlich die Schwächen aktueller Modelle im Bereich des abduktiven Denkens auf und bietet gleichzeitig eine Grundlage für die Entwicklung robusterer und zuverlässigerer VLMs in der Zukunft. Die Fähigkeit zum abduktiven Denken wird für VLMs von entscheidender Bedeutung sein, wenn sie in unseren Alltag integriert werden sollen – sei es in Form von autonomen Robotern, intelligenten Assistenzsystemen oder anderen Anwendungen, die ein tiefes Verständnis der Welt erfordern.

Bibliographie

- https://arxiv.org/abs/2410.02613 - https://arxiv.org/html/2410.02613v1 - https://www.researchgate.net/publication/384630649_NL-Eye_Abductive_NLI_for_Images - https://powerdrill.ai/discover/discover-NL-Eye-Abductive-NLI-cm1v7n6xyuuvb013w66gkrkzp - https://www.chatpaper.com/chatpaper/paper/63893 - https://paperreading.club/page?id=256339 - https://www.researchgate.net/scientific-contributions/Ishaan-Preetam-Chandratreya-2216081669 - https://www.sciencedirect.com/science/article/pii/S2667376224000398 - https://chatpaper.com/chatpaper/ja?id=4&date=1727971200&page=1 - https://aclanthology.org/volumes/2024.naacl-long/
Was bedeutet das?