Multimodale Große Sprachmodelle und die Bewertung von Ästhetik
Multimodale Große Sprachmodelle (MLLMs) sind KI-Systeme, die Text und Bilder gleichzeitig verarbeiten können. Eine neue Forschungsrichtung untersucht, inwieweit diese Modelle in der Lage sind, ästhetische Eigenschaften von Kunstwerken zu beurteilen und wie diese Bewertungen mit menschlichen Präferenzen übereinstimmen.
Der Einsatz von MLLMs zur Kunstanalyse ist ein relativ neues Gebiet. Die Fähigkeit, sowohl visuelle als auch textuelle Informationen zu verarbeiten, eröffnet spannende Möglichkeiten für die Interaktion mit Kunst. MLLMs könnten beispielsweise dazu verwendet werden, den Stil eines Kunstwerks zu analysieren, Kunstwerke anhand ihrer ästhetischen Qualitäten zu vergleichen oder sogar selbst Kunst zu generieren.
Eine Studie der Hong Kong Polytechnic University hat sich mit der Frage beschäftigt, ob MLLMs die ästhetische Qualität von Bildern auf eine Weise bewerten können, die mit menschlichen Vorlieben übereinstimmt. Für diese Untersuchung wurde ein neuer Datensatz namens MM-StyleBench erstellt. Dieser Datensatz enthält eine Vielzahl von Bildern und Textbeschreibungen mit detaillierten Attributannotationen, um die Bewertung von künstlerischer Stilisierung zu ermöglichen.
Die Forscher entwickelten eine Methode zur Modellierung menschlicher Präferenzen und führten eine Korrelationsanalyse zwischen den Antworten der MLLMs und diesen Präferenzen durch. Dabei zeigte sich, dass MLLMs bei der Kunstanalyse zu Halluzinationen neigen, d.h. sie generieren Aussagen, die nicht durch die visuellen Informationen gestützt werden. Dies wird mit der Subjektivität von ästhetischen Urteilen in Verbindung gebracht.
Um die Übereinstimmung mit menschlichen Präferenzen zu verbessern, wurde eine neue Prompting-Methode namens ArtCoT entwickelt. ArtCoT basiert auf der Zerlegung von kunstspezifischen Aufgaben und der Verwendung von konkreter Sprache in den Prompts. Die Ergebnisse zeigen, dass ArtCoT die Fähigkeit von MLLMs zur Bewertung von Ästhetik verbessert und die Korrelation mit menschlichen Urteilen erhöht.
Die Forschungsergebnisse bieten wertvolle Einblicke in das Potenzial von MLLMs für die Kunst. Anwendungen wie Stiltransfer, künstlerische Bildgenerierung und die automatisierte Kunstkritik könnten von diesen Entwicklungen profitieren. Die Fähigkeit, Kunstwerke zu analysieren und zu bewerten, eröffnet neue Möglichkeiten für die Kunstgeschichte, die Kunstpädagogik und den Kunstmarkt.
Die Weiterentwicklung von MLLMs im Bereich der Ästhetikbewertung ist ein vielversprechendes Forschungsgebiet. Zukünftige Studien könnten sich auf die Verbesserung der Robustheit und Zuverlässigkeit von MLLMs konzentrieren, um Halluzinationen zu minimieren und die Übereinstimmung mit menschlichen Präferenzen weiter zu optimieren. Auch die Entwicklung von MLLMs, die verschiedene kulturelle und historische Kontexte berücksichtigen, ist ein wichtiges Ziel für zukünftige Forschung.
Bibliographie:
- https://www.chatpaper.com/chatpaper/fr/paper/100585
- https://arxiv.org/abs/2308.04152
- https://www.chatpaper.com/chatpaper/fr?id=4&date=1736956800&page=1
- https://medium.com/to-data-beyond/important-computer-vision-papers-for-the-week-from-30-12-to-05-01-6ae0d433c0bb
- https://github.com/friedrichor/Awesome-Multimodal-Papers
- https://2024.emnlp.org/program/accepted_findings/
- https://arxiv.org/abs/2205.11916
- https://aclanthology.org/2024.naacl-long.117v2.pdf
- https://www.researchgate.net/publication/360834082_Large_Language_Models_are_Zero-Shot_Reasoners
- https://2024.aclweb.org/program/finding_papers/