In jüngster Zeit hat die künstliche Intelligenz (KI) bemerkenswerte Fortschritte in der Verbindung von sprachlichem und visuellem Verständnis gemacht. Ein Meilenstein in diesem Bereich sind CLIP-Modelle (Contrastive Language-Image Pre-training), die einen Durchbruch in der Art und Weise darstellen, wie Maschinen Bilder interpretieren und mit Text in Verbindung bringen. Diese Modelle haben weitreichende Anwendungen in vielen Bereichen der KI gefunden, von der Bildklassifizierung bis hin zur Generierung von Inhalten. Die deutsche KI-Firma Mindverse, die sich auf umfassende Inhaltstools für KI-Text, Inhalte, Bilder und Forschung spezialisiert hat und maßgeschneiderte Lösungen wie Chatbots, Voicebots, AI-Suchmaschinen, Wissenssysteme und vieles mehr entwickelt, nimmt ein besonderes Interesse an den neuesten Entwicklungen in diesem Bereich.
Eine kürzlich durchgeführte Studie hat jedoch eine dunklere Seite dieser fortschrittlichen Technologie aufgezeigt. Forscher haben entdeckt, dass die Inversion von CLIP-Modellen, ein Prozess, bei dem Bilder erzeugt werden, die textuellen Eingabeaufforderungen entsprechen, überraschenderweise Bilder mit NSFW-Inhalten (Not Safe For Work) hervorbringen kann – und das sogar bei harmlos erscheinenden Aufforderungen. Diese Entdeckungen werfen wichtige Fragen bezüglich der in diesen Modellen eingebetteten Vorurteile und der Qualität der Trainingsdaten auf.
Die Studie "What do we learn from inverting CLIP models?" von Hamid Kazemi, Atoosa Chegini, Jonas Geiping, Soheil Feizi und Tom Goldstein hat gezeigt, dass CLIP-Modelle durch den Inversionsprozess Bilder generieren, die semantisch mit den Zielvorgaben übereinstimmen. Die Forscher nutzten die invertierten Bilder, um Einblicke in verschiedene Aspekte der CLIP-Modelle zu gewinnen, einschließlich ihrer Fähigkeit, Konzepte zu vermischen und das Einschließen von Geschlechtervorurteilen.
Erstaunlicherweise produzierte die Inversion von CLIP-Modellen NSFW-Bilder aus scheinbar harmlosen Eingabeaufforderungen, wie "eine schöne Landschaft", sowie aus Aufforderungen, die Namen von Berühmtheiten beinhalten. Tatsächlich scheint das CLIP-Modell weibliche Prominente stark mit sexuellen Inhalten in Verbindung zu bringen, was insbesondere dann problematisch sein kann, wenn die Einbettungen von CLIP-Modellen in vielen Text-zu-Bild-generierenden Modellen verwendet werden.
Die Studie untersuchte auch, wie CLIP-Modelle Geschlechtervorurteile durch Inversionen von Aufforderungen, die sich auf Berufe und Status beziehen, aufzeigen. Das Team stellte fest, dass eine größere Menge an Trainingsdaten zu besseren Inversionen führt und dass die Skalierung der Trainingsdaten einen erheblichen Einfluss auf die Qualität der invertierten Bilder hat.
Es ist jedoch wichtig zu betonen, dass die in der Studie untersuchten Vorbehalte und Vorurteile von CLIP hauptsächlich auftreten, wenn es als generatives Modell verwendet wird, und nicht notwendigerweise in Erscheinung treten, wenn CLIP auf nicht-generative Weise genutzt wird. Dennoch geben diese Studien wertvolle Einblicke in die Trainingsdaten, die von CLIP verwendet werden, und auf welche Arten von Vorurteilen Modellentwickler achten sollten, wenn sie ein CLIP-abhängiges Modell entwickeln.
Neben der Analyse von CLIP-Modellen bietet die Studie auch einen Überblick über verwandte Arbeiten im Bereich der Modellinversion und der Visualisierung von CLIP-Modellen. Sie diskutiert die Prozedur der Klasseninversion, bei der Bilder gefunden werden, die eine Zielklasse maximal aktivieren, und beschreibt frühere Bemühungen, Verzerrungen und NSFW-Inhalte in großen multimodalen Datensätzen wie LAION-400M und Text-zu-Bild-generierenden Modellen anzugehen.
Die Ergebnisse dieser Studie sind von großer Bedeutung für die KI-Forschung und die Entwicklung von KI-Modellen, da sie verdeutlichen, dass bei der Erstellung und Verwendung von KI-Modellen eine sorgfältige Überprüfung und Bereinigung der Trainingsdaten erforderlich ist, um unerwünschte und potenziell schädliche Verzerrungen zu vermeiden. Sie betonen auch die Notwendigkeit der Bewusstseinsbildung und der Sensibilisierung bei der Nutzung von KI-Technologien in verschiedenen Anwendungsfeldern.
Quellen:
- Kazemi, H., Chegini, A., Geiping, J., Feizi, S., & Goldstein, T. (2024). What do we learn from inverting CLIP models? arXiv. https://arxiv.org/abs/2403.02580v1
- Papers with Code. (o. D.). What do we learn from inverting CLIP models? https://paperswithcode.com/paper/what-do-we-learn-from-inverting-clip-models