Große multimodale Modelle (LMMs) verzeichnen derzeit rasante Fortschritte und finden Anwendung in Bereichen wie der medizinischen Diagnostik, der Entwicklung von persönlichen Assistenten und im Bereich Embodied AI. Trotz ihrer Leistungsfähigkeit bleibt die Funktionsweise dieser komplexen Modelle oft undurchsichtig. Dies führt mitunter zu unerwartetem Verhalten, wie etwa Halluzinationen oder Anfälligkeit für Jailbreak-Angriffe. Daher ist ein tiefergehendes Verständnis der inneren Repräsentationen von LMMs unerlässlich, um ihre Zuverlässigkeit und Sicherheit zu gewährleisten.
Eine neue Forschungsarbeit des LMMs-Lab stellt einen vielversprechenden Ansatz zur Interpretation und Steuerung von LMMs vor. Die Wissenschaftler präsentieren ein automatisiertes Framework, das auf Sparse Autoencodern (SAEs) und der Fähigkeit größerer LMMs basiert, die Funktionsweise kleinerer Modelle zu interpretieren. Konkret wurde das LLaVA-NeXT-8B Modell mithilfe des größeren LLaVA-OV-72B Modells analysiert.
Die Interpretation von LMMs stellt eine besondere Herausforderung dar. Die Neuronen dieser Modelle kodieren oft polysemantisch, d.h. ein einzelnes Neuron kann mehrere Bedeutungen repräsentieren. Gleichzeitig kann eine einzelne Bedeutung über mehrere Neuronen verteilt sein. Diese Komplexität wird durch die hohe Dimensionalität der Modelle zusätzlich verstärkt.
Ein weiterer Aspekt ist die enorme Anzahl von Konzepten, die in LMMs repräsentiert sind. Im Gegensatz zu traditionellen Modellen, die oft nur einige hundert Konzepte abdecken, umfassen LMMs hunderttausende Konzepte aus offenen Domänen. Eine manuelle Analyse durch menschliche Experten ist daher praktisch unmöglich. Es bedarf automatisierter Verfahren, um die internen Repräsentationen dieser Modelle zu entschlüsseln.
Das im LMMs-Lab entwickelte Framework adressiert diese Herausforderungen durch den Einsatz von SAEs. Diese dienen dazu, die komplexen Repräsentationen in einzelne, leichter verständliche Merkmale zu zerlegen. Die SAEs werden in eine spezifische Schicht des kleineren LMMs integriert und mit dem LLaVA-NeXT-Dataset trainiert. Dabei bleiben alle anderen Komponenten des Modells eingefroren.
Die so gelernten Merkmale werden anschließend durch eine automatisierte Pipeline interpretiert. Für jedes Merkmal identifiziert das System die Bilder und Bildbereiche, die dieses Merkmal am stärksten aktivieren. Diese Informationen werden dann dem größeren LMM (LLaVA-OV-72B) zur Analyse vorgelegt. Das größere Modell nutzt seine Zero-Shot-Fähigkeiten, um die gemeinsamen Faktoren zu identifizieren und Erklärungen für die Aktivierung des jeweiligen Merkmals zu generieren.
Die Forschungsergebnisse zeigen, dass die identifizierten Merkmale effektiv genutzt werden können, um das Verhalten des kleineren LMMs zu steuern. Durch gezielte Manipulation der Merkmalsaktivierungen können bestimmte Verhaltensweisen verstärkt oder abgeschwächt werden. Dies eröffnet Möglichkeiten zur Korrektur von Fehlern und zur Verbesserung der Zuverlässigkeit von LMMs.
Die Studie liefert wertvolle Einblicke in die Funktionsweise von LMMs. So wurden beispielsweise Merkmale identifiziert, die mit Emotionen korrelieren. Dies bestätigt die Fähigkeit von LMMs, Emotionen zu erkennen und zu verarbeiten. Darüber hinaus konnten die Forscher die Ursachen für bestimmte Modellverhalten, wie etwa Halluzinationen, identifizieren und durch Anpassung der entsprechenden Merkmale korrigieren.
Interessanterweise zeigen einige der identifizierten Merkmale Parallelen zu kognitiven Prozessen im menschlichen Gehirn. Dies deutet darauf hin, dass die Interpretation von LMMs auch zum Verständnis der menschlichen Informationsverarbeitung beitragen könnte.
Die vorgestellte Forschung des LMMs-Lab bietet einen vielversprechenden Ansatz zur Interpretation und Steuerung von großen multimodalen Modellen. Durch den Einsatz von SAEs und die Nutzung der Fähigkeiten größerer LMMs gelingt es, die komplexen Repräsentationen dieser Modelle zu entschlüsseln und ihr Verhalten gezielt zu beeinflussen. Diese Erkenntnisse tragen nicht nur zur Verbesserung der Zuverlässigkeit und Sicherheit von LMMs bei, sondern eröffnen auch neue Perspektiven für das Verständnis der menschlichen Kognition.
Bibliographie: https://huggingface.co/papers/2411.14982 https://arxiv.org/abs/2411.14982 https://arxiv.org/html/2411.14982v1 https://huggingface.co/liuziwei7/activity/all https://huggingface.co/papers/2408.06327 https://www.alignmentforum.org/posts/kobJymvvcvhbjWFKe/laying-the-foundations-for-vision-and-multimodal-mechanistic https://huggingface.co/papers/2309.14525 https://paperswithcode.com/author/zhimin-li