Die rasante Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat die Möglichkeiten der künstlichen Intelligenz erheblich erweitert. Trotz ihrer bemerkenswerten Fähigkeiten, eine Vielzahl von Aufgaben zu bewältigen, stehen diese Modelle jedoch vor erheblichen Herausforderungen in Bezug auf ihre Vertrauenswürdigkeit. Bisherige Studien zur Bewertung der Vertrauenswürdigkeit von MLLMs sind begrenzt und bieten keine umfassende Analyse, die zur Verbesserung dieser Modelle beitragen könnte.
Vor diesem Hintergrund haben Forscher der Tsinghua Universität, der Beihang Universität, der Shanghai Jiaotong Universität und RealAI MultiTrust entwickelt. MultiTrust ist der erste umfassende und einheitliche Benchmark, der die Vertrauenswürdigkeit von MLLMs in fünf Hauptaspekten bewertet: Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Datenschutz.
Um die Vertrauenswürdigkeit von MLLMs zu bewerten, hat das Forschungsteam eine rigorose Evaluationsstrategie entwickelt, die sowohl multimodale Risiken als auch cross-modale Auswirkungen berücksichtigt. Der Benchmark umfasst 32 verschiedene Aufgaben mit selbst kuratierten Datensätzen, die realistische und umfassende Szenarien mit vertrauenswürdigen Risiken abdecken.
Die Aufgaben sind in 10 Unteraspekte unterteilt, um die Zielverhalten besser zu kategorisieren. Die Datensätze wurden durch Anpassung bestehender Text-, Bild- und Multimodal-Datensätze sowie durch die Erstellung neuer Datensätze von Grund auf erstellt. Diese umfassende Methodik ermöglicht es, die Vertrauenswürdigkeit der MLLMs in verschiedenen Szenarien und unter verschiedenen Bedingungen zu bewerten.
In umfangreichen Experimenten mit 21 modernen MLLMs enthüllten die Forscher einige bisher unerforschte Vertrauenswürdigkeitsprobleme und Risiken. Die Ergebnisse zeigen, dass typische proprietäre Modelle immer noch Schwierigkeiten haben, visuell verwirrende Bilder wahrzunehmen und anfällig für multimodales Jailbreaking und adversariale Angriffe sind.
Zusätzlich neigen MLLMs dazu, Datenschutz in Texten preiszugeben und ideologische sowie kulturelle Vorurteile zu offenbaren, insbesondere wenn sie mit irrelevanten Bildern gepaart werden. Diese Erkenntnisse deuten darauf hin, dass die Multimodalität die internen Risiken der zugrunde liegenden großen Sprachmodelle verstärkt.
Um zukünftige Fortschritte in diesem wichtigen Bereich zu fördern, haben die Forscher einen skalierbaren Werkzeugkasten für standardisierte Vertrauenswürdigkeitsforschung veröffentlicht. Dieser Werkzeugkasten ist öffentlich zugänglich und soll anderen Forschern und Entwicklern helfen, auf dieser Arbeit aufzubauen und weitere Herausforderungen in größerer Tiefe zu erkunden.
Der MultiTrust-Benchmark stellt eine umfassende und gut gestaltete Bewertung der Vertrauenswürdigkeit von MLLMs dar. Die Forscher haben mehrere Aspekte der Vertrauenswürdigkeit berücksichtigt, darunter Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Datenschutz, was für das Verständnis der realen Zuverlässigkeit und den verantwortungsvollen Einsatz dieser leistungsstarken KI-Systeme von entscheidender Bedeutung ist.
Eine mögliche Einschränkung der Studie ist die Abhängigkeit von selbst kuratierten Datensätzen, die bestimmte Verzerrungen einführen oder im Vergleich zu breiter gefächerten Datensätzen weniger divers sein könnten. Außerdem geht die Arbeit nicht näher auf die spezifischen Mechanismen oder Techniken ein, die von den getesteten 21 MLLM-Systemen verwendet werden, was weitere Einblicke in die Ursachen der beobachteten Vertrauenswürdigkeitsprobleme bieten könnte.
Darüber hinaus behandelt die Studie nicht die potenziellen Kompromisse oder Spannungen, die beim Optimieren für verschiedene Vertrauenswürdigkeitsaspekte auftreten können, wie das Gleichgewicht zwischen Sicherheit und Funktionalität oder die Herausforderungen bei der Sicherstellung von Fairness angesichts komplexer multimodaler Eingaben.
Trotz dieser Einschränkungen haben die Forscher einen wertvollen Beitrag geleistet, indem sie einen standardisierten Benchmark für die Vertrauenswürdigkeitsbewertung etabliert und die kritische Notwendigkeit weiterer Fortschritte in diesem Bereich hervorgehoben haben. Die Förderung anderer Forscher und Entwickler, auf dieser Arbeit aufzubauen und diese Herausforderungen in größerer Tiefe zu erforschen, wird entscheidend sein, um die Zuverlässigkeit und den verantwortungsvollen Einsatz von MLLMs zu verbessern.
Diese Studie stellt einen bahnbrechenden Versuch dar, einen umfassenden Benchmark, bekannt als MultiTrust, zur Bewertung der Vertrauenswürdigkeit von MLLMs zu etablieren. Durch die Bewertung dieser leistungsstarken KI-Systeme in fünf Schlüsselbereichen – Wahrhaftigkeit, Sicherheit, Robustheit, Fairness und Datenschutz – haben die Forscher bisher unerforschte Vertrauenswürdigkeitsprobleme und Risiken aufgedeckt.
Die Ergebnisse unterstreichen die Komplexität, die durch die Multimodalität dieser Modelle eingeführt wird, und weisen darauf hin, dass selbst proprietäre MLLM-Systeme immer noch Schwierigkeiten haben, visuelle Informationen genau zu erfassen und anfällig für verschiedene Angriffe sind. Darüber hinaus haben die Forscher festgestellt, dass MLLMs eher dazu neigen, private Informationen preiszugeben und Vorurteile offenzulegen, was darauf hindeutet, dass der multimodale Ansatz die internen Risiken der zugrunde liegenden großen Sprachmodelle verstärken kann.
Durch die Veröffentlichung eines skalierbaren Werkzeugkastens für standardisierte Vertrauenswürdigkeitsforschung haben die Forscher den Weg für zukünftige Fortschritte in diesem kritischen Bereich geebnet. Da MLLMs in verschiedenen Anwendungen zunehmend an Bedeutung gewinnen, wird die Sicherstellung ihrer Vertrauenswürdigkeit entscheidend sein, um ihr volles Potenzial auszuschöpfen und eine verantwortungsvolle KI-Entwicklung zu fördern.