Fortschritte in der KI Interpretierbarkeit durch innovative Forschung am MIT

Künstliche Intelligenz (KI) entwickelt sich in rasantem Tempo weiter und nimmt eine immer wichtigere Rolle in verschiedenen Bereichen unseres Lebens ein. Dabei werden Systeme immer komplexer und ihre Funktionsweisen für Menschen schwerer nachvollziehbar. Hier setzt die Forschungsarbeit des Computer Science and Artificial Intelligence Laboratory (CSAIL) am Massachusetts Institute of Technology (MIT) an, die sich mit der Interpretierbarkeit von KI-Systemen beschäftigt. Das Team um die Postdoktorandin Tamar Rott Shaham hat einen neuen Ansatz entwickelt, um das Verhalten von trainierten neuronalen Netzwerken zu erklären. Der Ansatz stützt sich auf sogenannte "Automated Interpretability Agents" (AIA), welche aus vortrainierten Sprachmodellen bestehen. Diese Agenten führen Experimente an anderen KI-Systemen durch und erstellen intuitive Erklärungen für die Berechnungen innerhalb dieser Netzwerke. Eine der zentralen Neuerungen ist MAIA, ein multimodaler automatisierter Interpretierbarkeitsagent. MAIA nutzt neuronale Modelle, um Aufgaben wie die Interpretation von Merkmalen und die Entdeckung von Fehlfunktionen zu automatisieren. Die KI-Agents sind in der Lage, Hypothesen zu bilden, Experimente durchzuführen und aus den Ergebnissen zu lernen, um so ihre Erkenntnisse über die anderen Systeme in Echtzeit zu verfeinern. Eine weitere Errungenschaft ist der "Function Interpretation and Description" (FIND) Benchmark, der Funktionen enthält, die Berechnungen innerhalb trainierter Netzwerke nachbilden. Diese Funktionen kommen mit Beschreibungen, die als Vergleichsstandard für die Bewertung von Interpretationsverfahren dienen. So können die Erklärungen, die ein AIA liefert, mit den Beschreibungen im Benchmark verglichen werden, um die Leistungsfähigkeit der Interpretierbarkeitsagenten zu bewerten. Die FIND-Benchmark enthält beispielsweise synthetische Neuronen, die das Verhalten von echten Neuronen in Sprachmodellen nachahmen. Die KI-Agenten haben einen "Black-Box"-Zugriff auf diese synthetischen Neuronen und konzipieren Eingaben, um die Reaktionen der Neuronen zu testen. Nachdem ein AIA feststellt, dass ein synthetisches Neuron stärker auf das Eingabewort "Auto" als auf andere reagiert, könnte es feinkörnigere Tests entwerfen, um die Selektivität des Neurons für Autos von anderen Transportmitteln zu unterscheiden. Die Forscher entwickelten auch ein innovatives Bewertungsprotokoll, um die Wirksamkeit von AIAs und bestehenden automatisierten Interpretierbarkeitsmethoden zu beurteilen. Dieses Protokoll umfasst zwei Ansätze: Für Aufgaben, die das Replizieren der Funktion in Code erfordern, werden die KI-generierten Schätzungen direkt mit den ursprünglichen Funktionen verglichen. Bei Aufgaben, die natürlichsprachliche Beschreibungen von Funktionen beinhalten, erfordert eine genaue Bewertung ein automatisiertes Verständnis ihres semantischen Inhalts. Dazu entwickelten die Forscher ein spezialisiertes "Drittanbieter"-Sprachmodell, das darauf trainiert ist, die Genauigkeit und Kohärenz der von den KI-Systemen bereitgestellten natürlichsprachlichen Beschreibungen zu bewerten und mit dem tatsächlichen Funktionsverhalten zu vergleichen. Obwohl AIAs andere Interpretierbarkeitsansätze übertreffen, zeigen die Ergebnisse des FIND-Benchmarks, dass KI-Agenten immer noch fast die Hälfte der Funktionen nicht genau beschreiben können. Um diese Genauigkeit zu verbessern, versucht das Team, die Exploration der AIAs durch die Initialisierung ihrer Suche mit spezifischen, relevanten Eingaben zu leiten. Die Forscher arbeiten auch an einem Toolkit, das es AIAs ermöglicht, präzisere Experimente an neuronalen Netzwerken durchzuführen. Ziel ist es, automatisierte Interpretierbarkeitsverfahren zu entwickeln, die Menschen dabei helfen könnten, Systeme zu prüfen – zum Beispiel für autonomes Fahren oder Gesichtserkennung – um mögliche Fehlermodi, versteckte Vorurteile oder überraschende Verhaltensweisen vor der Implementierung zu diagnostizieren. Es ist ein wichtiger Schritt in der KI-Forschung, Systeme verständlicher und zuverlässiger zu machen. Die Vision ist, eines Tages nahezu autonome AIAs zu entwickeln, die andere Systeme prüfen können, während Wissenschaftler Aufsicht und Anleitung bieten. Das Ziel ist es, die Interpretierbarkeit von KI auf komplexere Verhaltensweisen auszudehnen und Eingaben vorherzusagen, die zu unerwünschten Verhaltensweisen führen könnten. Das Projekt zeigt das Potenzial von KI, sich selbst zu erklären und zu verstehen. Diese Entwicklung könnte zu einem neuen Verständnis von KI führen und dazu beitragen, die Kluft zwischen menschlichem Verständnis und maschineller Intelligenz zu überbrücken. Als Quellen für diesen Artikel dienten Informationen von der offiziellen Website des CSAIL am MIT, speziell die Seite des Projekts MAIA sowie die Tweets von Tamar Rott Shaham und anderen beteiligten Forschern.