In den vergangenen Monaten stand OpenAI unter intensiver Beobachtung und Kritik. Viele Experten und Kritiker werfen dem Unternehmen vor, bei der Entwicklung leistungsstarker künstlicher Intelligenz (KI) zu schnell und unüberlegt vorzugehen. Inmitten dieser Kontroversen hat OpenAI nun neue Forschungsergebnisse vorgestellt, die die Sicherheit von KI verbessern sollen. Doch sind diese Maßnahmen ausreichend, um die Bedenken der Experten zu zerstreuen?
OpenAI hat kürzlich eine neue Technik vorgestellt, die darauf abzielt, die Arbeitsweise seiner Systeme transparenter zu machen. Diese Technik besteht darin, zwei KI-Modelle in einen Dialog zu bringen, bei dem das mächtigere Modell gezwungen wird, seine Überlegungen offenzulegen. Dies soll es den Forschern ermöglichen, besser zu verstehen, wie die KI zu ihren Schlussfolgerungen gelangt.
„Dies ist ein Kernstück unserer Mission, eine künstliche allgemeine Intelligenz zu entwickeln, die sowohl sicher als auch nützlich ist“, erklärt Yining Chen, ein Forscher bei OpenAI.
Bisher wurden diese Techniken an einem KI-Modell getestet, das einfache mathematische Probleme löst. Die Forscher von OpenAI baten das Modell, seine Überlegungen zu erklären, während es Fragen beantwortete oder Probleme löste. Ein zweites Modell wurde darauf trainiert, zu überprüfen, ob die Antworten korrekt waren oder nicht. Die Forscher stellten fest, dass der Dialog zwischen den beiden Modellen das mathematisch lösende Modell dazu ermutigte, offener und transparenter mit seinen Überlegungen umzugehen.
„Es ist Teil des langfristigen Sicherheitsforschungsplans“, sagt Jan Hendrik Kirchner, ein weiterer Forscher bei OpenAI. „Wir hoffen, dass andere Forscher darauf aufbauen und vielleicht auch andere Algorithmen ausprobieren können.“
Transparenz und Erklärbarkeit sind zentrale Anliegen für KI-Forscher, die daran arbeiten, leistungsstärkere Systeme zu entwickeln. Große Sprachmodelle bieten manchmal vernünftige Erklärungen dafür, wie sie zu einer Schlussfolgerung gelangt sind. Ein zentrales Anliegen ist jedoch, dass zukünftige Modelle undurchsichtiger oder sogar täuschender in ihren Erklärungen werden könnten – möglicherweise ein unerwünschtes Ziel verfolgen und dabei lügen.
Die heute vorgestellten Forschungsergebnisse sind Teil eines breiteren Bemühens, zu verstehen, wie große Sprachmodelle, die das Rückgrat von Programmen wie ChatGPT bilden, funktionieren. Es handelt sich um eine von mehreren Techniken, die dazu beitragen könnten, leistungsstärkere KI-Modelle transparenter und damit sicherer zu machen. OpenAI und andere Unternehmen erkunden auch mechanistischere Wege, um in die Funktionsweise großer Sprachmodelle einzublicken.
In den letzten Wochen hat OpenAI mehr über seine Arbeit an der KI-Sicherheit veröffentlicht, nachdem Kritik an seinem Ansatz laut wurde. Im Mai erfuhr WIRED, dass ein Team von Forschern, das sich der Untersuchung langfristiger KI-Risiken widmete, aufgelöst worden war. Dies geschah kurz nach dem Abgang von Mitgründer und Schlüsseltechnologieführer Ilya Sutskever, der einer der Vorstandsmitglieder war, die CEO Sam Altman im November kurzzeitig absetzten.
OpenAI wurde mit dem Versprechen gegründet, KI sowohl transparenter für die Kontrolle als auch sicherer zu machen. Nach dem durchschlagenden Erfolg von ChatGPT und intensiverem Wettbewerb von gut finanzierten Rivalen haben einige dem Unternehmen vorgeworfen, auffällige Fortschritte und Marktanteile über die Sicherheit zu stellen.
Daniel Kokotajlo, ein Forscher, der OpenAI verlassen und einen offenen Brief unterzeichnet hat, in dem er den Ansatz des Unternehmens zur KI-Sicherheit kritisiert, sagt, dass die neuen Arbeiten wichtig, aber inkrementell sind und nichts an der Tatsache ändern, dass Unternehmen, die die Technologie entwickeln, mehr Aufsicht benötigen. „Die Situation, in der wir uns befinden, bleibt unverändert,“ sagt er. „Undurchsichtige, unkontrollierbare, unregulierte Unternehmen rennen um die Wette, um künstliche Superintelligenz zu bauen, ohne im Grunde einen Plan zu haben, wie man sie kontrollieren kann.“
Eine weitere Quelle mit Kenntnis der inneren Abläufe bei OpenAI, die anonym bleiben möchte, weil sie nicht befugt war, öffentlich zu sprechen, sagt, dass auch externe Aufsicht über KI-Unternehmen erforderlich ist. „Die Frage ist, ob sie es ernst meinen mit den Arten von Prozessen und Governance-Mechanismen, die erforderlich sind, um den gesellschaftlichen Nutzen über den Profit zu stellen“, sagt die Quelle. „Nicht, ob sie einigen ihrer Forscher erlauben, etwas Sicherheitsarbeit zu leisten.“
OpenAIs Bemühungen um die Sicherheit von KI sind zweifellos ein Schritt in die richtige Richtung. Die vorgestellten Techniken zur Erhöhung der Transparenz und Erklärbarkeit von KI-Modellen zeigen, dass das Unternehmen sich der Herausforderungen bewusst ist. Dennoch bleibt die Frage, ob diese Maßnahmen ausreichen, um die tiefgreifenden Bedenken von Experten und Kritikern zu zerstreuen. Die Forderungen nach mehr Aufsicht und Kontrolle werden lauter, und es bleibt abzuwarten, wie OpenAI und andere Unternehmen auf diese Herausforderungen reagieren werden.