Fortschritte und Herausforderungen in der Sicherheit von Sprachmodellen durch OpenAIs Instruction Hierarchy

In den letzten Jahren hat Künstliche Intelligenz (KI) bemerkenswerte Fortschritte gemacht, insbesondere im Bereich der Sprachmodelle. Große Sprachmodelle (Large Language Models, LLMs) wie GPT-3 und GPT-3.5 von OpenAI haben die Art und Weise, wie wir mit Computern interagieren, revolutioniert und neue Möglichkeiten für Anwendungen in verschiedenen Branchen eröffnet. Eine der Herausforderungen beim Einsatz dieser Modelle ist jedoch ihre Anfälligkeit für sogenannte Prompt-Injections und Jailbreaks. Dabei handelt es sich um Angriffe, bei denen Nutzer oder Dritte dem KI-System Anweisungen geben, die von den ursprünglichen, vom Entwickler vorgesehenen Instruktionen abweichen. Diese können dazu führen, dass das System unerwünschte oder sogar schädliche Aktionen ausführt. Um dieser Herausforderung zu begegnen, hat OpenAI kürzlich ein Konzept namens "Instruction Hierarchy" vorgestellt. Diese Anweisungshierarchie definiert verschiedene Privilegienebenen für Instruktionen und legt fest, wie das Modell auf widersprüchliche Anweisungen reagieren sollte. In einem kürzlich veröffentlichten Artikel von OpenAI-Forschern wird vorgeschlagen, dass Systemnachrichten (zum Beispiel Instruktionen der Anwendungsentwickler) Vorrang vor Benutzernachrichten haben sollten. Weiterhin sollten diese Benutzernachrichten Vorrang vor Inhalten Dritter (zum Beispiel Suchergebnissen aus dem Internet) haben. Die Instruction Hierarchy zielt darauf ab, die Sicherheit von LLMs zu erhöhen, indem sie Modelle trainiert, Anweisungen niedrigerer Priorität zu ignorieren, wenn diese nicht mit Anweisungen höherer Priorität übereinstimmen. In Fällen, in denen keine Möglichkeit besteht, den widersprüchlichen Anweisungen zu folgen, sollten die Modelle sich weigern, die Aktionen auszuführen. OpenAI hat diese Methode an GPT-3.5 angewendet und festgestellt, dass sie die Robustheit gegenüber Angriffen wie Systemprompt-Extraktionen um bis zu 63 Prozent verbessern kann. Darüber hinaus konnte die Widerstandsfähigkeit gegen Jailbreaks um bis zu 30 Prozent erhöht werden, während die Standardleistung des Modells auf häufig genutzten Benchmarks beibehalten wurde. Die Forschungsergebnisse deuten darauf hin, dass die Instruction Hierarchy ein wirksames Mittel sein könnte, um die Sicherheit von LLMs zu verbessern und ihre Anwendbarkeit in sicherheitskritischen Bereichen zu erweitern. Die OpenAI-Forscher planen, ihre Ansätze weiter zu verfeinern. Dazu gehört auch die Untersuchung, wie Modelle mit widersprüchlichen Anweisungen umgehen, die Erkundung von multimodalen Daten für die Anweisungshierarchie, die Implementierung von Änderungen in der Modellarchitektur und die Durchführung von expliziten adversarialen Trainings, um die Modellrobustheit zu erhöhen. Das Konzept der Instruction Hierarchy könnte weitreichende Auswirkungen auf die Entwicklung von KI-Systemen haben. Es wirft auch Fragen zur Verantwortung und Ethik im Umgang mit KI auf, insbesondere wenn es darum geht, sicherzustellen, dass KI-Systeme nicht manipuliert oder für schädliche Zwecke eingesetzt werden können. OpenAI ist nicht das einzige Unternehmen, das an Lösungen für diese Herausforderungen arbeitet. Andere Organisationen und Forschungseinrichtungen experimentieren ebenfalls mit ähnlichen Ansätzen, um die Sicherheit von KI-Modellen zu verbessern und ihre Anwendungsfelder zu erweitern. Während die Instruction Hierarchy ein Schritt in die richtige Richtung zu sein scheint, bleibt noch viel zu tun, um die Sicherheit und Zuverlässigkeit von KI-Systemen in einer zunehmend digitalisierten Welt zu gewährleisten. Quellen: - Wallace, E., Xiao, K., Leike, R., Weng, L., Heidecke, J., & Beutel, A. (2024). The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions. arXiv preprint arXiv:2404.13208. - OpenAI. (2024). Introducing the Instruction Hierarchy [Twitter]. Verfügbar unter: https://twitter.com/OpenAI/status/1782849356200308820 - The Decoder. (2024). OpenAI's new 'instruction hierarchy' could make AI models harder to fool. Verfügbar unter: https://the-decoder.com/openais-new-instruction-hierarchy-could-make-ai-models-harder-to-fool/ - Analytics India Magazine. (2024). OpenAI Introduces Instruction Hierarchy to Protect LLMs from Jailbreaks and Prompt Injections. Verfügbar unter: https://analyticsindiamag.com/openai-introduces-instruction-hierarchy-to-protect-llms-from-jailbreaks-and-prompt-injections/ - Marktechpost. (2023). This AI paper shows an avenue for creating large amounts of instruction data with varying levels of complexity using LLM instead of humans. Verfügbar unter: https://www.marktechpost.com/2023/07/26/this-ai-paper-shows-an-avenue-for-creating-large-amounts-of-instruction-data-with-varying-levels-of-complexity-using-llm-instead-of-humans/ - Microsoft GitHub. (n.d.). Use Cases - Enhanced Inference. Verfügbar unter: https://microsoft.github.io/autogen/docs/Use-Cases/enhanced_inference/