AutoDAN-Turbo: Automatisierte Entwicklung von Jailbreak-Strategien für Sprachmodelle

Kategorien:

No items found.

Freigegeben:

October 13, 2024

Ein Team von Forschern US-amerikanischer Universitäten und Nvidia hat AutoDAN-Turbo entwickelt, ein System, das selbstständig Wege findet, Sicherheitsvorkehrungen in großen Sprachmodellen zu umgehen. AutoDAN-Turbo funktioniert, indem es verschiedene "Jailbreak"-Strategien entdeckt und kombiniert - also Arten, Prompts so zu formulieren, dass sie die eingebauten Regeln eines Modells umgehen. Während ChatGPT beispielsweise nicht bei illegalen Aktivitäten helfen soll, können bestimmte Prompt-Formulierungen es dennoch dazu bringen.

Automatisierte Sicherheitslücken-Findung: AutoDAN-Turbo stellt große Sprachmodelle auf die Probe

Das System kann selbstständig neue Jailbreak-Ansätze entwickeln und diese organisiert speichern. Dadurch ist es in der Lage, erfolgreiche Strategien wiederzuverwenden und darauf aufzubauen. AutoDAN-Turbo erstellt aus einer Jailbreak-Strategie einen vollständigen Prompt. Es kann auch bereits existierende, von Menschen erstellte Jailbreak-Methoden in seine Strategiebibliothek aufnehmen. Das System benötigt für seine Funktion lediglich Zugriff auf die Textausgabe des Modells. Tests zeigen, dass es sowohl bei Angriffen auf Open-Source- als auch auf proprietäre Sprachmodelle hohe Erfolgsquoten erzielt.

Überlegene Leistung im Vergleich zu anderen Methoden

AutoDAN-Turbo ist anderen Ansätzen auf dem Harmbench-Datensatz zum Testen von Jailbreaks nun überlegen. Es funktioniert tendenziell besser mit größeren Modellen wie Llama-3-70B, schneidet aber auch bei kleineren Modellen gut ab. Das System hat nicht nur häufiger Erfolg bei seinen Angriffen, sondern produziert auch - gemessen am StrongREJECT-Score - schädlichere Ausgaben. Die Forscher führen die starke Leistung von AutoDAN-Turbo darauf zurück, dass es in der Lage ist, Jailbreak-Strategien selbstständig und ohne menschliche Anleitung zu erforschen. Andere Verfahren, wie z. B. Rainbow Teaming, beruhen dagegen auf einem begrenzten Satz von menschengemachten Strategien, was zu einer geringeren Erfolgsquote führt. Insbesondere erreichte AutoDAN-Turbo eine Angriffs Erfolgsrate von 88,5 % bei GPT-4-1106-Turbo. Durch Hinzufügen von sieben von Menschen entworfenen Jailbreak-Strategien aus Forschungsarbeiten erreichte es eine noch höhere Erfolgsquote von 93,4 %. Der Code von AutoDAN-Turbo ist als kostenloser Download auf GitHub verfügbar, zusammen mit einer Anleitung zur Einrichtung.

Ausblick: Herausforderungen und Chancen für die Sicherheit großer Sprachmodelle

Die Entwicklung von AutoDAN-Turbo verdeutlicht die Herausforderungen bei der Absicherung großer Sprachmodelle. Die Fähigkeit des Systems, selbstständig neue Jailbreak-Strategien zu entwickeln, unterstreicht die Notwendigkeit robusterer Sicherheitsmechanismen. Zukünftige Forschung könnte sich auf die Entwicklung von Abwehrmaßnahmen konzentrieren, die sich dynamisch an neue Bedrohungen anpassen können. Gleichzeitig bietet AutoDAN-Turbo auch Chancen für die Sicherheitsforschung. Durch das automatisierte Aufdecken von Schwachstellen können Entwickler von Sprachmodellen ihre Systeme robuster und widerstandsfähiger gegen Angriffe machen. Die Erkenntnisse aus der Entwicklung von AutoDAN-Turbo können dazu beitragen, die Sicherheit und Zuverlässigkeit großer Sprachmodelle in Zukunft zu verbessern. Bibliographie - Liu, Xiaogeng, et al. "AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs." arXiv preprint arXiv:2410.05295 (2024). - Li, Xiaoxia, et al. "Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs." arXiv preprint arXiv:2402.14872 (2024). - Shen, Xinyue, et al. ""Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models." arXiv preprint arXiv:2405.08247 (2024). - Takemoto, Kazuhiro. "All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks." Applied Sciences 14.9 (2024): 3558. - Xu, Nan, et al. "WildTeaming at Scale: From In-the-Wild Jailbreaks to Adversarially Safer Language Models." arXiv preprint arXiv:2308.04271 (2023).

Was bedeutet das?