Mit dem Aufkommen von großen Sprachmodellen (Large Language Models, LLMs) im Bereich der Künstlichen Intelligenz eröffnen sich neue Möglichkeiten und Herausforderungen, insbesondere im Bereich der Cybersicherheit. Diese Modelle haben das Potenzial, autonom Schwachstellen zu identifizieren und Exploits auszuführen, was sowohl Chancen als auch Risiken birgt. In diesem Zusammenhang haben Forscher das Rahmenwerk Cybench entwickelt, um die Cybersicherheitsfähigkeiten und -risiken dieser Modelle zu bewerten.
Cybench ist ein umfassendes Rahmenwerk, das entwickelt wurde, um spezifische Cybersicherheitsaufgaben zu definieren und Agenten auf diesen Aufgaben zu bewerten. Das Rahmenwerk umfasst 40 professionelle Capture-the-Flag (CTF) Aufgaben aus vier verschiedenen Wettbewerben, die kürzlich und von unterschiedlichem Schwierigkeitsgrad sind. Jede Aufgabe wird in einer Umgebung ausgeführt, in der ein Agent Bash-Befehle ausführen und die Ausgaben beobachten kann. Da viele Aufgaben die Fähigkeiten bestehender LLM-Agenten übersteigen, wurden für 17 der 40 Aufgaben Zwischenschritte eingeführt, um eine schrittweise Bewertung zu ermöglichen.
Zur Bewertung der Agenten wurde ein Cybersicherheitsagent konstruiert und sieben Modelle wurden bewertet: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat und Llama 3.1 405B Instruct. Ohne Anleitung konnten die Agenten nur die einfachsten kompletten Aufgaben lösen, die menschliche Teams bis zu 11 Minuten benötigten. Claude 3.5 Sonnet und GPT-4o hatten dabei die höchsten Erfolgsraten. Mit Zwischenschritten konnten die Modelle eine um 3,2 % höhere Erfolgsrate bei vollständigen Aufgaben erzielen als ohne.
Ein weiteres relevantes Benchmark ist CTIBench, das speziell entwickelt wurde, um die Leistung von LLMs in der Cyber Threat Intelligence (CTI) zu bewerten. CTIBench umfasst mehrere Datensätze, die auf die Bewertung des Wissens von LLMs im Bereich der Cyberbedrohungen abzielen. Es bietet Einblicke in die Stärken und Schwächen der Modelle im CTI-Kontext und trägt zu einem besseren Verständnis der Fähigkeiten von LLMs in der CTI bei.
Die ethischen Bedenken und Sicherheitsbedenken im Zusammenhang mit LLMs sind von großer Bedeutung. Modelle können Fehlinformationen liefern oder in technischen Bereichen Missverständnisse verursachen, was zu unzuverlässiger Intelligenz führen kann. Daher ist es wichtig, Benchmarks wie Cybench und CTIBench zu entwickeln, um die Zuverlässigkeit und Nützlichkeit dieser Modelle in der Praxis zu bewerten.
Benchmarks spielen eine entscheidende Rolle bei der Bewertung der Fortschritte von LLMs im Laufe der Zeit und der Bestimmung, welche Aufgaben ein Modell bewältigen kann. Sie helfen auch bei der Risikobewertung und der Entscheidung, ob ein Modell für einen bestimmten Zweck verwendet werden sollte. Einige gängige Benchmarks umfassen GLUE, SuperGLUE, MMLU und HELM, die allgemeine Sprachverständnisfähigkeiten bewerten. Sicherheitsspezifische Benchmarks wie SECURE und CTIBench bieten eine praxisorientierte Bewertung der Fähigkeiten von LLMs in Cybersicherheitskontexten.
Trotz der Fortschritte gibt es weiterhin Herausforderungen bei der Bewertung von LLMs in der Cybersicherheit. Zu den Herausforderungen gehören die Abdeckungslücken in den verfügbaren Bewertungen, das Phänomen des „Benchmark-Chasing“ und die mangelnde Standardisierung bei den Bewertungsmethoden. Es ist wichtig, kontinuierlich neue Benchmarks zu entwickeln und bestehende zu verbessern, um den dynamischen Anforderungen der Cybersicherheit gerecht zu werden.
Cybench und ähnliche Rahmenwerke sind entscheidend, um die Fähigkeiten und Risiken von LLMs in der Cybersicherheit zu bewerten. Sie bieten eine strukturierte Methode zur Bewertung der Leistung und Zuverlässigkeit von Modellen und tragen zur Verbesserung der Cybersicherheitsmaßnahmen bei. Durch kontinuierliche Forschung und Entwicklung können diese Benchmarks dazu beitragen, die Sicherheit und Effizienz von LLMs in der Praxis zu gewährleisten.