Meta präsentiert Llama 3.1: Neue Dimensionen in Cybersicherheit und KI-Vertrauenswürdigkeit

Kategorien:

No items found.

Freigegeben:

August 27, 2024

Meta veröffentlicht Llama 3.1: Neue Ansätze zur Verbesserung der Cybersicherheit und Vertrauenswürdigkeit von KI-Modellen

Einführung

Meta hat kürzlich die neueste Version seines Open-Source-Sprachmodells, Llama 3.1, herausgebracht. Im Rahmen dieser Veröffentlichung hat das Unternehmen auch neue Forschungsergebnisse zu Vertrauen und Sicherheit präsentiert. Ein zentrales Element dieser Forschung ist CyberSecEval 3, ein Evaluationswerkzeug, das darauf abzielt, die Cybersicherheitsrisiken und -fähigkeiten von großen Sprachmodellen (LLMs) empirisch zu messen.

Die Bedeutung von Offenem Zugang

Meta setzt sich stark für den offenen Zugang zu KI-Entwicklungen ein. Laut einem Schreiben von Mark Zuckerberg bringt die Open-Source-Strategie zahlreiche Vorteile mit sich: Sie ermöglicht mehr Menschen weltweit den Zugang zu den Möglichkeiten, die KI bietet, verhindert die Konzentration von Macht in den Händen weniger und fördert die gerechte Verteilung von Technologien. Offener Zugang soll sicherstellen, dass KI-Modelle sicher und verantwortungsvoll eingesetzt werden.

Erweiterte Fähigkeiten von Llama 3.1

Llama 3.1 bietet mehrere neue Funktionen, darunter eine erweiterte Kontextlänge von 128K und Unterstützung für acht Sprachen. Mit Llama 3.1 405B präsentiert Meta das erste Open-Source-AI-Modell auf Frontier-Level. Diese Verbesserungen sollen Entwicklern eine größere Flexibilität und Kontrolle bieten und gleichzeitig die Leistungsfähigkeit der Modelle erhöhen.

Neue Sicherheits- und Vertrauensinstrumente

Meta hat im Zuge der Veröffentlichung von Llama 3.1 auch eine Reihe neuer Sicherheits- und Vertrauensinstrumente vorgestellt: - **Llama Guard 3**: Ein leistungsstarkes Eingabe- und Ausgabe-Moderationstool, das Entwicklern hilft, verschiedene Arten von verletzenden Inhalten zu erkennen. Llama Guard 3 unterstützt längere Kontexte in acht Sprachen und wurde optimiert, um die Erkennung von aufkommenden Standards der Gefahren-Taxonomie zu unterstützen. - **Prompt Guard**: Ein Multilabel-Modell, das Eingaben in drei Kategorien unterteilt – harmlos, Injection und Jailbreak – und Entwicklern hilft, auf bösartige Eingaben zu reagieren. Prompt Guard kann explizit bösartige Eingaben und Daten erkennen, die eingebrachte Eingaben enthalten. - **CyberSecEval 3**: Neue Evaluierungen zur Messung der Cybersicherheitsrisiken von LLMs, einschließlich der Fähigkeit zur sozialen Manipulation durch Spear-Phishing, autonomer offensiver Cyberoperationen und bildbasierter Prompt-Injection.

Red Teaming und Sicherheitsbewertungen

Meta setzt sowohl menschliche als auch KI-gestützte Red-Teaming-Methoden ein, um zu verstehen, wie ihre Modelle gegen verschiedene Arten von adversarialen Akteuren und Aktivitäten abschneiden. Diese Bemühungen umfassen Experten aus verschiedenen Disziplinen wie Cybersicherheit, adversarialem maschinellem Lernen und verantwortungsvoller KI. Durch wiederholte Red-Teaming-Übungen werden Risiken durch adversariale Prompting entdeckt und die Benchmark-Messungen sowie Feintuning-Datensätze verbessert.

Messung der Fähigkeiten und Risikominderung von Llama 3.1

Um potenzielle Risiken im Zusammenhang mit der Open-Source-Veröffentlichung von Llama 3.1 405B zu bewerten und zu mindern, hat Meta umfassende Tests und Bewertungen durchgeführt. Diese umfassen Bereiche wie Cybersicherheit, chemische und biologische Waffen sowie Kindersicherheit.

Cybersicherheit

Meta hat die Cybersicherheitsrisiken für Dritte im Zusammenhang mit Llama 3.1 405B untersucht, darunter die Automatisierung von Social Engineering durch Spear-Phishing und die Skalierung manueller offensiver Cyberoperationen. Das Unternehmen hat keine bedeutende Zunahme der Fähigkeiten von Akteuren durch die Nutzung von Llama 3.1 405B festgestellt.

Chemische und biologische Waffen

Zur Bewertung der Risiken im Zusammenhang mit der Verbreitung chemischer und biologischer Waffen hat Meta Tests durchgeführt, um zu bestimmen, ob die Verwendung des Llama 3.1 405B-Modells die Fähigkeiten bösartiger Akteure zur Planung oder Durchführung von Angriffen mit solchen Waffen bedeutend erhöhen könnte.

Systemische Sicherheitsmaßnahmen

Meta verfolgt einen systemischen Sicherheitsansatz, um die Sicherheit und Vertrauenswürdigkeit ihrer Modelle zu gewährleisten. Dies umfasst: - **Vorab-Risikoanalysen**: Vor der Freigabe eines Modells werden Risikobewertungen, Sicherheitsevaluierungen und Feintuning durchgeführt sowie umfangreiche Red-Teaming-Übungen mit internen und externen Experten. - **Partnerschaften**: Zusammenarbeit mit Partnern wie AWS, NVIDIA und Databricks, um Sicherheitslösungen als Teil der Verteilung der Llama-Modelle bereitzustellen. - **Offener Austausch**: Meta teilt Modellgewichte, Rezepte und Sicherheitstools, um Entwicklern zu helfen, sichere und flexible KI-Anwendungen zu entwickeln.

Fazit

Mit der Veröffentlichung von Llama 3.1 und den begleitenden Sicherheits- und Vertrauensinstrumenten setzt Meta einen neuen Standard für die Entwicklung und Bereitstellung von Open-Source-KI-Modellen. Die umfangreichen Sicherheitsmaßnahmen und Tools sollen sicherstellen, dass diese Modelle verantwortungsvoll und sicher eingesetzt werden können, um die Vorteile der KI-Technologie möglichst breit zu verteilen. Bibliographie https://www.facebook.com/AIatMeta/photos/as-part-of-our-release-of-llama-31-and-our-continued-support-of-open-science-thi/794996349466462/ https://ai.meta.com/blog/meta-llama-3-1-ai-responsibility/ https://llama.meta.com/trust-and-safety/ https://www.linkedin.com/posts/aiatmeta_as-part-of-our-focus-on-developing-llama-activity-7192234357934166016-ejbn https://engineering.fb.com/2024/08/21/production-engineering/bringing-llama-3-to-life/ https://www.threads.net/@aiatmeta?hl=de https://m.facebook.com/AIatMeta/photos/as-part-of-our-focus-on-developing-llama-3-in-a-responsible-way-we-created-a-num/746623107637120/ https://github.com/meta-llama/PurpleLlama

Was bedeutet das?