Meta AI fördert Vertrauen und Sicherheit durch neue Technologien

Kategorien:

No items found.

Freigegeben:

August 13, 2024

Meta AI's Engagement in Trust and Safety: Llama Guard 3 and Prompt Guard

Meta AI: Neue Ansätze für Vertrauen und Sicherheit mit Llama Guard 3 und Prompt Guard

Die Entwicklungen im Bereich der Künstlichen Intelligenz (KI) schreiten rasant voran. Ein bemerkenswerter Akteur in diesem Feld ist Meta, das sich vehement für offene und zugängliche KI-Modelle einsetzt. In einem jüngst veröffentlichten Video beleuchtet @AIatMeta ausführlich die neuen Sicherheitswerkzeuge Llama Guard 3 und Prompt Guard sowie weitere Maßnahmen, die darauf abzielen, sicherere KI-Erfahrungen von Anfang an zu ermöglichen.

Verantwortungsbewusste Open-Source-Entwicklung

Meta hat sich der offenen Zugänglichkeit von KI-Modellen verschrieben. Mark Zuckerberg hebt in einem Brief hervor, dass Open Source nicht nur für Entwickler, sondern auch für die Gesellschaft insgesamt von Vorteil ist. Es fördert die Chancengleichheit und verhindert die Konzentration von Macht in den Händen einiger weniger.

Ein zentrales Ziel ist es, durch offene Zugänglichkeit von KI sicherere Ergebnisse für die Gesellschaft zu erzielen. Mit der Einführung der Llama 3.1-Modellreihe, die Kontextlängen bis zu 128K unterstützt und in acht Sprachen verfügbar ist, erweitert Meta seine Bemühungen in diesem Bereich. Llama 3.1 405B ist das erste frontier-level Open-Source-KI-Modell.

Skalierung der KI-Sicherheit

Meta arbeitet eng mit Regierungen und etablierten Institutionen wie dem National Institute of Standards and Technology (NIST) zusammen, um gemeinsame Definitionen, Bedrohungsmodelle und Evaluierungen zu entwickeln. In Zusammenarbeit mit Organisationen wie dem Frontier Model Forum (FMF) und der Partnership on AI (PAI) strebt Meta an, brancheneinheitliche Standards zu etablieren.

Um potenzielle Risiken zu identifizieren und zu mindern, führt Meta umfangreiche Risikobewertungen, Sicherheitsevaluierungen und Red-Teaming-Übungen durch. Diese Maßnahmen sind darauf ausgelegt, unerwartete Nutzungsmöglichkeiten der Modelle zu entdecken und zu beheben. Die Sicherheitsbewertungen und Feinabstimmungen werden in dem Llama 3.1-Forschungspapier detailliert erläutert.

Sicherheitswerkzeuge für Entwickler

Als Teil des Llama-Referenzsystems stellt Meta neue Sicherheitskomponenten zur Verfügung, die Entwicklern helfen sollen, Best Practices umzusetzen. Llama Guard 3 ist ein hochleistungsfähiges Eingabe- und Ausgabemodell zur Moderation, das Entwicklern dabei unterstützt, verschiedene Arten von Verstößen zu erkennen. Es wurde durch Feinabstimmung des Llama 3.1-Modells erstellt und unterstützt die Erkennung von aufkommenden Gefahrentaxonomien.

Prompt Guard ist ein weiteres Werkzeug, das Eingaben in drei Kategorien einteilt: harmlos, Injektion und Jailbreak. Es hilft Entwicklern, schädliche Eingaben zu erkennen und darauf zu reagieren. Dieses Modell ist besonders nützlich, um gegen riskante Eingaben in LLM-gestützten Anwendungen vorzubeugen.

Red-Teaming-Übungen

Durch Red-Teaming-Übungen mit menschlichen und KI-gestützten Experten untersucht Meta, wie ihre Modelle gegen verschiedene Arten von Bedrohungen performen. Diese Übungen umfassen Experten aus verschiedenen Disziplinen wie Cybersicherheit und verantwortungsbewusster KI.

Durch wiederkehrende Red-Teaming-Übungen konnten Risiken durch adversarielle Eingaben entdeckt und die Benchmark-Messungen und Feinabstimmungsdatensätze verbessert werden. Meta investierte zudem in verschiedene Datenverarbeitungstechniken, um die Qualität der Trainingsdaten hoch zu halten.

Bewertung von Llama 3.1 und Risikominderung

Meta hat eine Vielzahl potenzieller Risiken im Zusammenhang mit der Veröffentlichung von Llama 3.1 405B bewertet und gemindert, darunter auch Risiken im Bereich Cybersicherheit und chemische bzw. biologische Waffen. Die CyberSecEval 3 wurde aktualisiert und umfasst neue Evaluierungen für soziale Ingenieurstechniken und autonome offensive Cyber-Operationen.

In Bezug auf chemische und biologische Waffen führte Meta Tests durch, um das Risiko einer Nutzung des Modells durch böswillige Akteure zu bewerten. Die Forschungsergebnisse und Sicherheitsmaßnahmen werden ebenfalls im Llama 3.1-Forschungspapier behandelt.

Fazit

Meta's Engagement für offene und sichere KI-Modelle zeigt sich in den jüngsten Entwicklungen und Maßnahmen zur Risikominderung und Verbesserung der KI-Sicherheit. Mit Werkzeugen wie Llama Guard 3 und Prompt Guard unterstützt Meta Entwickler dabei, von Anfang an sichere und verantwortungsbewusste KI-Erfahrungen zu schaffen.

Bibliography - https://www.youtube.com/watch?v=IvjLXGR7-vM - https://ai.meta.com/blog/meta-llama-3-1-ai-responsibility/ - https://x.com/AIatMeta/status/1815814548252942348 - https://ai.meta.com/blog/purple-llama-open-trust-safety-generative-ai/ - https://www.linkedin.com/pulse/llama-guard-3-deep-dive-content-safety-shailesh-kumar-khanchandani-zolnc - https://medium.com/@sivasiddharth929/introducing-llama-guard-a-beacon-of-safety-in-human-ai-conversations-cb57d37933d1 - https://about.fb.com/news/2023/12/purple-llama-safe-responsible-ai-development/ - https://twitter.com/AIatMeta/status/1781376102881226821

Was bedeutet das?