Innovative Methode zur Sicherung von Open Source KI gegen Missbrauch

Kategorien:

No items found.

Freigegeben:

August 4, 2024

Ein Neuer Trick Könnte den Missbrauch von Open-Source-KI Verhindern

Einleitung

Die rasante Entwicklung von Künstlicher Intelligenz (KI) hat in den letzten Jahren zu beeindruckenden Fortschritten geführt. Open-Source-Modelle, die der Öffentlichkeit zugänglich gemacht werden, haben die Innovationsgeschwindigkeit in diesem Bereich erheblich beschleunigt. Doch mit dieser Offenheit kommen auch Risiken, insbesondere die Gefahr des Missbrauchs durch böswillige Akteure. Forscher haben nun eine neue Methode entwickelt, um Open-Source-KI-Modelle gegen solche Missbräuche zu schützen.

Die Herausforderung der Sicherheitslücken

Als Meta im April dieses Jahres sein großes Sprachmodell Llama 3 kostenlos veröffentlichte, dauerte es nur wenige Tage, bis externe Entwickler eine Version ohne die Sicherheitseinschränkungen erstellten. Diese Einschränkungen sollten verhindern, dass das Modell hasserfüllte Witze erzählt oder Anleitungen zum Bau von Bomben liefert. Eine neue Trainingsmethode, entwickelt von Forschern der University of Illinois Urbana-Champaign, der UC San Diego, Lapis Labs und dem gemeinnützigen Center for AI Safety, könnte in Zukunft die Entfernung solcher Sicherheitsvorkehrungen erschweren. Einige Experten glauben, dass diese Methode entscheidend sein könnte, da KI immer mächtiger wird.

Die Methode im Detail

Vor der Veröffentlichung werden offene Modelle wie Meta's Llama in der Regel feinabgestimmt, um ihre Fähigkeit zur Beantwortung von Fragen und zur Konversation zu verbessern und sicherzustellen, dass sie auf problematische Anfragen nicht reagieren. Dies verhindert, dass ein auf dem Modell basierender Chatbot unangemessene oder hasserfüllte Aussagen macht oder beispielsweise erklärt, wie man eine Bombe baut. Die Forscher hinter der neuen Technik fanden einen Weg, den Prozess der Modifikation eines offenen Modells für böswillige Zwecke zu verkomplizieren. Dies geschieht durch die Replikation des Modifikationsprozesses, gefolgt von einer Veränderung der Parameter des Modells, sodass die Änderungen, die normalerweise das Modell dazu bringen würden, auf eine Aufforderung wie „Geben Sie Anweisungen zum Bau einer Bombe“ zu reagieren, nicht mehr funktionieren.

Praktische Anwendung und Ergebnisse

Mazeika und seine Kollegen demonstrierten den Trick an einer abgespeckten Version von Llama 3. Sie konnten die Parameter des Modells so anpassen, dass es selbst nach Tausenden von Versuchen nicht trainiert werden konnte, auf unerwünschte Fragen zu antworten. Meta reagierte nicht sofort auf eine Anfrage nach einem Kommentar. Mazeika gibt zu, dass der Ansatz nicht perfekt ist, aber er zeigt, dass die Hürde für das „Decensoring“ von KI-Modellen erhöht werden könnte. „Ein realistisches Ziel ist es, die Kosten für das Brechen des Modells so weit zu erhöhen, dass die meisten Angreifer davon abgeschreckt werden“, sagt er. Dan Hendrycks, Direktor des Center for AI Safety, hofft, dass diese Arbeit weitere Forschungen zu manipulationssicheren Sicherheitsvorkehrungen anregen wird und die Forschungsgemeinschaft herausfindet, wie man robustere Schutzmaßnahmen entwickeln kann.

Wachsende Beliebtheit von Open-Source-KI

Die Idee, offene Modelle manipulationssicher zu machen, könnte an Popularität gewinnen, da das Interesse an Open-Source-KI wächst. Bereits jetzt konkurrieren offene Modelle mit geschlossenen Modellen von Unternehmen wie OpenAI und Google. Die neueste Version von Llama 3, die im Juli veröffentlicht wurde, ist etwa so leistungsfähig wie die Modelle hinter beliebten Chatbots wie ChatGPT, Gemini und Claude, gemessen an beliebten Benchmarks zur Bewertung der Fähigkeiten von Sprachmodellen. Mistral Large 2, ein LLM eines französischen Startups, das ebenfalls letzten Monat veröffentlicht wurde, ist ähnlich leistungsfähig. Die US-Regierung verfolgt einen vorsichtigen, aber positiven Ansatz gegenüber Open-Source-KI. Ein Bericht der National Telecommunications and Information Administration, einer Behörde des US-Handelsministeriums, empfiehlt der US-Regierung, neue Fähigkeiten zur Überwachung potenzieller Risiken zu entwickeln, aber vorerst keine sofortigen Einschränkungen für die breite Verfügbarkeit offener Modellgewichte in den größten KI-Systemen zu verhängen.

Kritische Stimmen und Herausforderungen

Nicht jeder ist ein Fan davon, Einschränkungen für offene Modelle zu verhängen. Stella Biderman, Direktorin von EleutherAI, einem gemeinschaftsgetriebenen Open-Source-KI-Projekt, sagt, dass die neue Technik in der Theorie elegant sein mag, aber in der Praxis schwierig durchzusetzen sein könnte. Biderman sagt, dass der Ansatz auch im Widerspruch zur Philosophie hinter freier Software und Offenheit in der KI steht. „Ich denke, dieses Papier missversteht das Kernproblem“, sagt Biderman. „Wenn sie besorgt darüber sind, dass LLMs Informationen über Massenvernichtungswaffen generieren, liegt die richtige Intervention im Trainingsdatensatz, nicht im trainierten Modell.“

Fazit

Die Entwicklung von Methoden, um den Missbrauch von Open-Source-KI zu verhindern, ist ein entscheidender Schritt in der Weiterentwicklung und Sicherstellung der Sicherheit von KI-Systemen. Während die neuen Techniken vielversprechend sind, bleibt die Herausforderung, diese in der Praxis effektiv umzusetzen und gleichzeitig die Grundprinzipien der Offenheit und Zusammenarbeit in der KI-Forschung zu wahren.

Bibliographie

- https://www.wired.com/story/center-for-ai-safety-open-source-llm-safeguards/ - https://www.darientimes.com/news/politics/article/white-house-says-no-need-to-restrict-19605782.php - https://www.vox.com/future-perfect/2024/2/2/24058484/open-source-artificial-intelligence-ai-risk-meta-llama-2-chatgpt-openai-deepfake - https://www.freedomlab.com/posts/is-open-source-ai-a-sham - https://www.cisa.gov/news-events/news/open-source-artificial-intelligence-dont-forget-lessons-open-source-software - https://abundance.institute/articles/regulating-machine-learning-open-source-software - https://www.linkedin.com/posts/vdignum_you-can-make-top-llms-break-their-own-rules-activity-7091828716808396800-PSht?trk=public_profile_like_view - https://varunshenoy.substack.com/p/why-open-source-ai-will-win - https://fortune.com/2023/05/09/a-leaked-google-memo-raises-questions-about-open-source-a-i-but-the-white-house-doesnt-seem-to-have-gotten-it/

Was bedeutet das?