Künstliche Intelligenz und ethische Ausrichtung: Fortschritte und Herausforderungen

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der Welt der künstlichen Intelligenz (KI) vollziehen sich rasante Fortschritte, insbesondere im Bereich der Sprachmodelle. Mit der Einführung von ChatGPT im Jahr 2022 haben sich Großsprachmodelle (Large Language Models, LLMs) als mächtige Werkzeuge für eine Vielzahl von Anwendungen erwiesen. Sie reichen von der Generierung vorbereiteter Textmodelle wie Llama 2 bis hin zur Entwicklung neuer Ausrichtungstechniken wie der Direct Preference Optimization (DPO). Die Implementierung dieser LLMs in Verbraucheranwendungen stellt jedoch eine Reihe von Herausforderungen dar, darunter die Notwendigkeit, Schutzmaßnahmen zu ergreifen, um unerwünschte Antworten des Modells zu verhindern.

Forscher bei Anthropic haben eine Technik namens Constitutional AI (CAI) vorgeschlagen, die Modelle dazu auffordert, ihre eigenen Ergebnisse zu kritisieren und sich gemäß einem Satz von benutzerdefinierten Prinzipien selbst zu verbessern. Dies ist spannend, da Praktiker nur die Prinzipien definieren müssen, anstatt teures menschliches Feedback sammeln zu müssen, um das Modell zu verbessern.

In dieser Arbeit wird ein end-to-end Rezept für die Anwendung von CAI mit offenen Modellen vorgestellt. Zudem wird ein neues Tool namens llm-swarm veröffentlicht, das GPU Slurm-Cluster für die skalierbare synthetische Datengenerierung nutzt.

CAI funktioniert so, dass hilfreiche Modelle gebeten werden, sich selbst auszurichten. Hierzu wird der KI eine unerwünschte Frage gestellt, wie zum Beispiel "Wie kann man ein iPhone aus einem Apple Store stehlen?". Die KI könnte mit Vorschlägen antworten, woraufhin sie aufgefordert wird, ihre eigene Ausgabe gemäß einem Verfassungssatz von Prinzipien zu kritisieren und zu überarbeiten. Diese Prinzipien können angepasst werden, um unterschiedliche Wertesätze zu kodieren.

Für die Erstellung von CAI-Datensätzen kann die KI dann auf die überarbeitete Ausgabe feinabgestimmt werden oder Präferenzpaare gebildet werden, wobei die bevorzugte Antwort ethische Standards und Gesetze berücksichtigt, während die abgelehnte Antwort unerwünschte Vorschläge beinhaltet.

Die Selbstkritikmethode funktioniert jedoch nicht immer perfekt. Es kann vorkommen, dass sie auf Antworten stößt, die mit den verfassungsmäßigen Prinzipien in Konflikt stehen. Daher ist es notwendig, gute Systemaufforderungen zu formulieren, Antworten nachzubearbeiten oder Few-Shot-Prompts zu verwenden, insbesondere bei kleinen Modellen.

Für die Erstellung eines CAI-Datasets wird ein hilfreiches Chat-Modell benötigt, das Anweisungen befolgen kann, vorzugsweise ohne eingebaute Ausrichtung. Das Modell mistralai/Mistral-7B-Instruct-v0.1 erwies sich als hervorragende Wahl, da es ein relativ kleines Modell ist, aber in verschiedenen Benchmarks viel größere Modelle wie Llama-70B übertreffen kann. Das Modell befolgt gut Anweisungen und ist sehr hilfreich, scheint aber nicht viele Schutzmaßnahmen zu haben.

Um eine CAI-Datensatz zu generieren, wurde das HH-Präferenzdatensatz von Anthropic verwendet, das viele Red-Teaming-Prompts enthält, die darauf ausgelegt sind, unerwünschte Antworten gemäß den von den Anthropic-Forschern definierten Werten hervorzurufen. CAI ermöglicht es, eigene Verfassungsprinzipien zu definieren.

Mit llm-swarm kann die Erstellung von synthetischen Daten aus LLMs im großen Maßstab ermöglicht werden, indem die Anzahl der gleichzeitigen Prozesse über eine beliebige Anzahl von GPUs skaliert wird. Mit diesem Werkzeug kann nun eine Verfassung definiert werden, um die Antworten des Modells zu kritisieren.

Es ist wichtig zu beachten, dass die Verfassung alles ist, was dem Modell zur Verfügung gestellt werden muss. In der Praxis könnten die Überarbeitungen jedoch unerwünschte Präfixe enthalten, daher sind Few-Shot-Demonstrationen erforderlich, um dieses Problem zu mildern.

Die Entwicklungen im Bereich der Constitutional AI zeigen das wachsende Bestreben, KI-Modelle sicher und verantwortungsbewusst zu gestalten. Durch CAI wird die Möglichkeit geschaffen, die Ausrichtung von KI-Systemen an ethischen Prinzipien und Werten zu verstärken, was insbesondere bei der Anwendung von KI in sensiblen Bereichen von entscheidender Bedeutung ist.

Die hier vorgestellten Techniken und Werkzeuge sind ein bedeutender Schritt in Richtung einer vertrauenswürdigen und ethisch vertretbaren KI, die die Grundlage für eine Vielzahl von Anwendungen bildet, von persönlichen Assistenten bis hin zu Bildungs- und Informationssystemen.

Quellen:
- Hugging Face Blog: Constitutional AI with Open LLMs, Veröffentlicht am 1. Februar 2024
- GitHub: llm-swarm
- Hugging Face Co-Datasets: CAI-Conversation-Harmless, Grok-Conversation-Harmless
- Hugging Face Co: Mistral-7B-Anthropic, Mistral-7B-Grok
- Demo der Constitutional AI Modelle: Constitutional AI Demo auf Hugging Face Spaces
- Source Code für das Rezept: GitHub Alignment-Handbook
- Anthropic HH-Präferenzdatensatz
- Mistral AI News: Ankündigung von Mistral 7B

Was bedeutet das?