Menschengestützte Optimierung von Sprachmodellen

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Effiziente Erkundung zur Verbesserung großer Sprachmodelle durch menschliches Feedback

In einer Zeit, in der künstliche Intelligenz immer größere Fortschritte macht, ist die Verbesserung von großen Sprachmodellen (Large Language Models, LLMs) ein zentrales Thema in der Forschung und Entwicklung. Google hat kürzlich einen Ansatz vorgestellt, der die Effizienz der Datensammlung und die Leistungsfähigkeit dieser Modelle revolutionieren könnte. Durch effiziente Erkundung und das Sammeln von menschlichem Feedback lassen sich LLMs erheblich verbessern, wie jüngste Experimente zeigen.

LLMs haben im Laufe der Jahre beeindruckende Fähigkeiten entwickelt, indem sie vielfältige und überzeugende Texte aus menschlichen Eingabeaufforderungen generieren. Diese Modelle können für verschiedene Anwendungen wie Spracherkennung, Übersetzung, Zusammenfassung und Chatbots verwendet werden, um das Leben in vielen Arbeits- und auch privaten Bereichen zu erleichtern.

Um ein "Sprachverständnis" zu entwickeln, müssen LLMs anhand einer großen Menge an Textinhalten trainiert werden. In der Regel werden diese Textdaten durch das sogenannte Scraping von Internetinhalten gesammelt. Während der Trainingsphase lernen die Sprachmodelle, kontextuelle Beziehungen innerhalb der Textdaten zu erkennen und diese in ein komplexes probabilistisches Modell zu übertragen.

Jedoch birgt das Training anhand ungefilterter Internetinhalte und ohne Kontrolle der Textausgabe das Risiko, dass das Modell lernt, falsche Informationen, schädliche Inhalte oder Vorurteile zu reproduzieren. Um das Risiko zu reduzieren, dass Sprachmodelle diese negativen Inhalte aufnehmen und bei der Textgenerierung reproduzieren, werden während des Trainingsprozesses verschiedene Verfahren verwendet.

Ein zentraler Bestandteil dieses Trainingsprozesses ist das sogenannte "Reinforcement Learning from Human Feedback (RLHF)", welches menschliches Feedback in den Lernprozess einbezieht. Hierbei gibt ein Mensch Rückmeldung an das Sprachmodell, indem er diesem mitteilt, ob das vom Modell Generierte der Anweisung oder der Intention hinter der Eingabe entspricht und keine unerwünschten Inhalte enthält. Mit Hilfe dieses Feedbacks kann das Sprachmodell die Ausgabe während des Lernprozesses kontinuierlich verbessern.

Der technische Prozess des Reinforcement Learning from Human Feedback besteht aus insgesamt drei Bausteinen: supervidiertes Feintuning, Training eines Belohnungsmodells und Training des Reinforcement-Learning-Agenten mit proximaler Politikoptimierung (PPO).

Im ersten Schritt des supervidierten Feintunings wird das Modell anhand von menschlichen "optimalen" Antworten trainiert, um die Modellparameter so anzupassen, dass die generierten Antworten den menschlichen möglichst ähnlich sind.

Das Training eines Belohnungsmodells im zweiten Schritt beinhaltet die Erstellung eines neuen neuronalen Netzwerks, das darauf abzielt, für jede der Textausgabekandidaten einen Ranking-Score zu berechnen, der möglichst nahe an der menschlichen Bewertung liegt.

Der dritte Schritt involviert das Training des Reinforcement-Learning-Agenten mit PPO. Hierbei wird das aus Schritt 2 stammende Belohnungsmodell verwendet, um aus einem Satz von Antworten, die vom optimierten Sprachmodell aus Schritt 1 generiert wurden, ein Ranking zu erstellen.

Die Verwendung von PPO im RLHF-Prozess erlaubt es dem Agenten, nicht nur auf der Grundlage der aktuellen Belohnungsschätzung zu lernen, sondern auch zu berücksichtigen, wie sich seine Politik im Laufe der Zeit anpassen sollte, um mögliche Unsicherheiten in den Belohnungsschätzungen zu berücksichtigen.

In der Praxis ist die Verwendung von RLHF jedoch nicht ohne Herausforderungen. Das Training eines Belohnungsmodells mit RLHF gilt als notorisch instabil und erfordert zusätzliche Ressourcen für das Hosting der Richtlinien- und Basismodelle. Darüber hinaus ist der aktuelle Satz von menschlichen Präferenzen auf einen einzigen Wert beschränkt und mangelt an Detail und Information.

Um diese Einschränkungen zu überwinden, wurde ein neuer Ansatz vorgeschlagen, der informativeres und detaillierteres menschliches Feedback ermöglicht. Anstatt Rankings bereitzustellen, können Benutzer nun die Vor- und Nachteile verschiedener Generierungen des Modells durch textuelle Beschreibungen spezifizieren. Dieser Ansatz, der als "Kritik und Überarbeitung" bezeichnet wird, beinhaltet das Generieren einer Kritik an der ursprünglichen Antwort, die sowohl positive als auch negative Aspekte hervorhebt, und dann die Überarbeitung der Antwort auf der Grundlage der Kritik.

Um ihren vorgeschlagenen Ansatz zu validieren, führten die Autoren Experimente mit dem Falcon-40B-Modell durch. Sie sammelten Kritik- und Überarbeitungsdaten mit einer relativ kleinen Menge an beschrifteten Daten, bestehend aus 1000 Proben. Das Modell wurde unterrichtet, menschliche Präferenzen zu berücksichtigen, indem die Kritik in die ursprüngliche Antwort integriert und entsprechend überarbeitet wurde.

Der Einfluss des vorgeschlagenen Ansatzes ist signifikant. Die Autoren demonstrieren, dass die Methode "Kritik und Überarbeitung" in der Lage ist, die Antworten des ChatGPT-Niveau-Modells zu verbessern, was zu einer besseren Gewinnrate von 56,6 % führt. Darüber hinaus verbessert sich die Gewinnrate nach fünf Iterationen der Überarbeitung weiter auf beeindruckende 65,9 %.

Die Studie hebt die Bedeutung der Einbeziehung von menschlichem Feedback in den Abstimmungsprozess von großen Sprachmodellen hervor. Die Methode "Kritik und Überarbeitung" bietet einen detaillierteren und informativeren Ansatz zur Erfassung menschlicher Präferenzen, was letztendlich zu verbesserten Modellantworten und einer besseren Gesamtleistung führt. Mit seiner dateneffizienten Ausrichtung eröffnet diese Forschung neue Möglichkeiten zur Verbesserung der Fähigkeiten von Sprachmodellen und zum Fortschritt im Bereich der natürlichen Sprachverarbeitung.

Was bedeutet das?
No items found.