Menschengestütztes Maschinelles Lernen: Fortschritte und Zukunft des Reinforcement Learning from Human Feedback

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

Im Kontext der schnell voranschreitenden Entwicklungen im Bereich der Künstlichen Intelligenz (KI) und maschinellen Lernens hat das Konzept des Reinforcement Learning from Human Feedback (RLHF) in den letzten Jahren zunehmend an Bedeutung gewonnen. Dieses Konzept, welches das maschinelle Lernen durch menschliches Feedback verbessert, hat bereits zu beeindruckenden Fortschritten in der Qualität und Anpassungsfähigkeit von Sprachmodellen geführt. Eine kürzlich veröffentlichte Arbeit, die von Costa Huang und anderen Kollaborateuren durchgeführt wurde, hat in diesem Bereich besonders Aufsehen erregt.

Die Forschung konzentrierte sich darauf, die Skalierbarkeit von RLHF im Kontext der Zusammenfassungserstellung basierend auf menschlichem Feedback zu untersuchen und zu reproduzieren. Die Wissenschaftler setzten sich zum Ziel, die Vorgehensweise von OpenAI, einem führenden Unternehmen im Bereich KI, nachzubilden und dabei eine eigene RLHF-Pipeline von Grund auf zu erstellen. Dieser Ansatz untersuchte über 20 verschiedene Implementierungsdetails und ermöglichte es, eine Reihe von Modellen zu trainieren, die in ihrer Reaktionsqualität mit zunehmender Größe signifikante Verbesserungen zeigten.

Eines der Schlüsselelemente von RLHF ist die Präzisierung eines Sprachmodells (Language Model, LM), das auf umfangreichen Datensätzen vorbereitet und anschließend mit menschlichem Feedback trainiert wird. Dieser Prozess gliedert sich im Wesentlichen in drei Schritte: das Vortraining des LM, das Sammeln von Daten und das Training eines Belohnungsmodells (Reward Model, RM), sowie das Feintuning des LM durch Verstärkungslernen.

Im ersten Schritt wird das LM mit klassischen Vortrainingszielen vorbereitet. Große Technologieunternehmen wie OpenAI und Anthropic verwenden hierfür Transformator-Modelle mit einer Spannweite von Millionen bis zu Milliarden von Parametern. Dieses anfängliche Modell kann zusätzlich auf Texte oder Konditionen feingetunt werden, um spezifische Kriterien wie "hilfreich", "ehrlich" oder "harmlos" zu erfüllen, wie es bei Anthropic der Fall war.

Der nächste Schritt erfordert das Erstellen eines Belohnungsmodells, das auf menschlichen Präferenzen basiert. Dieses Modell bewertet Textsequenzen und ordnet ihnen eine numerische Belohnung zu, die die menschliche Präferenz widerspiegelt. Die Trainingsdaten für das RM werden generiert, indem eine Reihe von Aufforderungen durch das anfängliche LM geleitet wird, um neue Texte zu erzeugen. Anschließend werden diese von menschlichen Annotatoren bewertet und in eine skalare Belohnungssignal umgewandelt, welches für die Integration in den späteren RL-Prozess entscheidend ist.

Im letzten Schritt wird das ursprüngliche LM unter Verwendung des Belohnungsmodells durch Reinforcement Learning optimiert. Hierbei wird oft das Verfahren Proximal Policy Optimization (PPO) eingesetzt, um das LM zu verfeinern. Dieses Feintuning kann dazu führen, dass einige Parameter des LM eingefroren werden, da das Feintuning eines gesamten Modells mit Milliarden von Parametern äußerst kostspielig ist.

Der Ansatz von Huang und seinem Team zeichnete sich durch die Verwendung einer einzigen Lernrate für alle Stufen des Trainings aus, was die Reproduzierbarkeit ihrer Arbeit erleichterte. Diese Vorgehensweise steht im Gegensatz zu früheren Arbeiten, wie jenen von Stiennon et al. (2020), die eine Vielzahl von Lernraten und zufälligen Startwerten verwendeten.

Die Forschungsergebnisse demonstrierten, dass die von ihnen trainierten Pythia-Modelle mit 2,8 Milliarden und 6,9 Milliarden Parametern die Leistung des von OpenAI veröffentlichten 1,3-Milliarden-Parameter-Modells übertreffen konnten. Darüber hinaus wurde festgestellt, dass das 1,4-Milliarden-Parameter-Modell des Teams in seiner Leistung dem 1,3-Milliarden-Modell von OpenAI nahe kam, was ein Hinweis auf die erfolgreiche Skalierbarkeit des RLHF-Ansatzes ist.

Die Ergebnisse dieser Forschung sind vielversprechend für die Zukunft der KI und maschinellen Lernens. Sie zeigen, dass es möglich ist, Modelle zu erstellen, die menschliche Präferenzen besser verstehen und wiedergeben können, und dass diese Arbeit von anderen Forschern und Entwicklern reproduziert werden kann. Dies ist insbesondere für Unternehmen wie Mindverse von Interesse, da es die Entwicklung maßgeschneiderter Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr ermöglicht.

Es ist wichtig zu erwähnen, dass die Forschung im Bereich des maschinellen Lernens und der künstlichen Intelligenz ständig im Fluss ist, und die Erkenntnisse und Methoden, die heute als bahnbrechend gelten, morgen bereits durch neue Innovationen ergänzt oder abgelöst werden können. Die Arbeit von Huang und Kollegen stellt somit einen wichtigen Schritt auf dem Weg dar, KI-Systeme zu schaffen, die menschlichen Bedürfnissen und Präferenzen noch besser gerecht werden können.

Bibliographie:
- Costa Huang et al. (2024). RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. Verfügbar unter: https://arxiv.org/abs/2403.17031
- Hugging Face Blog (2022). Illustrating Reinforcement Learning from Human Feedback (RLHF). Verfügbar unter: https://huggingface.co/blog/rlhf
- Chip Huyen (2023). RLHF: Reinforcement Learning from Human Feedback. Verfügbar unter: https://huyenchip.com/2023/05/02/rlhf.html
- MLOps Guru (2023). Learning to summarize from human feedback (RLHF). Verfügbar unter: https://www.youtube.com/watch?v=BNjaVVmfzhE

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.