Fortschritte in der KI: Neue Wege zur Ausrichtung von Sprachmodellen auf menschliche Präferenzen

Kategorien:

No items found.

Freigegeben:

June 14, 2024

In den letzten Jahren haben wir eine bemerkenswerte Entwicklung im Bereich der Künstlichen Intelligenz (KI) und insbesondere in der Forschung zu Sprachmodellen erlebt. Eine der größten Herausforderungen in diesem Bereich ist es, die Erzeugung von Text durch Sprachmodelle so zu steuern, dass sie menschlichen Präferenzen entspricht. Traditionell wurde dies durch Verstärkungslernen mit menschlichem Feedback (RLHF) erreicht, aber neuere Methoden wie die Direkte Präferenzoptimierung (DPO) bieten effizientere Alternativen.

Die DPO-Methode, die von Forschern wie Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning und Chelsea Finn entwickelt wurde, verfolgt einen innovativen Ansatz. Anstatt ein separates Belohnungsmodell zu verwenden, das menschliche Präferenzen widerspiegelt und anschließend ein Sprachmodell durch Verstärkungslernen anzupassen, ermöglicht DPO eine direkte Optimierung des Sprachmodells. Dies geschieht durch eine neue Parametrisierung des Belohnungsmodells, die es ermöglicht, die entsprechende optimale Strategie in geschlossener Form zu extrahieren und somit das RLHF-Problem nur mit einem einfachen Klassifikationsverlust zu lösen. Die Einfachheit und Effizienz von DPO reduzieren nicht nur den Bedarf an komplexen Abstimmungen von Hyperparametern, sondern ermöglichen es auch, Sprachmodelle so zu verfeinern, dass sie menschlichen Präferenzen entsprechen oder sogar übertreffen.

Ein weiterer aufkommender Ansatz ist der von Bradley Butcher vorgestellte Einsatz von kontrafaktischem Prompting innerhalb des DPO-Frameworks. Diese Methode zielt darauf ab, die Stilrichtung eines Modells ohne menschliches Eingreifen auszurichten, und hat das Potenzial, sowohl wünschenswertes als auch unerwünschtes Verhalten zu fördern oder zu minimieren.

Ein neueres Papier, das von Akhaliq geteilt wurde, beleuchtet eine Methode namens Online-KI-Feedback (OAIF), die ein Sprachmodell als Annotator nutzt. Im Gegensatz zu früheren Offline-DAP-Methoden, bei denen Präferenzdaten im Voraus gesammelt und nie aktualisiert wurden, bezieht OAIF kontinuierlich Feedback ein, indem es in jedem Trainingsschritt zwei Antworten aus dem aktuellen Modell auswählt und den Annotator entscheiden lässt, welche bevorzugt wird. Diese Art von Online-Feedback hat sich in verschiedenen Aufgaben als überlegen gegenüber Offline-DAP- und RLHF-Methoden erwiesen.

Die fortlaufende Forschung und Entwicklung auf diesem Gebiet wird von verschiedenen Institutionen und Forschern auf der ganzen Welt getragen, darunter nicht nur Universitäten und private Forschungseinrichtungen, sondern auch KI-Unternehmen wie Mindverse, die als Partner für KI-Inhalte, Texte, Bilder und Forschung fungieren und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr entwickeln.

Es ist eine spannende Zeit für die Künstliche Intelligenz und die Entwicklung von Sprachmodellen. Während das Feld weiterhin neue Methoden wie DPO und OAIF erforscht, bleibt die Frage offen, wie sich diese Technologien auf die Art und Weise auswirken werden, wie wir mit Maschinen interagieren und wie sie in unserem Alltag integriert werden. Was klar ist, ist, dass die Forschung in diesem Bereich dynamisch bleibt und das Potenzial hat, die Art und Weise, wie wir über menschenähnliche KI denken und sie einsetzen, zu revolutionieren.

Quellen:
- Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., & Finn, C. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". arXiv:2305.18290.
- Butcher, B. "Aligning Large Language Models with Counterfactual DPO". arXiv:2401.09566v1.
- Lambert, N., Castricato, L., von Werra, L., Havrilla, A. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". Hugging Face Blog.
- Ng, A. [@AndrewYNg]. (2024, Januar 11). Twitter.
- Akhaliq, A. [@_akhaliq]. (2024, Februar 8). Twitter.

Was bedeutet das?

No items found.