Künstliche Intelligenz und menschliche Präferenzen: Fortschritte und Herausforderungen bei Large Language Models

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In den letzten Jahren hat die Entwicklung Künstlicher Intelligenz (KI) bemerkenswerte Fortschritte gemacht, insbesondere im Bereich der großen Sprachmodelle (Large Language Models, LLMs). Diese Modelle haben das Potenzial, eine Vielzahl von Anwendungen zu revolutionieren, von der automatischen Beantwortung von Fragen bis hin zur Erstellung von Inhalten. Ein kritischer Aspekt bei der Entwicklung dieser Modelle ist jedoch ihre Ausrichtung auf menschliche Präferenzen, um sicherzustellen, dass die Ergebnisse der KI nützlich, wahrheitsgetreu, sicher, harmlos und interessant sind.

Ein Ansatz zur Ausrichtung von LLMs an menschlichen Präferenzen ist das sogenannte Reinforcement Learning from Human Feedback (RLHF). Hierbei werden die Modelle mit Rückmeldungen von Menschen trainiert, um die Qualität der Modellantworten zu beurteilen. Allerdings ist dieser Ansatz nicht ohne Herausforderungen. Eine der größten Schwierigkeiten beim RLHF ist die Instabilität während des Feinabstimmungsprozesses und die Komplexität der Implementierung. Darüber hinaus kann es zu sogenanntem "Reward Hacking" kommen, bei dem LLMs Schwächen im Belohnungsmodell ausnutzen, um scheinbar hohe Belohnungen zu erzielen, ohne die zugrunde liegenden Ziele tatsächlich zu erfüllen.

Um diesen Herausforderungen zu begegnen, hat Google DeepMind kürzlich ein neues Konzept vorgestellt: die Weight Averaged Reward Models (WARM). Diese Methode beinhaltet zunächst das Feintuning mehrerer Belohnungsmodelle und anschließend die Durchschnittsbildung dieser Modelle im Gewichtsraum. Dieser Ansatz basiert auf der Beobachtung, dass fein abgestimmte Gewichte linear miteinander verbunden bleiben, wenn sie dasselbe Pre-Training teilen. Durch die Gewichtungsmittelung soll die Effizienz im Vergleich zur traditionellen Kombination von Vorhersagen verbessert und die Zuverlässigkeit unter Verteilungsverschiebungen sowie die Robustheit gegenüber Inkonsistenzen in menschlichen Präferenzen gesteigert werden. Experimente mit Zusammenfassungsaufgaben zeigen, dass WARM die Gesamtqualität und Ausrichtung der LLM-Vorhersagen verbessert. So hatte beispielsweise eine mit WARM feinabgestimmte RL-Politik eine Gewinnrate von 79,4 % gegenüber einer Politik, die mit einem einzelnen Belohnungsmodell feinabgestimmt wurde.

Ein weiterer innovativer Ansatz, der von Forschern verfolgt wird, ist das Konzept der Repräsentationstechnik (Representation Engineering, RepE). Hierbei werden relevante Darstellungen für hochrangige menschliche Präferenzen identifiziert, die in Aktivitätsmustern innerhalb eines LLM eingebettet sind, um das Verhalten des Modells präzise zu steuern, indem seine Repräsentationen transformiert werden. Diese Methode, als Representation Alignment from Human Feedback (RAHF) bezeichnet, hat sich als effektiv, rechnerisch effizient und leicht zu implementieren erwiesen.

Darüber hinaus wurde eine alternative Pipeline für das Feintuning von LLMs mit menschlichem Feedback vorgeschlagen: Nash Learning from Human Feedback (NLHF). Hierbei wird zunächst ein Präferenzmodell aus menschlichem Feedback gelernt, das auf zwei Eingaben basierend auf einer Aufforderung konditioniert ist. Anschließend wird eine Politik verfolgt, die konsistent Antworten generiert, die gegenüber denen jeder konkurrierenden Politik bevorzugt werden und somit das Nash-Gleichgewicht dieses Präferenzmodells definieren.

Diese Fortschritte in der KI-Forschung reflektieren das wachsende Verständnis dafür, dass die Ausrichtung von LLMs an menschlichen Präferenzen von entscheidender Bedeutung ist. Indem Forscher kontinuierlich neue Methoden wie WARM, RAHF und NLHF entwickeln und testen, bewegen wir uns in Richtung einer Zukunft, in der KI zunehmend in der Lage sein wird, in harmonischer Weise mit menschlichen Benutzern zu interagieren. Die Arbeit von Google DeepMind und anderen Forschungseinrichtungen auf diesem Gebiet ist ein entscheidender Schritt zur Realisierung des Potenzials von LLMs, nicht nur in Bezug auf die technische Leistungsfähigkeit, sondern auch hinsichtlich ihrer ethischen und sozialen Auswirkungen.

Was bedeutet das?
No items found.