Effizienzsteigerung großer Sprachmodelle durch präferenzbasiertes Lernen und Optimierung

Kategorien:

No items found.

Freigegeben:

October 4, 2024

Die Abstimmung von Sprachmodellen mit menschlichen Präferenzen ist entscheidend, um die Nützlichkeit von großen Sprachmodellen (LLMs) in Bezug auf Hilfsbereitschaft, Wahrhaftigkeit, Sicherheit, Unbedenklichkeit und Interessantheit zu verbessern. Traditionelle Methoden der Belohnungsmodellierung, wie das Bradley-Terry (BT) Belohnungsmodell, sind in ihrer Ausdruckskraft unzureichend, insbesondere bei der Berücksichtigung intransitiver Präferenzen. Überwachte Paarpräferenzmodelle (PairPM) können zwar allgemeine Präferenzen ausdrücken, ihre Implementierung ist jedoch sehr ad-hoc und kann keine konsistente Präferenzwahrscheinlichkeit von verglichenen Paaren garantieren. Darüber hinaus verursachen sie aufgrund ihrer quadratischen Abfragekomplexität beim Vergleich mehrerer Antworten hohe Rechenkosten. In diesem Artikel stellen wir das Preference Representation Learning vor, einen Ansatz, der Antworten in einen latenten Raum einbettet, um komplexe Präferenzstrukturen effizient zu erfassen und eine lineare Abfragekomplexität zu erreichen. Darüber hinaus schlagen wir die General Preference Optimization (GPO) auf Basis von Präferenzscores vor, die das belohnungsbasierte Reinforcement Learning aus menschlichem Feedback verallgemeinert. Experimentelle Ergebnisse zeigen, dass unser General Preference Representation Model (GPM) das BT-Belohnungsmodell auf dem RewardBench-Benchmark mit einer Marge von bis zu 5,6 % übertrifft und zyklische Präferenzen effektiv modelliert, bei denen sich jedes BT-Belohnungsmodell wie ein zufälliges Raten verhält. Darüber hinaus zeigen Auswertungen von nachgelagerten Aufgaben wie AlpacaEval2.0 und MT-Bench, die auf das Post-Training von Sprachmodellen mit GPO und unserem allgemeinen Präferenzmodell folgen, erhebliche Leistungssteigerungen mit Margen von bis zu 9,3 %. Diese Ergebnisse deuten darauf hin, dass unsere Methode die Ausrichtung von Basismodellen an nuancierten menschlichen Werten verbessern kann.

Hintergrund

Große Sprachmodelle (LLMs) haben in den letzten Jahren rasante Fortschritte gemacht und beeindruckende Fähigkeiten in verschiedenen Sprachaufgaben gezeigt. Diese Modelle werden auf riesigen Textdatensätzen trainiert und können kohärente und grammatikalisch korrekte Texte generieren, Sprachen übersetzen und Fragen beantworten. Ein wichtiges Ziel bei der Entwicklung von LLMs ist es, sie so auszurichten, dass sie mit menschlichen Werten und Präferenzen übereinstimmen. Dies ist entscheidend, um sicherzustellen, dass diese Modelle verantwortungsvoll eingesetzt werden und nützliche und vertrauenswürdige Ergebnisse liefern.

Herausforderungen bei der Modellierung menschlicher Präferenzen

Die Modellierung menschlicher Präferenzen ist eine komplexe Aufgabe, da Präferenzen oft subjektiv, kontextabhängig und sogar widersprüchlich sein können. Traditionelle Methoden der Präferenzmodellierung basieren oft auf vereinfachenden Annahmen, wie z. B. der Annahme, dass Präferenzen transitiv sind (d. h. wenn A gegenüber B bevorzugt wird und B gegenüber C bevorzugt wird, dann wird auch A gegenüber C bevorzugt). In der Realität sind menschliche Präferenzen jedoch oft intransitiv, was traditionelle Modelle vor Herausforderungen stellt.

Preference Representation Learning

Preference Representation Learning ist ein neuer Ansatz, der diese Herausforderungen angeht, indem er Antworten in einen latenten Raum einbettet, um komplexe Präferenzstrukturen zu erfassen. Durch die Einbettung von Antworten in einen Vektorraum können die Beziehungen zwischen verschiedenen Antworten und den zugrundeliegenden Präferenzen, die diese Beziehungen bestimmen, erlernt werden. Dieser Ansatz ermöglicht es, komplexere Präferenzmuster zu erfassen, einschließlich intransitiver Präferenzen.

General Preference Optimization (GPO)

General Preference Optimization (GPO) ist ein neuer Algorithmus, der auf Preference Representation Learning aufbaut und LLMs mithilfe von menschlichem Feedback feinabstimmt. GPO verallgemeinert das belohnungsbasierte Reinforcement Learning, indem es anstelle von Belohnungen Präferenzscores verwendet. Präferenzscores werden aus dem im Preference Representation Learning erlernten latenten Raum abgeleitet und spiegeln die relativen Präferenzen zwischen verschiedenen Antworten wider.

Experimentelle Ergebnisse

Die Forscher haben GPO und das General Preference Representation Model (GPM) in verschiedenen Experimenten evaluiert, darunter: - **RewardBench-Benchmark:** GPM übertraf das BT-Belohnungsmodell mit einer Marge von bis zu 5,6 % und zeigte seine Fähigkeit, komplexe Präferenzmuster zu modellieren. - **AlpacaEval2.0 und MT-Bench:** Nach dem Post-Training mit GPO und GPM zeigten LLMs erhebliche Leistungssteigerungen bei nachgelagerten Aufgaben, was die Wirksamkeit des Ansatzes bei der Verbesserung der Modellausrichtung demonstrierte.

October 18, 2024

