Neue Ansätze zur Testzeitausrichtung von Sprachmodellen mit autoregressiven Belohnungsmodellen

Kategorien:
No items found.
Freigegeben:
October 15, 2024
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten bewiesen, erfordern aber eine sorgfältige Abstimmung mit menschlichen Präferenzen. Herkömmliche Trainingsmethoden optimieren LLMs anhand von Datensätzen mit menschlichen Präferenzen, verursachen jedoch erhebliche Trainingskosten und erfordern wiederholtes Training, um unterschiedlichen Benutzerpräferenzen gerecht zu werden. Testzeit-Alignment-Methoden begegnen diesem Problem, indem sie Belohnungsmodelle (RMs) verwenden, um eingefrorene LLMs ohne erneutes Training zu steuern. Bestehende Testzeitansätze basieren jedoch auf trajektorienbasierten RMs, die darauf ausgelegt sind, vollständige Antworten zu bewerten, wodurch sie für die autoregressive Textgenerierung ungeeignet sind, bei der die Belohnung für das nächste Token aus teilweisen Antworten berechnet werden muss.

GenARM: Belohnungsgesteuerte Generierung mit autoregressivem Belohnungsmodell für die Ausrichtung zur Testzeit

Um dieses Problem anzugehen, wurde GenARM entwickelt, ein Testzeit-Alignment-Ansatz, der das autoregressive Belohnungsmodell nutzt - eine neuartige Belohnungsparametrisierung, die darauf ausgelegt ist, Belohnungen für das nächste Token für eine effiziente und effektive autoregressive Generierung vorherzusagen. Theoretisch wurde gezeigt, dass diese Parametrisierung eingefrorene LLMs innerhalb des KL-regularisierten Reinforcement-Learning-Frameworks nachweislich zu jeder Verteilung führen kann, die mit herkömmlichen RMs erreichbar ist.

Vorteile von GenARM

Experimentelle Ergebnisse zeigen, dass GenARM frühere Testzeit-Alignment-Baselines deutlich übertrifft und die Leistung von Trainingszeitmethoden erreicht. Darüber hinaus ermöglicht GenARM eine effiziente schwache bis starke Führung, bei der größere LLMs mit kleineren RMs abgeglichen werden, ohne dass hohe Kosten für das Training größerer Modelle anfallen. GenARM unterstützt außerdem die Multi-Objective-Ausrichtung, die Echtzeit-Kompromisse zwischen Präferenzdimensionen ermöglicht und auf unterschiedliche Benutzerpräferenzen eingeht, ohne dass ein erneutes Training erforderlich ist.

Hintergrund

LLMs haben in den letzten Jahren große Popularität erlangt, da sie in der Lage sind, menschenähnlichen Text zu generieren, Sprachen zu übersetzen und Fragen in einer umfassenden und informativen Weise zu beantworten. Allerdings können diese Modelle auch unerwünschte Ausgaben erzeugen, wenn sie nicht richtig auf die gewünschten Werte und Ziele abgestimmt sind. Traditionelle Methoden zur Ausrichtung von LLMs beruhen auf der Feinabstimmung während des Trainings, bei der Modelle mit Datensätzen trainiert werden, die von Menschen annotierte Daten enthalten. Dieser Ansatz kann jedoch zeitaufwändig und kostspielig sein, insbesondere bei großen Modellen und Datensätzen. Darüber hinaus erfordert die Feinabstimmung während des Trainings für jede neue Aufgabe oder Domäne ein erneutes Training, was die Anpassungsfähigkeit des Modells einschränkt. Testzeit-Alignment-Methoden zielen darauf ab, diese Einschränkungen zu überwinden, indem sie Belohnungsmodelle verwenden, um die Ausgabe von eingefrorenen LLMs während der Inferenz zu steuern. Belohnungsmodelle werden trainiert, um die Qualität von Textsequenzen auf der Grundlage menschlicher Präferenzen zu bewerten und können verwendet werden, um die Generierung in Richtung wünschenswerterer Ausgaben zu lenken.

Autoregressives Belohnungsmodell

Das Herzstück von GenARM ist das autoregressive Belohnungsmodell, eine neuartige Parametrisierung des Belohnungsmodells, die speziell für die autoregressive Textgenerierung entwickelt wurde. Im Gegensatz zu herkömmlichen Belohnungsmodellen, die eine vollständige Textsequenz als Eingabe benötigen, um eine Belohnung zu berechnen, sagt das autoregressive Belohnungsmodell Belohnungen für das nächste Token auf der Grundlage der Teilsequenz vorher, die bis zu diesem Zeitpunkt generiert wurde. Diese Parametrisierung bietet mehrere Vorteile für die Testzeitausrichtung. Erstens ermöglicht sie eine effiziente Belohnungsberechnung während der Generierung, da das Belohnungsmodell nicht die gesamte Sequenz für jedes generierte Token neu bewerten muss. Zweitens ermöglicht es eine feinkörnige Steuerung des Generierungsprozesses, da das Belohnungsmodell Feedback zu jedem generierten Token liefern kann, anstatt nur eine Gesamtbewertung für die gesamte Sequenz abzugeben.

Funktionsweise von GenARM

GenARM nutzt das autoregressive Belohnungsmodell innerhalb eines KL-regularisierten Reinforcement-Learning-Frameworks. Der Algorithmus beginnt mit einem eingefrorenen LLM und einem trainierten autoregressiven Belohnungsmodell. Während der Generierung wird das LLM verwendet, um eine Folge von Token autoregressiv zu erzeugen. Für jedes generierte Token berechnet das autoregressive Belohnungsmodell eine Belohnung auf der Grundlage der Teilsequenz. Diese Belohnung wird dann verwendet, um die Parameter des LLMs mithilfe eines auf Politikgradienten basierenden Aktualisierungsansatzes zu aktualisieren. Der KL-Regularisierungsterm im Zielfunktions dient dazu, sicherzustellen, dass die aktualisierte Richtlinie des LLMs nahe an seiner ursprünglichen Richtlinie bleibt, wodurch verhindert wird, dass das Modell von seiner ursprünglichen Verteilung abweicht und unerwünschte Ausgaben erzeugt.

Fazit

GenARM stellt einen vielversprechenden Ansatz für die Testzeitausrichtung von LLMs dar. Durch die Nutzung des autoregressiven Belohnungsmodells ermöglicht GenARM eine effiziente und effektive Steuerung des Generierungsprozesses, ohne dass ein erneutes Training erforderlich ist. Die experimentellen Ergebnisse zeigen, dass GenARM in der Lage ist, die Leistung von Trainingszeitmethoden zu erreichen und gleichzeitig zusätzliche Vorteile wie eine effiziente Schwach-Stark-Führung und Unterstützung für die Multi-Objective-Ausrichtung zu bieten. ## Bibliographie - https://arxiv.org/abs/2410.08193 - http://www.arxiv.org/pdf/2410.08193 - https://deeplearn.org/arxiv/535625/genarm:-reward-guided-generation-with-autoregressive-reward-model-for-test-time-alignment - http://140.143.194.41/category?cate=Text_Generation&page=0 - https://udarimadhu.github.io/ - https://arxiv-sanity-lite.com/?rank=time - https://www.semanticscholar.org/paper/Reward-Augmented-Decoding%3A-Efficient-Controlled-a-Deng-Raffel/e5d0857feca845b474b89565d513ff599629851d - https://www.researchgate.net/publication/376393232_Reward-Augmented_Decoding_Efficient_Controlled_Text_Generation_With_a_Unidirectional_Reward_Model - https://www.ijcai.org/proceedings/2023/0053.pdf - http://paperreading.club/category?cate=arXiv_CL
Was bedeutet das?