Die Generierung von Texten durch große Sprachmodelle (LLMs) hat in den letzten Jahren enorme Fortschritte gemacht. Ein wichtiger Faktor für die Qualität der generierten Texte ist die Wahl der Dekodierungsstrategie. Während höhere Temperaturen bei der Stichprobenentnahme kreativere, aber oft weniger faktisch korrekte Ergebnisse liefern, führen niedrigere Temperaturen zu präziseren, jedoch weniger vielfältigen Texten. Die derzeitige Praxis, eine feste Temperatur für alle Aufgaben zu verwenden, ist oft suboptimal. Eine neue Forschungsarbeit stellt nun einen Ansatz vor, der die Dekodierungstemperatur dynamisch anpasst, um die Leistung von LLMs zu verbessern.
Die vorgeschlagene Methode namens "Adaptive Dekodierung" integriert eine lernbare Schicht, den sogenannten "AdaptiveDecoder", in die Architektur des Sprachmodells. Dieser Decoder ermöglicht es dem Modell, die Stichprobentemperatur dynamisch während der Inferenz anzupassen, entweder auf Token- oder auf Sequenzebene. Auf Token-Ebene wird für jedes generierte Token eine eigene Temperatur vorhergesagt, was eine fein abgestimmte Kontrolle über die Textgenerierung erlaubt. Auf Sequenzebene hingegen wird eine einzige Temperatur für die gesamte Sequenz festgelegt.
Der AdaptiveDecoder besteht aus einem zusätzlichen Dekodierungskopf, der an die letzte versteckte Schicht des Transformers angeschlossen ist. Dieser Kopf berechnet Wahrscheinlichkeiten für verschiedene Temperaturwerte. Die Temperatur mit der höchsten Wahrscheinlichkeit wird dann für die Generierung des nächsten Tokens bzw. der gesamten Sequenz verwendet. Dadurch kann das LLM beispielsweise bei mathematischen Problemen niedrige Temperaturen für faktische Genauigkeit und bei kreativen Aufgaben höhere Temperaturen für mehr Diversität wählen.
Das Training des AdaptiveDecoders erfordert die Optimierung diskreter latenter Variablen, in diesem Fall die Auswahl der Temperatur. Die Forscher stellen hierfür die "Latente Präferenzoptimierung" (LPO) vor. Bei LPO werden mehrere Antworten vom Modell generiert, wobei der AdaptiveDecoder die Temperaturen auswählt. Diese Antworten werden dann von einem Belohnungsmodell bewertet, um Präferenzpaare zu erstellen. Anhand dieser Paare lernt der AdaptiveDecoder, die optimalen Temperaturen für verschiedene Kontexte auszuwählen. Die LPO-Methode ermöglicht es, die Hyperparameter der Textgenerierung über verschiedene Aufgaben hinweg zu lernen und so ein Gleichgewicht zwischen Exploration und Exploitation zu finden.
Die Wirksamkeit der Adaptiven Dekodierung wurde in Experimenten mit verschiedenen Datensätzen, darunter UltraFeedback, Creative Story Writing und GSM8K, evaluiert. Die Ergebnisse zeigen, dass die Methode alle festen Dekodierungstemperaturen übertrifft. Der AdaptiveDecoder lernt, niedrige Temperaturen für Aufgaben wie Mathematik, höhere Temperaturen für kreatives Schreiben und Werte dazwischen für allgemeine Anweisungen zu wählen. Insbesondere in Szenarien, die sowohl kreative als auch faktenbasierte Elemente erfordern, zeigt die adaptive Anpassung der Temperatur deutliche Vorteile. Die Methode ermöglicht es dem Modell, die Diversität seiner Ausgaben kontextabhängig zu steuern und so die Qualität der generierten Texte zu verbessern.
Die Adaptive Dekodierung mit LPO bietet ein vielversprechendes Werkzeug zur Verbesserung der Textgenerierung durch LLMs. Die Methode ist generisch und könnte auch auf andere Hyperparameter wie Top-p oder Top-k angewendet werden. LPO selbst ist ein allgemeines Verfahren zum Trainieren diskreter latenter Variablen und könnte auch in anderen Architekturen mit diskreten Entscheidungen Anwendung finden. Die Integration des AdaptiveDecoders in Standard-Post-Training-Pipelines könnte zu robusteren und flexibleren LLMs führen, die sich automatisch an die Anforderungen verschiedener Aufgaben anpassen.
Bibliographie: https://arxiv.org/abs/2411.09661 https://arxiv.org/html/2411.09661v1 https://www.researchgate.net/publication/385823285_Adaptive_Decoding_via_Latent_Preference_Optimization https://xueshuxiangzi.blob.core.windows.net/paper/ch_paper/2024_11_15/2411.09661.pdf https://chatpaper.com/chatpaper/paper/76314 https://m.facebook.com/groups/1812757845647448/posts/-adaptive-decoding-via-latent-preference-optimizationdhuliawala-et-al-httpsarxiv/3871473826442496/ https://m.facebook.com/groups/181421825652991/posts/-adaptive-decoding-via-latent-preference-optimizationdhuliawala-et-al-httpsarxiv/2021554211639734/ https://x.com/jaseweston/status/1857257120338780209 https://paperreading.club/page?id=266352 https://colmweb.org/AcceptedPapers.html