Fortschritte in der Schlussfolgerungsfähigkeit von Sprachmodellen

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Künstliche Intelligenz und maschinelles Lernen entwickeln sich rasant weiter und stehen im Mittelpunkt vieler innovativer Technologien und Forschungsansätze. Ein Bereich, der in den letzten Jahren besonders viel Aufmerksamkeit erfahren hat, ist die Verbesserung der Schlussfolgerungsfähigkeiten von großen Sprachmodellen (Large Language Models, LLMs). Diese Modelle werden in einer Vielzahl von Anwendungen eingesetzt, von Chatbots und virtuellen Assistenten bis hin zu fortgeschrittenen Suchmaschinen und Wissenssystemen. Eine der Herausforderungen besteht darin, dass diese Modelle zwar große Mengen an Daten verarbeiten und sprachliche Inhalte generieren können, ihnen jedoch oft die Fähigkeit fehlt, komplexe Schlussfolgerungen zu ziehen, wie sie für die Lösung von Mathematikaufgaben oder ähnlich anspruchsvollen Problemen erforderlich sind.

Ein Ansatz, der in der Vergangenheit verfolgt wurde, ist das Supervised Fine-Tuning (SFT) von LLMs mit sogenannten Chain-of-Thought (CoT)-Annotationen. Diese Methode versucht, das Modell mittels Beispielen, die einen expliziten Gedankengang enthalten, zu trainieren. Allerdings zeigte sich, dass dieser Ansatz nicht ausreicht, um eine starke Generalisierungsfähigkeit zu erzielen, da das Training ausschließlich auf den vorgegebenen CoT-Daten basiert. Bei der Lösung von Mathematikaufgaben zum Beispiel gibt es im Trainingsdatensatz normalerweise nur einen annotierten Schlussfolgerungspfad pro Frage. Intuitiv wäre es jedoch vorteilhafter, wenn das Modell von mehreren annotierten Schlussfolgerungspfaden für eine Frage lernen könnte.

Um diese Problematik zu adressieren, hat ByteDance, das Unternehmen hinter der beliebten App TikTok, eine neue Methode namens Reinforced Fine-Tuning (ReFT) vorgestellt. Die Grundidee von ReFT besteht darin, das Modell zunächst mit SFT vorzubereiten und anschließend mittels Online-Reinforcement-Learning – speziell dem Proximal Policy Optimization (PPO) Algorithmus in dieser Studie – weiter zu verfeinern. Dabei werden zahlreiche Schlussfolgerungspfade automatisch generiert und die Belohnungen aus den korrekten Antworten abgeleitet. Durchgeführte Experimente auf Datensätzen wie GSM8K, MathQA und SVAMP zeigen, dass ReFT eine signifikante Verbesserung gegenüber SFT erzielt und dass die Leistung potenziell durch Kombination mit Strategien zur Inferenzzeit, wie Mehrheitsabstimmung und Neubewertung, weiter gesteigert werden kann. Bemerkenswert ist, dass ReFT diese Verbesserungen erzielt, indem es von denselben Trainingsfragen wie SFT lernt, ohne sich auf zusätzliche oder erweiterte Trainingsfragen zu stützen. Dies deutet auf eine überlegene Generalisierungsfähigkeit von ReFT hin.

Neben ReFT gibt es auch andere Ansätze zur Verbesserung der Schlussfolgerungsfähigkeiten von LLMs, wie das Alignment Fine-Tuning (AFT). AFT beinhaltet das Feintuning von LLMs mit CoT-Trainingsdaten, die Erzeugung mehrerer CoT-Antworten für jede Frage und die Kategorisierung dieser Antworten in positive und negative, abhängig davon, ob sie die richtige Antwort erreichen. Anschließend werden die Bewertungen der positiven und negativen Antworten von den LLMs mit einem neuartigen Constraint-Alignment-Verlust kalibriert. Dieser Ansatz zielt darauf ab, eine Ausrichtung zu gewährleisten, die sicherstellt, dass positive Bewertungen negative übertreffen, um Antworten mit hochwertigen CoT zu fördern, und gleichzeitig die negativen Bewertungen in einem vernünftigen Bereich zu halten, um eine Modelldegradation zu verhindern.

Die Forschung zeigt, dass die Verbesserung der Schlussfolgerungsfähigkeiten von LLMs nicht nur auf große Modelle beschränkt ist. Es gibt Methoden, wie das Wissen von großen LLMs durch Verfahren wie Knowledge Distillation auf kleinere Modelle zu übertragen. Diese Ansätze ermöglichen es kleineren Modellen, komplexe Schlussfolgerungsaufgaben zu bewältigen, und erweitern somit die praktische Anwendbarkeit von CoT-Techniken.

Zusammenfassend lässt sich sagen, dass die Entwicklung von Methoden wie ReFT und AFT einen wichtigen Schritt in der Evolution von LLMs darstellt. Sie ermöglichen es den Modellen, komplexe Aufgaben zu lösen und verbessern deren Fähigkeit, menschenähnliche Schlussfolgerungen zu ziehen. Dies hat weitreichende Implikationen für die künstliche Intelligenz und könnte dazu beitragen, die Lücke zwischen den Fähigkeiten von KI-Systemen und menschlichen Denkprozessen weiter zu schließen. Mit kontinuierlichen Fortschritten in diesem Bereich könnte die Zukunft eine Welt sein, in der maschinelles Lernen und künstliche Intelligenz noch stärker in unseren Alltag integriert sind und Aufgaben übernehmen, die bisher menschlicher Intelligenz vorbehalten waren.

Was bedeutet das?