Die Entwicklung und das Training von Künstlicher Intelligenz (KI), insbesondere von großen Sprachmodellen (Large Language Models, LLMs), stehen vor zunehmenden Herausforderungen. Eine der komplexesten Aufgaben ist die Multi-Objective Ausrichtung, die darauf abzielt, Modelle gleichzeitig auf mehrere, oft widersprüchliche Ziele hin zu optimieren. Dieser Artikel beleuchtet die neuesten Forschungen und Methoden auf diesem Gebiet und diskutiert die aktuellen Fortschritte und Herausforderungen.
Die meisten grundlegenden Modelle (Foundation Models) werden zunächst auf großen, unüberwachten Datensätzen vortrainiert und anschließend für spezifische Aufgaben mittels überwachten Lernens feinabgestimmt. Diese herkömmliche Methode kann jedoch oft nicht optimal mit menschlichen Präferenzen und Werten in Einklang gebracht werden. Jüngste Fortschritte im Bereich der Verstärkungslernen aus menschlichem Feedback (RLHF) haben gezeigt, dass es möglich ist, Sprachmodelle besser an menschliche Werte anzupassen.
Bei RLHF wird oft ein Belohnungsmodell verwendet, um Aufsicht für das Verstärkungslernen zu bieten. Menschliche Präferenzen sind jedoch inhärent heterogen und multidimensional und können oft im Widerspruch zueinander stehen, wie z.B. die Dichotomie zwischen Unschädlichkeit und Hilfsbereitschaft. Daher reicht es nicht aus, große Sprachmodelle mit nur einem Belohnungsmodell abzustimmen, um die Vielfalt menschlicher Präferenzen angemessen zu berücksichtigen.
Ein vielversprechender Ansatz zur Lösung dieses Problems ist das Multi-Objective Reinforcement Learning aus menschlichem Feedback (MORLHF). MORLHF könnte potenziell eine umfassendere Lösung bieten, um die vielfältigen menschlichen Präferenzen zu berücksichtigen. Ein möglicher Ansatz für MORLHF ist die lineare Skalierung, bei der RLHF verwendet wird, um eine linear gewichtete Belohnung mit menschlichen Präferenzen als Gewichte zu optimieren. Dieser Ansatz erfordert jedoch erhebliche Rechenressourcen aufgrund der Vielfalt der Nutzerpräferenzen.
Die jüngste Forschung schlägt vor, die Gewichte der LLMs linear zu interpolieren, um die Anzahl der Modelltrainings zu reduzieren. Trotz dieser Reduktion bleibt der Ansatz ressourcenintensiv, da ein einzelner RLHF-Prozess bereits kostspielig und instabil ist. Hier setzt die Methode der Belohnungssuppen (Rewarded Soups) an, die darauf abzielt, die Gewichte mehrerer LLM-Modelle für die Inferenz linear zu kombinieren. Dieser Ansatz ist effektiv, um den Rechenaufwand für die Multi-Objective Ausrichtung zu mindern.
Ein weiterer bedeutender Fortschritt ist der Ansatz "Rewards-in-Context" (RiC). RiC strukturiert das Multi-Objective Ausrichtungsproblem in drei Phasen: ein Offline-Training, ein Online-Training und eine Inferenzphase zur flexiblen Anpassung an unterschiedliche Nutzerpräferenzen. RiC benötigt nur eine einzige Modellfeinabstimmung und unterstützt die dynamische Anpassung der Nutzerpräferenzen zur Laufzeit.
Empirische Ergebnisse zeigen, dass RiC bei Ausrichtungsaufgaben mit verschiedenen Belohnungsmodellen effektiver ist als andere Basislinien. Es erreicht eine bessere empirische Front und benötigt nur etwa 10% der GPU-Stunden, die das MORLHF-Basisverfahren benötigt. RiC genießt bessere Skalierbarkeit und Einfachheit und kann auf mehr Belohnungen mit minimalem zusätzlichen Rechenaufwand erweitert werden.
Die Multi-Objective Ausrichtung von KI-Modellen stellt eine wesentliche Herausforderung dar, da menschliche Präferenzen komplex und oft widersprüchlich sind. Die Methoden der Belohnungssuppen und RiC zeigen vielversprechende Ansätze, diese Herausforderungen mit minimalem Rechenaufwand zu bewältigen. Zukünftige Forschungen könnten diese Ansätze weiter verfeinern und skalieren, um noch besser auf die vielfältigen menschlichen Präferenzen eingehen zu können.
Die kontinuierliche Weiterentwicklung dieser Methoden ist entscheidend, um KI-Systeme zu entwickeln, die sowohl hilfreich als auch unschädlich sind und gleichzeitig die Vielfalt menschlicher Werte und Präferenzen berücksichtigen.