Grundlagenmodelle in der KI: Neuartige Feinabstimmung durch Reward Finetuning

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In der Welt der künstlichen Intelligenz sind sogenannte Foundation-Modelle zu einem festen Bestandteil vieler Forschungs- und Entwicklungsprojekte geworden. Diese Modelle, die in der Regel durch das Training mit enormen Datenmengen entstehen, bilden die Grundlage für eine Vielzahl von Anwendungen, von der Sprachverarbeitung bis hin zur Bildgenerierung. Eine der Herausforderungen, die sich dabei stellen, ist die Ausrichtung dieser Modelle an menschlichen Präferenzen und ethischen Standards. Hier kommt das sogenannte Reward Finetuning ins Spiel, ein Ansatz, der sich als vielversprechend erwiesen hat, um Foundation-Modelle mit spezifischen Zielvorgaben in Einklang zu bringen.

Ein kürzlich veröffentlichtes Paper mit dem Titel "Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models" stellt eine neue Methode vor, die darauf abzielt, die Stabilität beim Reward Finetuning großer Diffusionsmodelle zu verbessern. Die Methode, bekannt als Proximal Reward Difference Prediction (PRDP), ermöglicht es erstmals, belohnungsbasierte Feinabstimmungen von Diffusionsmodellen im großen Maßstab durchzuführen.

Der Schlüssel zur Innovation von PRDP liegt in der Reward Difference Prediction (RDP), einem überwachten Regressionsziel, das die Diffusionsmodelle darauf trainiert, den Belohnungsunterschied zwischen erzeugten Bildpaaren anhand ihrer Entstörungsbahnen vorherzusagen. Die Autoren des Papers zeigen theoretisch auf, dass ein Diffusionsmodell, welches eine perfekte Belohnungsunterschiedsvorhersage erreicht, exakt das Maximum des Verstärkungslernziels erreicht – allerdings bei besserer Trainingstabilität.

Das Paper beschreibt weiterhin einen Online-Algorithmus mit proximalen Updates, um das RDP-Ziel stabil zu optimieren. In Experimenten konnten die Forscher demonstrieren, dass PRDP die Belohnungsmaximierungsfähigkeit etablierter Methoden des Verstärkungslernens (Reinforcement Learning, RL) bei kleineren Trainingsumfängen erreichen kann. Darüber hinaus zeigt PRDP bei großangelegten Trainings mit Textprompts aus dem Human Preference Dataset v2 und dem Pick-a-Pic v1 Dataset eine überlegene Erzeugungsqualität bei einer vielfältigen Auswahl komplexer, bisher ungesehener Prompts – ein Bereich, in dem RL-basierte Methoden komplett versagen.

Dieser Fortschritt ist besonders relevant für die Anwendung von KI in Bereichen, in denen die Erzeugung von Inhalten, die menschlichen Präferenzen entsprechen, kritisch ist, wie zum Beispiel in der kreativen Industrie, der personalisierten Kommunikation oder der Entwicklung von Lernmaterialien.

Neben PRDP wurde ein weiteres Framework namens RAFT (Reward rAnked FineTuning) vorgestellt, das darauf abzielt, generative Modelle effektiv auszurichten. RAFT nutzt ein Belohnungsmodell und eine ausreichende Anzahl von Beispielen, um hochwertige Muster auszuwählen und das Modell anschließend durch Feinabstimmung auf diesen gefilterten Beispielen zu verbessern.

Die vorgestellten Methoden sind nicht nur ein wichtiger Schritt für die Forschung im Bereich künstlicher Intelligenz, sondern auch ein Beispiel für die kontinuierliche Bemühung, KI-Modelle verantwortungsvoller und effektiver in der realen Welt einzusetzen. Die Ergebnisse und das Vorgehen der Forschergruppen werden als wegweisend für zukünftige Anwendungen in der Industrie angesehen und können dazu beitragen, die Akzeptanz von KI-gestützten Systemen in der Gesellschaft zu erhöhen.

Die vorgestellten Erkenntnisse stammen aus Forschungen, die in renommierten Archiven wie arXiv veröffentlicht wurden, und unterstreichen die Bedeutung offener wissenschaftlicher Kommunikation in der schnelllebigen Welt der KI-Entwicklung.

Quellenverzeichnis:
- Twitter-Profil von @_akhaliq
- arXiv:2304.06767, "Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models"
- OpenReview.net, PDF zu "Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models"
- arXiv:2305.13301, "RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment"

Was bedeutet das?