Optimierung von Diffusionsmodellen durch menschliche Präferenzen: Ein neuer Ansatz mit SePPO

Kategorien:

No items found.

Freigegeben:

October 9, 2024

Reinforcement Learning from Human Feedback (RLHF) hat sich als Methode zur Feinabstimmung von Diffusionsmodellen (DMs) für die visuelle Generierung etabliert. Herkömmliche On-Policy-Strategien sind jedoch durch die Generalisierungsfähigkeit des Belohnungsmodells begrenzt, während Off-Policy-Ansätze große Mengen an schwierig zu beschaffenden, paarweise von Menschen annotierten Daten erfordern, insbesondere bei visuellen Generierungsaufgaben. Um die Einschränkungen sowohl von On- als auch Off-Policy-RLHF zu adressieren, wurde ein vielversprechender Ansatz zur Präferenzoptimierung entwickelt, der darauf abzielt, DMs mit menschlichen Präferenzen auszurichten, ohne sich auf Belohnungsmodelle oder paarweise von Menschen annotierte Daten zu verlassen.

Herausforderungen und Ansätze im RLHF

RLHF-Methoden haben sich als effektiv bei der Feinabstimmung großer Sprachmodelle (LLMs) erwiesen, stoßen aber bei der Anwendung auf visuelle Generierungsaufgaben auf Herausforderungen. On-Policy-Methoden, die ein Belohnungsmodell verwenden, um die Ausgaben zu bewerten und die Richtlinie anhand dieser Bewertungen zu aktualisieren, leiden unter Problemen wie Belohnungs-Hacking und der Schwierigkeit, ein wirklich umfassendes Belohnungsmodell für visuelle Inhalte zu erstellen. Off-Policy-Methoden hingegen verwenden einen festen Datensatz von Präferenzen, benötigen aber typischerweise große Mengen an paarweisen Daten, die durch menschliche Annotationen gewonnen werden, was kostspielig und zeitaufwendig sein kann. Dies schränkt ihre Praktikabilität ein, insbesondere bei umfangreichen visuellen Generierungsaufgaben.

SePPO: Ein Semi-Policy-Ansatz zur Präferenzoptimierung

SePPO (Semi-Policy Preference Optimization) zielt darauf ab, die Nachteile sowohl von On- als auch Off-Policy-Methoden zu überwinden. SePPO nutzt frühere Checkpoints des Modells als Referenzmodelle, um "verlierende Bilder" in Präferenzpaaren zu generieren. Dies ermöglicht die Optimierung des Modells nur mit Off-Policy-"Gewinnerbildern", wodurch der Bedarf an umfangreichen paarweisen Daten entfällt.

Referenzmodellauswahl und Adaptive Flipping

Ein wichtiger Aspekt von SePPO ist die Strategie zur Auswahl des Referenzmodells. Anstatt sich auf einen festen Checkpoint zu verlassen, untersucht SePPO verschiedene Ansätze, wie z. B. die zufällige Auswahl aus allen vorherigen Checkpoints. Dieser Ansatz trägt dazu bei, die Exploration im Strategieraum zu erweitern und das Risiko einer Überanpassung an ein bestimmtes Referenzmodell zu verringern. Darüber hinaus führt SePPO ein Konzept namens "Anchor-based Adaptive Flipper" (AAF) ein. AAF bewertet die Qualität der vom Referenzmodell generierten Stichproben im Vergleich zum aktuellen Modell. Wenn das Referenzmodell eine höhere Wahrscheinlichkeit hat, ein "gewinnendes" Bild zu generieren, werden sowohl das gewinnende Bild als auch die vom Referenzmodell generierten Stichproben für das Lernen verwendet. Dies trägt dazu bei, die Auswirkungen von Unsicherheiten in der Stichprobenqualität zu mildern und ermöglicht es dem Modell, aus einer größeren Bandbreite von Beispielen zu lernen.

Bewertung und Ergebnisse

SePPO wurde sowohl auf Text-zu-Bild- als auch auf Text-zu-Video-Benchmarks validiert und übertraf bestehende Ansätze in Bezug auf die visuelle Qualität und die Abstimmung von Eingabeaufforderungen. Insbesondere übertraf SePPO auf Text-zu-Bild-Benchmarks alle bisherigen Ansätze und zeigte auch auf Text-zu-Video-Benchmarks eine hervorragende Leistung.

Zukünftige Forschung und Anwendungen

SePPO stellt einen vielversprechenden Schritt in Richtung der Entwicklung von effizienteren und effektiveren Methoden zur Ausrichtung von Diffusionsmodellen dar. Zukünftige Forschung könnte sich auf die weitere Verbesserung der Strategien zur Auswahl von Referenzmodellen und die Einarbeitung komplexerer Mechanismen für adaptives Flipping konzentrieren. Darüber hinaus könnte die Erforschung der Anwendungen von SePPO in anderen Bereichen, wie z. B. der Sprachmodellierung und der Robotik, interessante Möglichkeiten eröffnen. http://arxiv.org/abs/2410.05255 https://arxiv.org/html/2410.05255v1 https://github.com/dwanzhang-ai/seppo https://paperreading.club/page?id=257180 https://mapo-t2i.github.io/ https://arxiv-sanity-lite.com/?rank=time https://openaccess.thecvf.com/content/CVPR2024/papers/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.pdf https://paperswithcode.com/latest https://proceedings.neurips.cc/paper_files/paper/2023/file/de8bd6b2b01cfa788e63f62e5b9a99b9-Paper-Conference.pdf https://openaccess.thecvf.com/content/CVPR2024/html/Wallace_Diffusion_Model_Alignment_Using_Direct_Preference_Optimization_CVPR_2024_paper.html

Was bedeutet das?