Die rasante Entwicklung von Bildgenerierungsmodellen, insbesondere durch den Einsatz von Diffusionsmodellen, hat in den letzten Jahren beeindruckende Ergebnisse hervorgebracht. Ein zentraler Aspekt dieser Fortschritte liegt in der Feinabstimmung der Modelle, um sie an die menschlichen Vorlieben anzupassen. Dieser Prozess, der oft als "Alignment" bezeichnet wird, ist jedoch komplexer als es zunächst scheint. Denn der menschliche Geschmack ist vielfältig und subjektiv, und die Daten, die zur Anpassung der Modelle verwendet werden, spiegeln diese Komplexität wider.
Ein gängiger Ansatz zur Ausrichtung von Diffusionsmodellen ist Diffusion-DPO (Direct Preference Optimization). DPO nutzt Präferenzdaten, die aus Vergleichen von Bildpaaren gewonnen werden, um die Modelle auf die allgemeinen menschlichen Vorlieben zu trainieren. Doch die Annahme universeller Präferenzen birgt Herausforderungen. Präferenzdatensätze enthalten oft Minderheitenmeinungen, die im Gesamtbild unterrepräsentiert sind. Diese Minderheitenmeinungen können, wenn sie nicht angemessen berücksichtigt werden, die Modellleistung negativ beeinflussen und zu einer Verzerrung in Richtung der Mehrheitsmeinung führen.
Eine neue Forschungsarbeit untersucht genau diese Problematik und schlägt einen innovativen Ansatz vor: Adaptive-DPO. Diese Methode erkennt und berücksichtigt Minderheitenmeinungen in den Präferenzdaten, um ein ausgewogeneres Training der Diffusionsmodelle zu ermöglichen. Kernstück des Adaptive-DPO ist eine Metrik, die die Intra-Annotator-Konfidenz (die Sicherheit eines einzelnen Bewerters in seiner Bewertung) und die Inter-Annotator-Stabilität (die Übereinstimmung zwischen verschiedenen Bewertern) erfasst. Diese Metrik erlaubt es, zwischen Mehrheits- und Minderheitenmeinungen zu unterscheiden.
Die Adaptive-DPO-Verlustfunktion verbessert den herkömmlichen DPO-Ansatz in zweierlei Hinsicht. Erstens verstärkt sie das Lernen aus Mehrheitsmeinungen, um die allgemeine Modellleistung zu optimieren. Zweitens minimiert sie den negativen Einfluss von Minderheitenmeinungen, indem sie deren Gewicht im Trainingsprozess reduziert. Dadurch wird verhindert, dass das Modell einseitig auf die Mehrheitsmeinung ausgerichtet wird und die Diversität der generierten Bilder eingeschränkt wird.
Experimente mit synthetischen und realen Präferenzdaten bestätigen die Wirksamkeit von Adaptive-DPO. Die Ergebnisse zeigen, dass die Methode sowohl mit künstlich erzeugten Minderheitenmeinungen als auch mit realen, komplexeren Präferenzdaten erfolgreich umgeht. Dies eröffnet neue Möglichkeiten für die Entwicklung von effektiveren Trainingsmethoden für Bildgenerierungsmodelle und trägt dazu bei, dass Künstliche Intelligenz die vielfältigen Geschmäcker der Nutzer besser abbilden kann.
Die Berücksichtigung von Minderheitenmeinungen im Training von KI-Modellen ist ein wichtiger Schritt in Richtung einer inklusiveren und repräsentativeren Künstlichen Intelligenz. Adaptive-DPO bietet einen vielversprechenden Ansatz, um diesem Ziel näher zu kommen und die Entwicklung von Bildgenerierungsmodellen voranzutreiben, die die Bedürfnisse und Vorlieben aller Nutzer berücksichtigen.
Bibliographie: Zhang, L., Liu, C., Xu, C., Hu, K., Luo, D., Wang, C., Fu, Y., & Yao, Y. (2025). When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO. arXiv preprint arXiv:2503.16921. Wallace, E., Nichol, A., & Ho, J. (2024). Diffusion model alignment using direct preference optimization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 22314-22324). Procaccia, A. D., Shah, N., & Zick, Y. (2024). Preference elicitation for participatory budgeting. In Proceedings of the 38th AAAI Conference on Artificial Intelligence (AAAI). Parmar, N., Ramachandran, P., von Platen, P., Ahuja, A., Beeching, E., & Blunsom, P. (2024). Text-to-image generation with composable diffusion models. In Advances in Neural Information Processing Systems (NeurIPS). Lee, J., Kim, H., Moon, I. C., & Kim, N. S. (2024). MAPO: Multi-agent preference optimization for text-to-image generation. arXiv preprint arXiv:2311.12908. Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., ... & Steinhardt, J. (2024). Constitutional AI: Harmlessness from AI feedback. arXiv preprint arXiv:2406.06424. Ahuja, A., Askell, A., Bai, Y., Blunsom, P., Clark, J., Kadavath, S., ... & Steinhardt, J. (2024). Towards scalable alignment of large language models via direct preference optimization. In Proceedings of the 6th Workshop on Interactive Learning for Natural Language Processing (pp. 1-16). Raunak, V., Wijesinghe, P., Srinivasan, K., & Kamar, E. (2024). Direct alignment with heterogeneous preferences. arXiv preprint arXiv:2404.06164.