Die Generierung von Bildern aus Textbeschreibungen mithilfe von Künstlicher Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht. Text-zu-Bild (T2I) Diffusionsmodelle, die große Sprachmodelle als Text-Encoder einsetzen, liefern beeindruckende Ergebnisse hinsichtlich der Bildqualität. Dabei spielt der Text-Encoder eine entscheidende Rolle, indem er die Texteingabe in eine für das Diffusionsmodell verständliche Repräsentation, sogenannte Text-Embeddings, umwandelt.
Ein bisher ungelöstes Problem bei diesen Modellen ist der hohe Speicherbedarf der Text-Encoder. Obwohl sie im Vergleich zu den Denoising-Modulen, die für die eigentliche Bildgenerierung zuständig sind, nur einen geringen Anteil an der Gesamtinferenzzeit und den Floating-Point-Operationen (FLOPs) ausmachen, benötigen sie bis zu achtmal mehr Speicher. Diese Diskrepanz stellt eine Herausforderung für den Einsatz von T2I-Modellen auf ressourcenbeschränkten Geräten dar.
Eine neue Methode namens "Skip and Re-use layers" (Skrr) verspricht, dieses Problem zu lösen. Skrr ist eine Pruning-Strategie, die speziell für Text-Encoder in T2I-Diffusionsmodellen entwickelt wurde. Das Verfahren nutzt die inhärente Redundanz in Transformer-Blöcken aus, indem es bestimmte Schichten selektiv überspringt oder wiederverwendet. Diese Auswahl erfolgt auf Basis der spezifischen Anforderungen von T2I-Aufgaben.
Der Kern der Skrr-Methode liegt in der intelligenten Kombination von Überspringen und Wiederverwenden von Schichten. Anstatt ganze Blöcke zu entfernen, wie es bei herkömmlichen Pruning-Methoden der Fall ist, analysiert Skrr die Bedeutung einzelner Schichten für die Generierung qualitativ hochwertiger Bilder. Schichten, deren Beitrag gering ist, werden übersprungen, während wichtige Informationen aus anderen Schichten wiederverwendet werden. Dieser Ansatz ermöglicht eine signifikante Reduktion des Speicherbedarfs, ohne die Performance des Modells zu beeinträchtigen.
Um die Effektivität von Skrr zu evaluieren, wurden umfangreiche Experimente durchgeführt. Die Ergebnisse zeigen, dass Skrr selbst bei hoher Sparsity, also einer starken Reduktion der verwendeten Schichten, eine Bildqualität erreicht, die mit dem ursprünglichen Modell vergleichbar ist. Im Vergleich zu bestehenden blockweisen Pruning-Methoden schneidet Skrr deutlich besser ab. Darüber hinaus erzielt Skrr herausragende Ergebnisse in Bezug auf Speichereffizienz, ohne die Performance verschiedener Evaluationsmetriken wie FID, CLIP, DreamSim und GenEval zu beeinträchtigen.
Die Entwicklung von Skrr stellt einen wichtigen Schritt zur Optimierung von T2I-Modellen dar. Durch die Reduktion des Speicherbedarfs der Text-Encoder wird der Einsatz dieser leistungsstarken Modelle auf einer breiteren Palette von Geräten, einschließlich mobiler Geräte und eingebetteter Systeme, ermöglicht. Dies eröffnet neue Möglichkeiten für kreative Anwendungen und die Integration von T2I-Technologie in alltägliche Produkte und Dienstleistungen. Die Forschung in diesem Bereich ist dynamisch und vielversprechend, und weitere Verbesserungen der Effizienz von T2I-Modellen sind zu erwarten.
Bibliographie: - Seo, H., Jeong, W., Seo, J., & Chun, S. Y. (2025). Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation. *arXiv preprint arXiv:2502.08690*. - Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Omian, B. (2023). High-resolution image synthesis with latent diffusion models. *arXiv preprint arXiv:2112.10752*. - Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., ... & Norouzi, M. (2022). Photorealistic text-to-image diffusion models with deep language understanding. *arXiv preprint arXiv:2205.11487*. - Nichol, A., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., McGrew, B., ... & Chen, M. (2021). Glide: Towards photorealistic image generation and editing with text-guided diffusion models. *arXiv preprint arXiv:2112.10741*. - Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. *arXiv preprint arXiv:2103.00020*. - https://arxiv.org/abs/2302.12228 - https://arxiv.org/abs/2306.00738 - https://openreview.net/forum?id=iG7qH9Kdao - https://iclr.cc/virtual/2024/events/spotlight-posters - https://huggingface.co/docs/diffusers/main/api/pipelines/stable_unclip - https://docs.nvidia.com/nemo-framework/user-guide/24.09/nemotoolkit/multimodal/vlm/clip.html - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05800.pdf - https://ir.cwi.nl/pub/32912/32912E.pdf - https://pure-oai.bham.ac.uk/ws/portalfiles/portal/231829196/AutomatedReasoning-LNICS-14740.pdf - https://www.sciencedirect.com/science/article/pii/S1074761323001711