Diffusion-Transformer (DiT) haben sich als leistungsstarke generative Modelle für verschiedene Aufgaben etabliert, darunter Bild-, Video- und Sprachsynthese. Trotz ihrer beeindruckenden Ergebnisse bleibt die Inferenz aufgrund der wiederholten Ausführung rechenintensiver Aufmerksamkeits- und Feedforward-Module teuer. Dies begrenzt ihren Einsatz in Echtzeitanwendungen und stellt eine Hürde für die breite Nutzung dar. Ein neuer Ansatz namens SmoothCache verspricht hier Abhilfe.
SmoothCache ist eine modellunabhängige Technik zur Beschleunigung der Inferenz von DiT-Architekturen. Die Kernidee basiert auf der Beobachtung, dass die Ausgaben einzelner Schichten in aufeinanderfolgenden Diffusionsschritten sehr ähnlich sind. SmoothCache analysiert die Repräsentationsfehler schichtweise anhand eines kleinen Kalibrierungsdatensatzes. Basierend auf dieser Analyse werden Schlüsselmerkmale während der Inferenz zwischengespeichert und wiederverwendet. Dadurch reduziert sich die Anzahl der Berechnungen, was zu einer schnelleren Inferenz führt.
Die Effektivität von SmoothCache liegt in seiner adaptiven Natur. Anstatt starr Merkmale zwischenzuspeichern, entscheidet der Algorithmus dynamisch, welche Merkmale basierend auf den zuvor berechneten Repräsentationsfehlern wiederverwendet werden können. Diese adaptive Strategie ermöglicht es, ein Gleichgewicht zwischen Geschwindigkeit und Qualität zu finden. In Bereichen mit hoher Ähnlichkeit zwischen den Zeitschritten wird aggressiver gecached, während in Bereichen mit größeren Veränderungen neue Berechnungen durchgeführt werden.
Die Entwickler von SmoothCache demonstrierten die Vielseitigkeit ihres Ansatzes anhand verschiedener DiT-Modelle und Modalitäten. Experimente mit DiT-XL für die Bildgenerierung, Open-Sora für Text-zu-Video und Stable Audio Open für Text-zu-Audio zeigten signifikante Geschwindigkeitsgewinne. Je nach Modell und Aufgabe konnte die Inferenz um 8% bis zu 71% beschleunigt werden, ohne die Generierungsqualität zu beeinträchtigen. In einigen Fällen wurde sogar eine Verbesserung der Qualität beobachtet.
Die erzielten Ergebnisse unterstreichen das Potenzial von SmoothCache, die Anwendung von DiT-Modellen in Echtzeitanwendungen zu ermöglichen. Die signifikanten Geschwindigkeitsgewinne eröffnen neue Möglichkeiten für interaktive Anwendungen und generative KI-Tools. Darüber hinaus trägt die modellunabhängige Natur von SmoothCache dazu bei, die Zugänglichkeit und Anwendbarkeit leistungsstarker DiT-Modelle für ein breiteres Publikum zu verbessern.
SmoothCache stellt einen vielversprechenden Ansatz zur Beschleunigung der Inferenz von Diffusion-Transformern dar. Die adaptive Caching-Strategie ermöglicht eine effiziente Nutzung von Rechenressourcen, ohne die Generierungsqualität zu beeinträchtigen. Zukünftige Forschung könnte sich auf die Optimierung der Kalibrierungsphase und die Erweiterung auf weitere DiT-Architekturen und Anwendungsfälle konzentrieren. Die Integration von SmoothCache in bestehende Frameworks wie Mindverse könnte die Entwicklung und Bereitstellung von KI-gestützten Anwendungen erheblich vereinfachen und beschleunigen.
Bibliographie: - Liu, J., Geddes, J., Guo, Z., Jiang, H., & Nandwana, M. K. (2024). SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers. arXiv preprint arXiv:2411.10510. - Lou, J., Luo, W., Liu, Y., Li, B., Ding, X., Hu, W., ... & Ma, C. (2024). Token Caching for Diffusion Transformer Acceleration. arXiv preprint arXiv:2409.18523. - Ma, X., Fang, G., Mi, M. B., & Wang, X. (2024). Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching. arXiv preprint arXiv:2406.01733. - Selvaraju, P., Ding, T., Chen, T., Zharkov, I., & Liang, L. (2024). FORA: Fast-Forward Caching in Diffusion Transformer Acceleration. arXiv preprint arXiv:2407.01425. - Wang, K. (2024). Awesome-diffusion-categorized. GitHub repository. - NeurIPS 2024 Conference Schedule. - IterInv: Iterative Inversion for Pixel-Level T2I Models (NeurIPS 2023 Workshop). - ICML 2024 Conference Schedule. - ECCV 2024 Highlights. - Wimbauer, M., Wenzel, F., Kong, N., & Geiger, A. (2024). Cache Me if You Can: Accelerating Diffusion Models through Block Caching. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18663-18672). - Diff-usion. (2024). Awesome-Diffusion-Models. GitHub repository.