Effizienzsteigerung von KI-Modellen durch innovative N:M Struktursparsamkeit

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

Im Zeitalter der Digitalisierung und der immer weiter fortschreitenden Entwicklung von Künstlicher Intelligenz (KI) werden fortwährend neue Methoden erforscht, um die Effizienz und Leistungsfähigkeit von KI-Modellen zu steigern. Eine solche Methode, die in letzter Zeit zunehmend Beachtung findet, ist die sogenannte N:M Struktursparsamkeit. Diese Form der Datenverarbeitung ist besonders wegen ihres relativ geringen Mehraufwands und der verbesserten Effizienz interessant. Zudem bietet sie den Vorteil, den Speicherbedarf zu reduzieren, da sie nur einen bescheidenen Darstellungsaufwand benötigt.

Traditionelle Trainingsrezepte für N:M Struktursparsamkeit konzentrieren sich hauptsächlich auf Bereiche mit niedriger Sparsamkeit, also Regionen, in denen etwa 50% der Daten als redundant betrachtet und entfernt werden können. Doch die Leistungsfähigkeit der Modelle, die mit diesen Methoden trainiert werden, nimmt ab, sobald sie mit Bereichen hoher Sparsamkeit, über 80%, konfrontiert werden. In einer aktuellen Studie wurde die Wirksamkeit bestehender Trainingsrezepte für hohe Sparsamkeitsregionen untersucht, mit dem Ergebnis, dass diese Methoden es nicht schaffen, die Modellqualität auf einem mit niedrigen Sparsamkeitsregionen vergleichbaren Niveau zu halten. Als Hauptgrund für diese Diskrepanz wurde ein erhöhtes Niveau an induziertem Rauschen in den Gradientenbeträgen identifiziert.

Um diesem unerwünschten Effekt entgegenzuwirken, wurden Abklingmechanismen eingesetzt, die den Fluss der Gradienten zu den entfernten Elementen schrittweise einschränken. Dieser Ansatz verbesserte die Modellqualität um bis zu 2% bei Bildmodellen und um bis zu 5% bei Sprachmodellen im Bereich hoher Sparsamkeit. Darüber hinaus wurde der Kompromiss zwischen Modellgenauigkeit und Trainingsrechenkosten in Bezug auf FLOPs (Floating Point Operations per Second) bewertet. Bei gleicher Trainingsrechenleistung zeigte die neue Methode eine bessere Leistung im Vergleich zu konventionellen Trainingsrezepten für Sparsamkeit und wies eine Verbesserung der Genauigkeit von bis zu 2% auf.

Die Studie, die auf dem Workshop zu Sparsity in Neural Networks auf der Internationalen Konferenz für Maschinelles Lernen (ICML) 2022 vorgestellt wurde, schlägt zwei neue auf Abklingen basierende Pruning-Methoden vor: "Pruning Mask Decay" und "Sparse Structure Decay". Diese Methoden liefern konsistent eine Spitzenmodellgenauigkeit, die mit unstrukturierter Sparsamkeit vergleichbar ist, und dies auf einem Transformer-basierten Modell für eine Übersetzungsaufgabe. Der Anstieg der Genauigkeit des sparsamen Modells durch die neuen Trainingsrezepte kam zu einem marginalen Anstieg der gesamten Trainingsrechenleistung (FLOPs).

Durch die fortschreitende Entwicklung solcher Techniken wird die Zukunft der KI weiterhin von Innovationen geprägt sein, die nicht nur die Leistungsfähigkeit steigern, sondern auch den Energieverbrauch und die Kosten für das Training von KI-Modellen verringern. Unternehmen wie Mindverse, die sich auf die Entwicklung und Bereitstellung von KI-Inhalten, Bildern, Forschung und maßgeschneiderten Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssystemen und mehr spezialisieren, können von diesen Fortschritten profitieren und sie in ihre Produkte und Dienstleistungen integrieren, um ihren Kunden noch effizientere und effektivere Tools zur Verfügung zu stellen.

Bibliographie:
1. Sheng-Chun Kao, Amir Yazdanbakhsh, Suvinay Subramanian, Shivani Agrawal, Utku Evci, Tushar Krishna, "Training Recipe for N:M Structured Sparsity with Decaying Pruning Mask", arXiv:2209.07617, https://arxiv.org/abs/2209.07617
2. Anonymous, "Progressive Gradient Flow for Robust N:M Sparsity Training in Transformers", Hugging Face Paper, https://huggingface.co/papers/2402.04744
3. Anonymous, "Evaluating the Trade-off Between Model Accuracy and Training Compute Cost in N:M Structured Sparsity", OpenReview, https://openreview.net/pdf?id=bMXueK316u
4. Anonymous, "Decay-Based Pruning Methods for Transformer Models", ACL Anthology, https://aclanthology.org/2023.findings-acl.15.pdf

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.