MaskLLM: Neuartiger Ansatz zur Effizienzsteigerung großer Sprachmodelle durch semi-strukturierte Datensparsamkeit

Kategorien:
No items found.
Freigegeben:
September 27, 2024

MaskLLM: Ein lernbarer Ansatz für semi-strukturierte Daten in großen Sprachmodellen

Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte in der Verarbeitung natürlicher Sprache erzielt. Ihre Leistungsfähigkeit verdanken sie der riesigen Anzahl an Parametern, die sie während des Trainings lernen. Diese schiere Größe bringt jedoch auch Herausforderungen mit sich, insbesondere im Hinblick auf Rechenaufwand und Speicherbedarf. Um diese Herausforderungen zu bewältigen, haben Forschende verschiedene Ansätze zur Datenreduktion entwickelt, darunter Quantisierung, Pruning und verschiedene Arten von Datensparsamkeit. Ein vielversprechender Ansatz ist die sogenannte "Semi-strukturierte" oder "N:M" Datensparsamkeit. Bei diesem Verfahren werden nur ausgewählte Teile des Modells für die Verarbeitung bestimmter Eingaben verwendet, während der Rest inaktiv bleibt. Dadurch lassen sich Rechenaufwand und Speicherbedarf deutlich reduzieren, ohne die Genauigkeit des Modells übermäßig zu beeinträchtigen. Eine neue Forschungsarbeit stellt nun "MaskLLM" vor, eine lernbare Pruning-Methode, die genau diese Art der Datensparsamkeit in LLMs ermöglicht. Anstatt ein neues Kriterium für die Wichtigkeit von Parametern zu entwickeln, modelliert MaskLLM N:M-Muster direkt als lernbare Verteilung mithilfe von Gumbel-Softmax-Sampling. Dieser Ansatz ermöglicht ein End-to-End-Training auf großen Datensätzen und bietet zwei entscheidende Vorteile: - **Hochwertige Maskierungen:** Die Methode skaliert effektiv auf große Datensätze und lernt präzise Masken, die irrelevante Parameter identifizieren und deaktivieren. - **Übertragbarkeit:** Die probabilistische Modellierung der Maskenverteilung ermöglicht die Übertragung der erlernten Datensparsamkeit auf andere Domänen oder Aufgaben. Die Forschenden evaluierten MaskLLM mit einer 2:4 Datensparsamkeit auf verschiedenen LLMs, darunter LLaMA-2, Nemotron-4 und GPT-3, mit Größen von 843 Millionen bis 15 Milliarden Parametern. Die Ergebnisse zeigen deutliche Verbesserungen gegenüber bisherigen Methoden. So erreichen führende Ansätze auf dem Wikitext-Datensatz eine Perplexität (PPL) von 10 oder mehr im Vergleich zu 5,12 PPL des dichten Modells. MaskLLM hingegen erzielt eine deutlich niedrigere PPL von 6,72, indem es ausschließlich die Masken bei eingefrorenen Gewichten lernt. Darüber hinaus ermöglicht die Lernfähigkeit von MaskLLM maßgeschneiderte Maskierungen für die verlustfreie Anwendung von 2:4 Datensparsamkeit auf nachgelagerte Aufgaben oder Domänen. Der Code für MaskLLM ist öffentlich zugänglich auf GitHub unter https://github.com/NVlabs/MaskLLM verfügbar. ## Fazit MaskLLM präsentiert einen vielversprechenden Ansatz zur Verbesserung der Effizienz von großen Sprachmodellen durch lernbare, semi-strukturierte Datensparsamkeit. Die Fähigkeit, hochwertige Masken zu lernen und diese auf andere Aufgaben zu übertragen, eröffnet neue Möglichkeiten für den Einsatz von LLMs in ressourcenbeschränkten Umgebungen. Die weitere Erforschung und Entwicklung solcher Methoden ist entscheidend, um die Vorteile von LLMs für eine breitere Palette von Anwendungen nutzbar zu machen.

Bibliographie

https://arxiv.org/abs/2402.06126 https://arxiv.org/html/2402.06126v3 https://paperswithcode.com/paper/learn-to-be-efficient-build-structured https://openreview.net/pdf?id=bSgieZ8-be https://proceedings.mlr.press/v202/lu23c/lu23c.pdf https://github.com/UbiquitousLearning/Paper-list-resource-efficient-large-language-model https://dev.to/mikeyoung44/fully-sparsely-activated-large-language-models-with-99-activation-sparsity-3a95 https://www.youtube.com/watch?v=TLY1QCw5iRw
Was bedeutet das?