Künstliche Intelligenz hat in den letzten Jahren einen beispiellosen Aufschwung erlebt, insbesondere im Bereich der Sprachmodelle. Eines der herausragendsten Beispiele dieser Technologie sind die Großen Sprachmodelle (Large Language Models, LLMs), die auf riesigen Datensätzen trainiert werden und eine Vielzahl von Aufgaben bewältigen können, von der Textgenerierung bis hin zum Verständnis natürlicher Sprache. Ein aktuelles und bemerkenswertes Thema in diesem Bereich ist der Fortschritt bei der Anpassung und Optimierung dieser Modelle, um sie auf herkömmlichen CPU-Systemen ausführen zu können, ohne dass dabei eine teure GPU-Hardware erforderlich ist.
Ein solches Projekt, das derzeit in der Technologiewelt Aufsehen erregt, ist die Anpassung des Llama 2-Modells mit 7 Milliarden Parametern, um es ausschließlich auf CPUs laufen zu lassen. Dieses Unterfangen, das ursprünglich von Derrick Mwiti, einem renommierten Maschinenlernspezialisten, ins Leben gerufen wurde, zeigt nicht nur das Potenzial von effizientem maschinellem Lernen, sondern auch den innovativen Einsatz von Sparsification und Quantization-Techniken.
Der Prozess des Feinabstimmens (Fine-Tuning) von Llama 2 umfasste die Verwendung des GSM8k-Datensatzes, der aus einer Vielzahl von Mathematikaufgaben für Schulkinder besteht. Ohne Feinabstimmung erreichte das Llama 2-Modell eine Genauigkeit von 0 % bei der Lösung dieser Aufgaben, ein Ergebnis, das sich nach nur zwei Trainingsdurchläufen und der Verwendung von etwa 7.000 Beispielen auf beeindruckende 35,5 % verbesserte.
Nach dem Feinabstimmungsprozess kam die Technik des SparseGPT zur Anwendung, welche das Modell beschneidet und gleichzeitig das Training mit Modelldestillation fortsetzt, um die Genauigkeit wiederherzustellen. Anschließend wurde eine Ein-Schuss-Quantifizierung der Gewichte und Aktivierungen von FP32 auf INT8 durchgeführt. Bei einer Sparsity (Dünnheit) von 60 % konnte die volle Genauigkeit des optimierten Modells wiederhergestellt werden.
Das Ergebnis dieses Prozesses ist ein Modell, das 6 bis 8 Mal schneller auf den neuesten AMD Zen 4 Genoa-Kernen läuft als die dichten Baselines, wenn es mit DeepSparse, einer speziellen Software von Neural Magic, betrieben wird. Die Herausforderung bei der Quantifizierung der Gewichte und Aktivierungen von LLMs liegt darin, dass einige Schichten des Modells sehr empfindlich auf Veränderungen reagieren können. Die Quantifizierung dieser empfindlichen Schichten kann die Genauigkeit des Endmodells negativ beeinflussen, insbesondere wenn Ausreißer in bestimmten Schichten außerhalb des erwarteten Bereichs liegen.
Das Team von Neural Magic hat eine Lösung entwickelt, die Llama 2 quantifiziert und gleichzeitig diese Ausreißer überwindet. Diese Lösung wurde in Rezepten verpackt, die leicht zu verwenden sind, was es Unternehmen und Einzelpersonen ermöglicht, ihre eigenen Modelle fein abzustimmen und die Demos auszuprobieren.
Zusammenfassend lässt sich sagen, dass die Anwendung von Sparse Fine-Tuning und den damit verbundenen Technologien eine neue Ära für die Ausführung von LLMs auf CPU-Systemen eingeläutet hat. Die Ergebnisse dieses Projekts sind vielversprechend und könnten den Weg für eine breitere Nutzung von KI-Modellen in verschiedenen Sektoren ebnen, insbesondere in Bereichen, in denen der Zugang zu High-End-GPU-Ressourcen begrenzt oder kostspielig ist.
Das Engagement und die Forschung von Experten wie Derrick Mwiti und Teams wie Neural Magic spielen eine entscheidende Rolle bei der Demokratisierung der KI-Technologie, indem sie leistungsstarke Werkzeuge und Methoden entwickeln, die es ermöglichen, komplexe Modelle auf allgemein verfügbarer Hardware mit beeindruckender Effizienz und Geschwindigkeit zu betreiben. Dies öffnet nicht nur neue Möglichkeiten für die Forschung und Entwicklung in der KI, sondern auch für deren praktische Anwendung in Wirtschaft und Gesellschaft.