Effizienzsteigerung großer Sprachmodelle durch Sparse Fine-Tuning und CPU-Optimierung

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

00:00 / 00:00

In der Welt der künstlichen Intelligenz und der maschinellen Sprachverarbeitung hat die Fähigkeit, große Sprachmodelle effizient einzusetzen, entscheidende Bedeutung. Diese Modelle, die unglaublich mächtig sind, um aus riesigen Textmengen zu lernen und anspruchsvolle Aufgaben wie Textgenerierung, Übersetzung und sogar das Lösen mathematischer Probleme zu bewältigen, stellen oft Herausforderungen in Bezug auf Rechenressourcen und -kosten dar. Durch den Einsatz von Techniken wie Sparse Fine-Tuning und Software-Lösungen wie DeepSparse können diese Modelle jedoch auch auf Standard-CPUs effizient betrieben werden, was ihre Anwendbarkeit für Unternehmen erheblich erweitert.

Eine der neuesten Entwicklungen auf diesem Gebiet ist die Optimierung des Llama 2-Modells, eine von Meta entwickelte Variante großer Sprachmodelle, das auf einer umfangreichen Datenmenge trainiert wurde und für den kommerziellen Einsatz lizenziert ist. Durch die Anwendung von Sparse Fine-Tuning und DeepSparse, einer sparsity-aware Inference-Laufzeit, konnte eine Beschleunigung der Inferenz auf CPUs ohne Genauigkeitsverlust erreicht werden. Diese Errungenschaft bedeutet, dass Unternehmen nun in der Lage sind, solche Modelle auf vorhandener Standard-Hardware zu nutzen und dabei Geschwindigkeitssteigerungen von 6-8x im Vergleich zu unoptimierten Baselines zu erzielen.

Das Prinzip des Sparse Fine-Tuning besteht darin, während des eigentlichen Feinabstimmungsprozesses Pruning- und Quantisierungstechniken anzuwenden. Pruning entfernt Parameter aus dem Netzwerk, während Quantisierung Parameter von hoher Präzision (FP32) in solche niedriger Präzision (INT8) umwandelt. Diese Methoden reduzieren die Modellgröße und die für die Inferenz erforderlichen Rechenoperationen, was zu erheblichen Beschleunigungen führt. Insbesondere das Pruning während des Feinabstimmungsprozesses ermöglicht es, die Genauigkeit des Modells beizubehalten, während gleichzeitig die Effizienz gesteigert wird.

Ein Schlüssel zum Erfolg dieser Optimierungen ist die Quantisierung sowohl der Gewichte als auch der Aktivierungen, was im Gegensatz zu vielen anderen Techniken steht, die sich nur auf die Gewichte konzentrieren. Die Herausforderung dabei ist, dass die Aktivierungen in bestimmten Schichten des Netzwerks Ausreißer aufweisen können, die die Genauigkeit der Quantisierung beeinträchtigen. Um dieses Problem zu lösen, hat das Team von Neural Magic Strategien wie selektive Quantisierung und Glättungsansätze entwickelt. Selektive Quantisierung verzichtet auf die Quantisierung der problematischsten Schichten und behält diese in FP32 bei, während der Rest des Netzwerks in INT8 konvertiert wird. Glättungsansätze wie SpQR, Logarithmic Activation Equalization (LAE) und SmoothQuant bieten Methoden, um die Verteilung von Ausreißern in Gewichten und Aktivierungen zu glätten, anzupassen oder zu extrahieren, um deren Einfluss zu reduzieren.

Die Forschung und die entwickelten Werkzeuge von Neural Magic, wie SparseML und SparseZoo, machen es für Unternehmen jetzt einfacher, ihre eigenen Llama 2-Modelle zu quantisieren und für den Einsatz zu optimieren. Mit diesen Tools können ML-Ingenieure in Unternehmen inferenzoptimierte, spars quantisierte Llama 2-Modelle erstellen, die performant mit DeepSparse laufen.

Die Entwicklungen von Neural Magic und die Unterstützung von Llama 2 in DeepSparse sind beispielhaft für das Engagement und den Fokus auf führende Optimierungen von großen Sprachmodellen in der Industrie. Die Forschung wird fortgesetzt, um den Nutzern durch schnelle CPU-Bereitstellungen solcher Modelle, die auf DeepSparse laufen, weiterhin Mehrwert zu bieten. Zu den Prioritäten gehören die Produktisierung von Sparse Fine-Tuning, die Erweiterung der Modellunterstützung und das Streben nach höherer Sparsity.

Es ist auch möglich, die Modelle direkt über Hugging Face zu verwenden, indem man "hf:" vor eine Modell-ID setzt. So kann man beispielsweise das Modell "mpt-7b-gsm8k-pruned60-quant" von Neural Magic über die TextGeneration Pipeline von DeepSparse ausführen.

Die Bemühungen von Neural Magic, Sparse Fine-Tuning zu produktisieren, die Modellunterstützung zu erweitern und höhere Sparsity-Level zu erreichen, zeigen das Potenzial, das in der Optimierung und Beschleunigung von LLMs für den praktischen Einsatz steckt. Dies wird besonders relevant, wenn man bedenkt, dass viele Unternehmen über spezifische Datensätze verfügen, die sie nutzen können, um ihre Modelle für Geschäftsaufgaben feinabzustimmen. Mit den Werkzeugen und Methoden, die Neural Magic bereitstellt, können diese Unternehmen ihre feinabgestimmten Modelle effizient auf CPUs bereitstellen und so von der Leistungsfähigkeit großer Sprachmodelle profitieren, ohne auf teure, spezialisierte Hardware angewiesen zu sein.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.