Transformation der KI Sprachmodelle durch Mixture of Experts Technologie

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In den letzten Jahren haben große Sprachmodelle (Large Language Models, LLMs) erhebliche Fortschritte in der künstlichen Intelligenz und im maschinellen Lernen erzielt. Diese Modelle, zu denen auch GPT-3 und seine Nachfolger gehören, haben die Art und Weise revolutioniert, wie Maschinen Sprache verstehen und generieren. Eine spezielle Architektur, die in jüngster Zeit zunehmend an Bedeutung gewinnt, ist die Mixture-of-Experts (MoE), eine Architektur, die darauf abzielt, die Leistungsfähigkeit von Sprachmodellen weiter zu verbessern, indem sie eine Vielzahl von „Experten“ nutzt, die für unterschiedliche Aufgaben spezialisiert sind.

MoE-Modelle funktionieren, indem sie für eine gegebene Eingabe nur einen Bruchteil der Modellschichten aktivieren, was zu einer schnelleren Token-Generierung als bei dichten Modellen führt. Dieses Prinzip ermöglicht eine effizientere Nutzung der Rechenressourcen. Allerdings erhöht die Vielzahl der Experten auch die Gesamtgröße des Modells erheblich. Trotz der beeindruckenden Leistungsfähigkeit dieser Modelle stellt ihre Größe eine Herausforderung dar, insbesondere wenn die für die Ausführung erforderlichen GPU-Ressourcen begrenzt sind. Die notwendige Hardware überschreitet oft die Kapazität, die auf typischer Verbraucher-Hardware oder sogar auf fortgeschrittenen, aber begrenzten Serverumgebungen verfügbar ist.

Ein Beispiel für ein solches MoE-Modell ist das Mixtral-8x7B, ein Modell, das Parameter im Umfang von über 90 GB aufweist. Um solch ein Modell auf einer einzigen GPU mit 24 GB Speicher ausführen zu können, wurde eine neue Methode namens Fiddler entwickelt. Fiddler ist eine ressourceneffiziente Inferenz-Engine, die eine Orchestrierung zwischen CPU und GPU nutzt, um den Datentransfer zwischen beiden zu minimieren und eine schnelle Inferenz zu ermöglichen. Das Konzept von Fiddler besteht darin, die Rechenfähigkeit der CPU zu nutzen, um den Datenaustausch mit der GPU so gering wie möglich zu halten. Die ersten Ergebnisse zeigen, dass Fiddler in der Lage ist, das Mixtral-8x7B-Modell zu betreiben und mehr als drei Tokens pro Sekunde zu generieren, was eine Verbesserung um eine Größenordnung gegenüber bestehenden Methoden darstellt.

Dieses Modell wurde auf der Grundlage von Algorithmen zum Auslagern von Parametern weiterentwickelt, um die Ausführung durch die Nutzung der inhärenten Eigenschaften der MoE-LLMs zu beschleunigen. Durch die Anwendung dieser Strategie kann das Mixtral-8x7B-Modell mit gemischter Quantisierung auf Desktop-Hardware und kostenlosen Google Colab-Instanzen ausgeführt werden.

Die Entwicklung von Methoden wie Fiddler ist von entscheidender Bedeutung, da sie es ermöglichen, dass auch Nutzer ohne Zugang zu High-End-GPUs von den neuesten Fortschritten im Bereich der KI profitieren können. Indem die Ausführung großer MoE-Sprachmodelle auf Hardware mit begrenztem GPU-Speicher ermöglicht wird, eröffnen sich neue Möglichkeiten für die Forschung und Anwendung von KI-Technologien.

Die Forschung, die hinter Fiddler und ähnlichen Technologien steht, baut auf einem soliden Fundament früherer Arbeiten auf, die sich mit der Auslagerung von Parametern befasst haben, um große Modelle mit begrenztem Beschleunigerspeicher zu inferieren und zu trainieren. Durch das dynamische Laden von Modellparametern, wenn sie für die Berechnung benötigt werden, und das vorausschauende Verschieben der nächsten Schichtparameter im Hintergrund, verbessern diese Techniken die Effizienz und Zugänglichkeit von LLMs erheblich.

In Zukunft könnten Techniken wie Fiddler es ermöglichen, noch größere und komplexere Modelle effizient zu nutzen, was zu einer weiteren Demokratisierung von KI-Tools führen würde. Diese Fortschritte könnten vielfältige Anwendungen ermöglichen, von verbesserten Chatbots und virtuellen Assistenten bis hin zu fortschrittlicheren Systemen für maschinelle Übersetzung und Inhaltsanalyse.

Quellen:
- Fiddler CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models: https://huggingface.co/papers/2402.07033
- Artyom Eliseev, Denis Mazur: Fast Inference of Mixture-of-Experts Language Models with Offloading. arXiv:2312.17238 [cs.LG] (https://arxiv.org/abs/2312.17238)

Was bedeutet das?