Generative KI-Modelle und Post-Training Quantization: Effizienzsteigerung für Edge-Geräte

Kategorien:
No items found.
Freigegeben:

Die Implementierung generativer KI-Modelle hat in den letzten Jahren eine beeindruckende Entwicklung erlebt. Besonders die Transformer-Architektur, bekannt durch Modelle wie GPT (Generative Pre-trained Transformer) oder BERT (Bidirectional Encoder Representations from Transformers), hat sich als extrem leistungsfähig in der Verarbeitung natürlicher Sprache erwiesen. Mit der zunehmenden Komplexität dieser Modelle steigen allerdings auch die Anforderungen an Rechenleistung und Speicherplatz, wodurch ihre Einsatzmöglichkeiten, insbesondere auf Endgeräten wie Smartphones oder Smart-TVs, eingeschränkt sind.

In diesem Zusammenhang gewinnt das Konzept der Post-Training Quantization (PTQ) an Bedeutung. PTQ ist ein Prozess, bei dem die Präzision der Gewichte eines bereits trainierten KI-Modells reduziert wird, um Speicherplatz zu sparen und die inferentiellen Berechnungen zu beschleunigen. Diese Vorgehensweise ist besonders für den Einsatz auf Geräten mit begrenzten Ressourcen interessant. Traditionelle PTQ-Verfahren erfordern allerdings häufig erheblichen Zeitaufwand und Ressourcen, was insbesondere bei regelmäßigen Modellaktualisierungen und der Notwendigkeit, mehrere Hyperparameter anzupassen, zu einem Engpass werden kann.

Als kosteneffiziente Alternative wurden One-Shot-PTQ-Verfahren vorgeschlagen, die jedoch oft in ihrer Leistungsfähigkeit beschränkt sind, da sie die Interdependenzen zwischen den verschiedenen Schichten innerhalb des Aufmerksamkeitsmoduls der Transformer nicht berücksichtigen können. Diese Abhängigkeiten sind jedoch für die Funktionsweise von Transformer-Modellen von zentraler Bedeutung.

Um diesen Herausforderungen zu begegnen, wurde ein neues PTQ-Verfahren vorgeschlagen, das sowohl Genauigkeit als auch Effizienz in Einklang bringt. Die Kernidee dieses Algorithmus, der unter dem Namen aespa bekannt ist, ist es, eine schichtweise Quantisierung zur Effizienzsteigerung durchzuführen, während gleichzeitig Querschichtabhängigkeiten berücksichtigt werden, um die Aufmerksamkeitsscores zu bewahren. Umfangreiche Experimente an verschiedenen Sprachmodellen und Komplexitätsanalysen haben gezeigt, dass aespa in der Lage ist, Transformer-Modelle präzise und effizient zu quantisieren.

Darüber hinaus wurde ein weiteres Verfahren namens GPTQ entwickelt, das eine One-Shot-Gewichtsquantisierung auf der Basis von approximativen zweitordentlichen Informationen bietet. Diese Methode ist nicht nur hochpräzise, sondern auch sehr effizient. GPTQ kann GPT-Modelle mit 175 Milliarden Parametern in ungefähr vier GPU-Stunden quantisieren, wobei die Bitbreite auf 3 oder 4 Bits pro Gewicht reduziert wird, mit vernachlässigbarer Genauigkeitseinbuße im Vergleich zur unkomprimierten Basislinie. Die Methode verdoppelt die Kompressionsgewinne im Vergleich zu vorherigen One-Shot-Quantisierungsmethoden und ermöglicht es erstmals, ein Modell mit 175 Milliarden Parametern in einer einzigen GPU auszuführen.

Die genannten PTQ-Methoden bieten einen vielversprechenden Ansatz für die Bereitstellung von Hyper-Scale-Modellen auf Edge-Geräten, indem sie den Trade-off zwischen Trainingszeit, Speicherbedarf, Datenkonsum und der Quantisierungsleistung optimieren. Durch die Aufteilung des PLM in mehrere Module und die Minimierung des durch die Quantisierung verursachten Rekonstruktionsfehlers für jedes Modul können signifikante Reduktionen in der Trainingszeit, im Speicherüberhang und im Datenkonsum erzielt werden, während die Leistung nahezu erhalten bleibt.

Die Forschungsergebnisse und Methoden wurden auf Plattformen wie arXiv und OpenReview veröffentlicht und tragen zur wissenschaftlichen Gemeinschaft bei, indem sie es ermöglichen, Hyperscale-Transformator-Modelle effizienter und zugänglicher zu machen.

Literaturverzeichnis:
- Frantar, E., Ashkboos, S., Hoefler, T., & Alistarh, D. (2023). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv preprint arXiv:2210.17323.
- Bai, H., Hou, L., Shang, L., Jiang, X., King, I., & Lyu, M. (2022). Towards Efficient Post-training Quantization of Pre-trained Language Models. NeurIPS 2022 Conference Paper. OpenReview.net.
- Twitter-Nachricht von @_akhaliq zur Post-Training Quantization von Hyper-Scale Transformers. Twitter. Abgerufen am 15. Februar 2024.

Was bedeutet das?
No items found.