Fortschritte in der KI: Effizienzsteigerung und neue Techniken bei großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Im Bereich der Künstlichen Intelligenz (KI) und speziell der Großen Sprachmodelle (Large Language Models, LLMs) vollzieht sich ein rasanter Fortschritt. Aktuelle Forschungsarbeiten konzentrieren sich dabei insbesondere auf die Beschleunigung und Effizienzsteigerung von Inferenzprozessen bei der Textgenerierung. Die Fähigkeit, lange Kontexte zu verarbeiten und dabei dennoch schnelle Antwortzeiten zu gewährleisten, ist von großer Bedeutung für die Nutzererfahrung und die praktische Anwendbarkeit von KI-Systemen.

Ein vielversprechender Ansatz in dieser Forschungsrichtung ist das sogenannte "Speculative Decoding". Hierbei handelt es sich um eine Technik, bei der ein kleineres Hilfsmodell (Draft-Modell) genutzt wird, um spekulative Token vorherzusagen, die dann von einem größeren Zielmodell (Target-Modell) überprüft werden. Diese Methode bietet die Möglichkeit, Inferenzprozesse zu beschleunigen, ohne die Qualität der Textgenerierung zu beeinträchtigen. Neuere Entwicklungen gehen sogar so weit, dass keine separaten Hilfsmodelle mehr benötigt werden und die Spekulation direkt im Zielmodell integriert wird.

Ein solcher innovativer Ansatz ist das "Speculative Streaming", das von Apple vorgestellt wurde. Anstatt ein separates Draft-Modell für die Generierung vorläufiger Token zu nutzen, wird beim Speculative Streaming das Zielmodell so angepasst, dass es direkt mehrere zukünftige Token vorhersagt. Dies erfolgt durch eine Änderung des Fine-Tuning-Ziels von der Vorhersage des nächsten Tokens zur Vorhersage von zukünftigen n-Grammen. Das Verfahren beschleunigt die Decodierung um das 1,8- bis 3,1-fache bei einer Vielzahl von Aufgaben wie Zusammenfassung, strukturierten Abfragen und der Bedeutungsdarstellung, ohne die Generierungsqualität zu opfern. Zudem ist Speculative Streaming parameter-effizient und erreicht gleichwertige oder höhere Geschwindigkeitssteigerungen als Medusa-ähnliche Architekturen, während es etwa 10.000-mal weniger zusätzliche Parameter verwendet.

Die Forschungsarbeiten zum Thema "Speculative Decoding" und "Speculative Streaming" wurden in renommierten Publikationen wie Arxiv und OpenReview diskutiert und zeigen vielversprechende Ergebnisse. Beispielsweise kann das Speculative Streaming durch die Kombination von Spekulation und Verifikation innerhalb eines einzigen Modells Geschwindigkeitsvorteile gegenüber traditionellen zweistufigen Speculative-Decoding-Methoden erzielen, ohne die Qualitätsmetriken bei einer Vielzahl von Downstream-Aufgaben zu beeinträchtigen.

Die Vorteile von Speculative Streaming sind insbesondere für Ressourcen-beschränkte Geräte von Bedeutung, da es die Notwendigkeit eines separaten Draft-Modells überflüssig macht und damit den Speicherbedarf sowie die Komplexität der Systemarchitektur reduziert. Darüber hinaus wird der Bereitstellungsprozess vereinfacht, da nicht mehr zwischen zwei Modellen während der Ausführung gewechselt werden muss.

Ein weiterer interessanter Aspekt der aktuellen Forschung ist die Quantisierung von Modellen. Forscher der Cornell University haben gezeigt, dass es möglich ist, die Inferenz von LLMs auf nur 3 Bits zu quantisieren, ohne die Leistungsfähigkeit signifikant zu beeinträchtigen. Diese Ergebnisse könnten den Weg für noch effizientere KI-Anwendungen ebnen, insbesondere in Bezug auf die Nutzung von Hardware-Ressourcen und die Beschleunigung von Inferenzprozessen.

Ein weiterer Fortschritt in der Forschung zur Inferenz von LLMs wurde von Microsoft vorgestellt. Die Arbeit zeigt eine Methode zur Extrapolation von langen Sequenzen, bei der Rotary Position Embeddings (RoPE) durch eine Reihe von relativ kostengünstigen Fine-Tuning-Schritten verwendet werden, um die Kontextlänge von vortrainierten Sprachmodellen zu erweitern. Diese Methode stellt einen wichtigen Schritt dar, um die Fähigkeiten von Sprachmodellen zu verbessern, indem sie ihnen ermöglicht, deutlich längere Sequenzen als zuvor zu verarbeiten und dadurch auch komplexere Zusammenhänge zu erfassen.

Zusammenfassend lässt sich sagen, dass die aktuellen Fortschritte in der KI-Forschung, insbesondere im Bereich der Großen Sprachmodelle, beeindruckende Verbesserungen in Geschwindigkeit, Effizienz und Anwendbarkeit versprechen. Die Entwicklungen beim Speculative Decoding und Speculative Streaming, zusammen mit den Fortschritten in der Quantisierung, zeigen das Potenzial auf, die Art und Weise, wie wir mit Sprachmodellen interagieren und sie nutzen, grundlegend zu verändern.

Quellen:
1. arXiv:2402.01528v1 [cs.LG] 02 Feb 2024
2. arXiv:2402.11131v1 [cs.CL] 16 Feb 2024
3. LinkedIn Posts von Ahsen Khaliq und Mohammad Rastegari
4. Medium Artikel "Speculative Decoding — Make LLM Inference Faster" von Luv Bansal
5. OpenReview.net, "Online Speculative Decoding"
6. Graphcore Blog Post "Longer Ropes and Better Quantisation: Papers of the Month (Feb 2024)"