Sequoia: Revolutionäres KI-Decoding-Framework für schnelle und kosteneffiziente Verarbeitung

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In der Welt der künstlichen Intelligenz (KI) sind schnelle und effiziente Verarbeitungsmethoden entscheidend, um die wachsenden Anforderungen moderner Anwendungen zu erfüllen. Ein Durchbruch in dieser Hinsicht wurde kürzlich von einem Forschungsteam angekündigt, welches ein neues spekulatives Decoding-Framework namens Sequoia entwickelt hat. Dieses Framework ist in der Lage, das Language Model Llama2-70B auf einer einzelnen RTX4090-Grafikkarte mit einer Latenz von nur einer halben Sekunde pro Token zu betreiben – eine bemerkenswerte Verbesserung gegenüber früheren Methoden.

Die RTX4090, die für rund 1000 Euro erhältlich ist, bietet somit eine kostengünstige Alternative zu den teuren A100-Datencenter-GPUs, die traditionell für solche Aufgaben verwendet werden und jeweils etwa 18.000 Euro kosten. Die Verwendung von acht dieser A100-GPUs würde somit auf über 140.000 Euro hinauslaufen, während Sequoia vergleichbare Leistungen auf einer deutlich günstigeren Hardware ermöglicht.

Die von Sequoia erreichte Geschwindigkeit steht in starkem Kontrast zu früheren Frameworks wie DeepSpeed, welches eine Latenz von 5,3 Sekunden pro Token hatte. Sequoia erreicht eine ähnliche Verarbeitungsgeschwindigkeit wie eine Konfiguration mit acht A100-GPUs, die eine Latenz von 25 Millisekunden pro Token bietet, aber zu einem Bruchteil der Kosten.

Interessanterweise ist das Framework nicht nur auf High-End-Hardware beschränkt. Auch Besitzer älterer Grafikkartenmodelle wie der 2080Ti können von Sequoia profitieren. Das macht Sequoia besonders attraktiv für KI-Forschung und -Entwicklung, da es die Barriere für den Zugang zu fortschrittlichen KI-Modellen senkt.

Sequoia zeichnet sich zudem durch eine Hardware-bewusste spekulative Decodierung aus, die eine hohe Präzision mit 16 Bit beibehält und die ursprüngliche Ausgabeverteilung des Modells nicht verändert. Das Framework ist skalierbar und kann durch ein dynamisches Programmieralgorithmus die optimale Struktur eines Spekulationsbaums ermitteln. Dies ermöglicht ein schnelleres Wachstum in Bezug auf die Anzahl der akzeptierten Tokens bei gegebenem Budget, d.h. der Größe des Spekulationsbaums.

Darüber hinaus ist Sequoia dank eines Algorithmus zur Stichprobenentnahme ohne Ersetzung robust gegenüber verschiedenen Generierungstemperaturen, im Vergleich zu Top-k-Stichprobenentnahme und Stichprobenentnahme mit Ersetzung. Neben dem Offloading bietet Sequoia eine Hardware-bewusste Lösung zur Anpassung der Größe und Tiefe von Spekulationsbäumen, um sie an verschiedene Hardware-Plattformen anzupassen. Dies ermöglicht es Sequoia, die Inferenz von großen Sprachmodellen auch auf Datencenter-GPUs wie den A100 und L40 zu beschleunigen.

Die Forschungsergebnisse und das Framework Sequoia sind öffentlich zugänglich gemacht worden, sodass Interessierte die Technologie genauer untersuchen und in eigenen Projekten verwenden können. Die zugehörige wissenschaftliche Arbeit ist auf dem Preprint-Server arXiv verfügbar, und der Code wurde auf GitHub bereitgestellt.

Diese Entwicklungen sind besonders relevant für Unternehmen wie Mindverse, die sich auf die Entwicklung und Bereitstellung von KI-basierten Lösungen spezialisiert haben. Mit Werkzeugen wie Sequoia können solche Unternehmen fortschrittliche KI-Systeme effizienter und kostengünstiger bereitstellen, was letztlich zu einer Demokratisierung der KI-Technologie führt.

Quellen:
1. Beidi Chen auf Twitter: https://twitter.com/BeidiChen/status/1767742793990967602
2. Rohan Paul auf Twitter: https://twitter.com/rohanpaul_ai/status/1767783161487130666
3. Sequoia Webseite: https://infini-ai-lab.github.io/Sequoia-Page
4. Sequoia Paper auf arXiv: https://arxiv.org/abs/2402.12374
5. Sequoia Code auf GitHub: https://github.com/Infini-AI-Lab/Sequoia