In einer Zeit, in der das Training großer Sprachmodelle (Large Language Models, LLMs) enorme rechnerische Ressourcen erfordert, hat ein Forschungsteam unter der Leitung von Prof. Anima Anandkumar einen bedeutenden Durchbruch erzielt. Erstmals gelang es ihnen, ein LLM mit 7 Milliarden Parametern, bekannt als Llama 7B, auf einer einzelnen Verbraucher-Grafikkarte (GPU) mit nur 24GB Speicher zu trainieren. Diese Errungenschaft repräsentiert eine Reduktion des Speicherbedarfs um mehr als 82,5% während des Trainings.
Das Training von LLMs von Grund auf erforderte bisher den Einsatz von Hochleistungs-GPUs mit großem Speicher. Obwohl in der jüngsten Vergangenheit erhebliche Fortschritte bei der Reduzierung des Speicherbedarfs während des Feintunings gemacht wurden, zum Beispiel durch Methoden wie LORA (Low-Rank Optimization), waren diese Ansätze für das Pre-Training von LLMs nicht anwendbar. Das Team um Anandkumar hat Methoden entwickelt, die diese Hindernisse überwinden und eine signifikante Speicherreduzierung während des gesamten Trainingsprozesses ermöglichen.
Eines der Kernprobleme beim Training von LLMs ist der Einsatz von vorkonditionierten Optimierungsalgorithmen wie Adam, die umfangreiche Gradientenstatistiken ansammeln, die proportional zur Größe der Modellparameter sind. Diese Optimierungszustände stellen die primäre Speicherbeschränkung während des Trainings dar. Anstatt sich ausschließlich auf Ingenieur- und Systemanstrengungen zur Reduzierung des Speicherverbrauchs zu konzentrieren, kehrte das Forschungsteam zu den Grundlagen zurück.
Sie untersuchten die langsam veränderliche, niedrigrangige Struktur der Gradientenmatrix während des Trainings. Dabei führten sie einen neuartigen Ansatz ein, der die niedrigrangige Natur der Gradienten durch die Gradienten-Niedrigrang-Projektion (GaLore) nutzt. Anstatt die Gewichtsmatrix als niedrigrangig auszudrücken, was zu einer erheblichen Leistungseinbuße während des Pre-Trainings führt, drücken sie stattdessen die Gradientengewichtsmatrix niedrigrangig aus, ohne Leistungseinbußen, während sie gleichzeitig die Speicheranforderungen erheblich reduzieren.
Das Training auf Verbraucher-GPUs wie der RTX 4090 mit 24GB Speicher bietet viele Vorteile. Diese Grafikkarten sind wesentlich kostengünstiger als die in Rechenzentren und beim Cloud-Computing verwendeten GPUs, die oft im Bereich von 40GB bis 80GB Speicher liegen und deren Preise bei mehreren tausend bis zehntausend Dollar beginnen. Die RTX-Serie von NVIDIA GeForce, die häufig von Gamern verwendet wird, bietet nun auch für Maschinenlerningenieure und KI-Entwickler eine attraktive Option.
Die Fähigkeit, LLMs auf einer einzelnen Verbraucher-GPU zu trainieren, öffnet die Tür für eine breitere Zugänglichkeit und Demokratisierung von KI-Technologien. Forscher und Entwickler, die keinen Zugang zu Rechenzentren oder spezialisierten Hardware-Ressourcen haben, können nun experimentieren und eigene Modelle auf einer Hardware trainieren, die sie möglicherweise bereits für persönliche oder Gaming-Zwecke besitzen.
Die Erkenntnisse des Teams weisen darauf hin, dass eine Optimierung des Speicherverbrauchs für das Training möglich ist, und es wurden bereits Erfolge erzielt, die zeigen, dass das Feintuning eines 30-Milliarden-Parameter-Modells auf einer einzelnen 4090 GPU möglich ist. Dieser Fortschritt könnte die Entwicklung von maßgeschneiderten KI-Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssystemen und vielem mehr erheblich beschleunigen.
Mindverse, das deutsche Unternehmen für KI-Inhalte und maßgeschneiderte Lösungen, beobachtet diese Entwicklungen mit großem Interesse. Als Partner im Bereich Künstliche Intelligenz und Entwickler von kundenspezifischen Lösungen könnte die Möglichkeit, LLMs auf einer einzelnen Verbraucher-GPU zu trainieren, die Art und Weise verändern, wie Mindverse KI-basierte Produkte und Dienstleistungen entwickelt und anbietet.
Quellen:
- Anandkumar, A., Zhao, J., Chen, B., & Shu, T. (2024). GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. arXiv preprint arXiv:2312.12456.
- Reddit Diskussion über die ideale Einrichtung für den Betrieb von zwei RTX 4090 Grafikkarten. Verfügbar unter: https://www.reddit.com/r/LocalLLaMA/comments/15zx322/ideal_setup_for_dual_4090/
- Tamimi, N. (2024). Feintuning von LLMs auf einer einzelnen Verbrauchergrafikkarte. Towards Data Science. Verfügbar unter: https://towardsdatascience.com/fine-tuning-llms-on-a-single-consumer-graphic-card-6de1587daddb
- GitHub Diskussion über Leistungsprobleme beim Training eines LLM mit 4-Bit-Quantifizierung auf einer RTX 4090. Verfügbar unter: https://github.com/johnsmith0031/alpaca_lora_4bit/issues/7