Große Sprachmodelle (LLMs) haben viele Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP) revolutioniert. Um die Fähigkeiten von LLMs zu verbessern, besteht großes Interesse daran, die Kontextlängen dieser Modelle zu erhöhen. Längere Kontextlängen ermöglichen neue Anwendungen, darunter die Zusammenfassung langer Dokumente, die Beantwortung von Fragen zu langen Texten, erweiterte mehrstufige Anwendungen und die Analyse von Code. Es gibt bedeutende Fortschritte bei Modellen mit langer Kontextlänge, sowohl in der Industrie als auch in der Wissenschaft.
Aufgrund der Bedeutung von LLM-Arbeitslasten besteht ein starkes Motiv, deren Inferenz-Effizienz zu verbessern. Die Inferenz von LLMs mit langen Kontextlängen kann unglaublich ressourcenintensiv sein; das Bereitstellen von LLMs erfordert High-End-GPUs, und die größten LLMs benötigen kostspielige Multi-GPU-Inferenz-Setups. Die Speicheranforderungen für das Caching von Key- und Value-Aktivierungen (KV) während der Inferenz stellen einen erheblichen Engpass dar. Besonders bei langen Sequenzlängen wird das Caching von KV-Aktivierungen zu einem dominierenden Faktor für den Speicherverbrauch.
Eine der innovativen Lösungen zur Bewältigung dieser Herausforderungen ist RetrievalAttention. Diese trainingsfreie Methode beschleunigt die Aufmerksamkeit mit sublinearer Zeit, indem sie die Vektor-Retrieval auf der CPU nutzt, um die Latenz und die GPU-Speicherkosten zu reduzieren. Die Methode ermöglicht die Inferenz von 128K LLMs mit nur 16GB GPU-Speicher.
KVQuant ist eine weitere vielversprechende Methode, die sich auf die Quantisierung von KV-Caches konzentriert, um die Speicheranforderungen zu reduzieren. Diese Methode umfasst mehrere innovative Techniken:
Mit dieser Methode kann das LLaMA-Modell mit einer Kontextlänge von bis zu 1 Million auf einer einzigen A100-80GB GPU und bis zu 10 Millionen auf einem 8-GPU-System betrieben werden.
Die Verbesserung der Effizienz von LLM-Inferenz mit langen Kontextlängen ist von entscheidender Bedeutung, um neue und anspruchsvolle Anwendungen zu unterstützen. Methoden wie RetrievalAttention und KVQuant bieten vielversprechende Ansätze, um die Speicheranforderungen zu reduzieren und die Inferenzzeiten zu verkürzen, ohne die Genauigkeit der Modelle wesentlich zu beeinträchtigen. Diese Fortschritte könnten die Nutzung großer Sprachmodelle in verschiedenen Bereichen weiter vorantreiben.