Optimierung der LLM Einsatzplanung durch Rangordnungslernen

Kategorien:
No items found.
Freigegeben:
August 30, 2024

Effiziente LLM-Planung durch Lernen zur Rangordnung

Einleitung

Große Sprachmodelle (Large Language Models, LLMs) sind zunehmend das Rückgrat vieler heutiger Internetdienste und Anwendungen, die Millionen von Nutzern bedienen. Aufgrund der steigenden Nachfrage ist eine effiziente Planung für LLM-Serving entscheidend, um eine hohe Servicequalität zu gewährleisten, während zahlreiche gleichzeitige Nutzer um Rechenressourcen konkurrieren. Für beliebte interaktive Anwendungen wie Chatbots bedeutet dies, die Wartezeiten für den Nutzer zu minimieren und gleichzeitig den Gesamtdurchsatz des Systems zu maximieren, um so viele Nutzer wie möglich zu bedienen.

Bei hoher Last stehen LLM-Dienste, die eine First-come-first-serve (FCFS)-Planungsstrategie implementieren, unweigerlich vor erheblichen Head-Of-Line (HOL)-Blockierungen, da viele Anfragen auf die Ausführung anderer warten müssen. Abbildung 1 zeigt ein typisches Beispiel. In solchen Szenarien ist gut bekannt, dass die kürzeste-Job-zuerst (SJF) und kürzeste-Verbleibende-Zeit-zuerst (SRTF) Planungsalgorithmen die durchschnittliche Latenzzeit minimieren, die über alle Anfragen hinweg erlebt wird. Allerdings werden SJF/SRTF selten in LLM-Diensten implementiert, da sie erfordern, dass Anfragen nach ihren verbleibenden Generierungslängen geordnet werden, was traditionell als schwierig oder unmöglich anzusehen ist.

Hintergrund und Methode

In dieser Arbeit argumentieren wir, dass, obwohl die genaue Generierungslänge von Anfragen möglicherweise schwer zu kennen ist, dies eigentlich nicht notwendig ist. Vielmehr reicht es aus, die relative Reihenfolge zwischen den Anfragelängen zu kennen, um SJF/SRTF-Planung zu ermöglichen. Zu diesem Zweck schlagen wir vor, den Kendall-Rangkorrelationskoeffizienten (Kendall's Tau) zu verwenden, um die Ähnlichkeit zwischen einem vorhergesagten Plan und dem SJF/SRTF-Plan basierend auf den tatsächlichen Generierungslängen (d.h. Oracle) zu messen. Wir zeigen, dass Pläne mit höheren Ähnlichkeiten (gemessen durch Kendall's Tau) zum Oracle in der Regel zu niedrigeren Latenzzeiten in der realen Leistung führen.

Basierend auf dieser Erkenntnis schlagen wir vor, die Anfragenplanung im LLM-Serving durch Lernen zur Rangordnung zu optimieren. Wir zeigen, dass ein kleines Hilfsmodell (z.B. OPT-125M) trainiert werden kann, um LLM-Anfragen nach ihren Generierungslängen vor der Ausführung genau zu rangieren, praktisch ohne Kosten. Sowohl für Offline-Batch-Generierung als auch für Online-Latenz-sensible Aufgaben können wir durch die Planung der Anfragen basierend auf den vorhergesagten Rangordnungen den SRTF/SJF-Plan approximieren, wodurch die durchschnittliche Latenz reduziert und der Durchsatz verbessert wird. Im Vergleich zu bestehenden Arbeiten, die versuchen, die Generierungslängen von LLM-Antworten direkt vorherzusagen, zeigen wir, dass unser Lernen-zur-Rangordnung-Ansatz sowohl robuster bei der Annäherung an SRTF/SJF ist, was zu niedrigeren Latenzzeiten und höherem Durchsatz führt, als auch einfacher ist, was eine einfache Integration in Produktions-Serving-Systeme ermöglicht.

Ergebnisse und Diskussion

Unsere Methode, integriert in das modernste Serving-System, führt zu erheblichen Leistungsverbesserungen bei wichtigen LLM-Serving-Aufgaben, indem die p90-Latenzzeit des Chatbot-Servings um das 2,8-fache reduziert und der Durchsatz der Batch-Synthetischen-Daten-Generierung um das 6,5-fache erhöht wird. Diese Verbesserungen zeigen das Potenzial unserer vorgeschlagenen Methode zur Optimierung der Planung von LLM-Serving-Systemen.

Wir fassen unsere Beiträge wie folgt zusammen:

- Wir zeigen, dass die Kenntnis der relativen Reihenfolge der Generierungslängen wertvolle Hinweise zur Optimierung der Planung des LLM-Servings bietet. - Wir wenden Kendall's Tau als effektives Maß für die Ähnlichkeit zwischen einem LLM-Plan und dem idealen SJF/SRTF-Plan an und zeigen, dass eine höhere Ähnlichkeit, angezeigt durch Kendall's Tau, in der Praxis in der Regel zu geringerer Latenz und hohem Durchsatz führt. - Wir nutzen Lernen zur Rangordnung, um den Plan zu optimieren und zeigen, dass unsere Methode einfach ist und eine Planung in Echtzeit mit vernachlässigbarem Overhead ermöglicht. - Unsere Methode, integriert in das modernste Serving-System, verbessert die Leistung bei wichtigen LLM-Serving-Aufgaben erheblich, indem die p90-Latenz des Chatbot-Servings um das 2,8-fache reduziert und der Durchsatz der Batch-Synthetischen-Daten-Generierung um das 6,5-fache erhöht wird.

Fazit

Die effiziente Planung von LLM-Serving-Systemen ist entscheidend, um den steigenden Anforderungen gerecht zu werden und eine hohe Servicequalität zu gewährleisten. Unsere vorgeschlagene Methode des Lernens zur Rangordnung bietet eine effektive Lösung, um die Latenz zu reduzieren und den Durchsatz zu erhöhen, indem sie die relative Reihenfolge der Generierungslängen von Anfragen berücksichtigt. Diese Methode ist einfach zu implementieren und kann in bestehende Serving-Systeme integriert werden, was sie zu einer vielversprechenden Lösung für die Optimierung der Planung von LLM-Serving-Systemen macht.

Bibliographie - https://arxiv.org/abs/2408.15792v1/ - https://arxiv.org/html/2408.15792v1 - https://twitter.com/gm8xx8/status/1828985617176256886 - https://paperswithcode.com/author/runlong-su - https://github.com/AIoT-MLSys-Lab/Efficient-LLMs-Survey - https://github.com/horseee/Awesome-Efficient-LLM - https://iclr.cc/virtual/2024/21930 - https://neurips.cc/virtual/2023/poster/71898 - https://openreview.net/pdf?id=hYHsrKDiX7 - https://www.linkedin.com/posts/anima-anandkumar_paper-page-galore-memory-efficient-llm-activity-7171555545848504320-WQAm
Was bedeutet das?