Die Kosten für die Inferenz von großen Sprachmodellen (LLMs) stellen für Unternehmen eine erhebliche Hürde dar. Snowflake adressiert dieses Problem mit SwiftKV, einem innovativen Ansatz zur Reduzierung des Rechenaufwands während der Prompt-Verarbeitung. Dieser Artikel erläutert die Funktionsweise von SwiftKV und dessen Vorteile für Unternehmen, die LLMs in Snowflake Cortex AI einsetzen.
Traditionelle Optimierungsstrategien konzentrieren sich oft auf die Komprimierung des KV-Caches (Key-Value-Cache), um den Speicherbedarf zu reduzieren. Während dies für Systeme mit begrenztem Speicherplatz vorteilhaft ist, sind moderne Unternehmensumgebungen häufig mit leistungsstarken GPUs ausgestattet, bei denen der Speicherbedarf weniger kritisch ist. Der eigentliche Engpass liegt im Rechenaufwand, insbesondere bei der Verarbeitung langer Prompts, die in Unternehmensszenarien üblich sind.
SwiftKV setzt genau hier an und reduziert den Rechenaufwand während der Prompt-Verarbeitung. Durch eine Kombination aus Modellanpassungen und wissensbewahrender Selbstdestillation erreicht SwiftKV eine deutliche Reduzierung der Rechenkosten bei minimalem Genauigkeitsverlust.
SwiftKV basiert auf der Beobachtung, dass in vielen Unternehmensanwendungen die Anzahl der Input-Token (Prompts) die Anzahl der Output-Token (generierter Text) deutlich übersteigt. Dies bedeutet, dass ein Großteil der Rechenleistung für die Verarbeitung des Prompts aufgewendet wird.
Die Kernkomponente von SwiftKV ist SingleInputKV. Diese Technik nutzt die Tatsache, dass sich die Ausgaben der Transformer-Schichten in einem LLM mit zunehmender Tiefe nur geringfügig ändern. SingleInputKV verwendet die Ausgabe einer früheren Schicht, um den KV-Cache für nachfolgende Schichten zu generieren. Dadurch wird der Rechenaufwand für die KV-Cache-Berechnung erheblich reduziert.
Durch die Vermeidung rechenintensiver Operationen in späteren Schichten erzielt SingleInputKV eine Effizienzsteigerung und reduziert die Rechenkosten während der Prompt-Verarbeitung um bis zu 50%. Dies führt zu einer schnelleren und kostengünstigeren Inferenz.
SwiftKV bietet Unternehmen, die LLMs in Snowflake Cortex AI nutzen, eine Reihe von Vorteilen:
Kosteneinsparungen: Durch die Reduzierung des Rechenaufwands sinken die Inferenzkosten erheblich, was die Nutzung von LLMs für ein breiteres Spektrum von Anwendungen wirtschaftlicher macht.
Höherer Durchsatz: Die schnellere Prompt-Verarbeitung ermöglicht einen höheren Durchsatz, wodurch mehr Anfragen in kürzerer Zeit bearbeitet werden können.
Geringere Latenz: Die reduzierte Rechenzeit führt zu einer geringeren Latenz, was die Reaktionsfähigkeit von LLM-basierten Anwendungen verbessert.
Minimale Genauigkeitseinbußen: Die wissensbewahrende Selbstdestillation sorgt dafür, dass die Genauigkeit des Modells trotz der Rechenreduktion nahezu erhalten bleibt.
Snowflake hat SwiftKV-optimierte Llama-Modelle in Cortex AI bereitgestellt, die die Inferenzkosten um bis zu 75% senken. Diese Modelle basieren auf Metas Llama 3.3 70B und Llama 3.1 405B Basismodellen. Snowflake plant außerdem, SwiftKV als Open-Source-Projekt zu veröffentlichen, um die Weiterentwicklung und Verbreitung der Technologie zu fördern.
SwiftKV stellt einen wichtigen Schritt in Richtung einer effizienteren und kostengünstigeren Nutzung von LLMs in Unternehmen dar. Durch die Fokussierung auf Rechenreduktion bietet SwiftKV eine überzeugende Alternative zu traditionellen Optimierungsansätzen und ermöglicht es Unternehmen, das volle Potenzial von LLMs auszuschöpfen.
Bibliographie: - Eppwc, Knowledge. “SwiftKV: Accelerating Enterprise LLM Workloads with Knowledge Preserving Compute Reduction.” LinkedIn, 5 Dec. 2024, https://www.linkedin.com/pulse/swiftkv-accelerating-enterprise-llm-workloads-knowledge-eppwc. - “Snowflake Teams Up with Meta to Host and Optimize New Flagship Model Family in Snowflake Cortex AI.” Snowflake, 2024, https://www.snowflake.com/en/news/press-releases/snowflake-teams-up-with-meta-to-host-and-optimize-new-flagship-model-family-in-snowflake-cortex-ai-2/. - “SwiftKV: LLM Compute Reduction.” Snowflake, 5 Dec. 2024, https://www.snowflake.com/engineering-blog/swiftkv-llm-compute-reduction/. - Chen, Lili, et al. “SwiftKV: Knowledge Preserving Compute Reduction for Efficient and Accurate LLM Inference.” arXiv, 3 Oct. 2024, https://arxiv.org/pdf/2410.03960. - Raschka, Sebastian. “Noteworthy AI Research Papers of 2024 (Part Two).” Ahead of AI, 15 Jan. 2025, https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2. - Bryant, Chris. “Snowflake goes massive on Meta LLM for open-source inference difference.” Computer Weekly, 17 Jan. 2025, https://www.computerweekly.com/blog/Open-Source-Insider/Snowflake-goes-massive-on-Meta-LLM-for-open-source-inference-difference. - “Meta’s Llama 3.2.” Snowflake, 25 Sept. 2024, https://medium.com/snowflake/metas-llama-3-2-50347680b3f4. - Bratt, Ian. “AI Inference Everywhere with New Llama LLMs on Arm.” Arm Newsroom, 25 Sept. 2024, https://newsroom.arm.com/news/ai-inference-everywhere-with-new-llama-llms-on-arm.