Die Entwicklung von Sprachmodellen verläuft zweigleisig: Große Sprachmodelle (LLMs) erweitern die Grenzen der künstlichen Intelligenz in Rechenzentren, während kleine Sprachmodelle (SLMs) für den ressourcenschonenden Einsatz auf mobilen Geräten wie Smartphones optimiert werden. Trotz der zunehmenden Bedeutung von SLMs in der Verbrauchertechnologie sind ihre tatsächliche Leistung und Anwendung auf Smartphones noch wenig erforscht.
Aktuelle Entwicklungen wie Qwen-2, SmolLM, Gemini Nano, Apple Intelligence oder LLaMA-3.2 unterstreichen die wachsende Relevanz von SLMs in mobilen Anwendungen. Ein umfassendes Verständnis ihrer Leistung auf High-End-Smartphones fehlt jedoch. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Entwicklung kleinerer Modelle ohne umfangreiche Tests auf realen Geräten konzentrierten, zielt dieser Artikel darauf ab, diese Lücke zu schließen. Er präsentiert eine detaillierte Studie zur Entwicklung und Bereitstellung von SLMs auf einem Samsung Galaxy S24, wobei der Fokus auf drei Aufgaben der Dokumentenunterstützung liegt: Zusammenfassung (SUMM), Fragenvorschlag (QS) und Beantwortung von Fragen (QA). Durch die effiziente On-Device-Dokumentenverarbeitung kann dieses Verfahren die Serverkosten, die mit API-Aufrufen an Cloud-basierte Dienste verbunden sind, erheblich senken und gleichzeitig die Privatsphäre der Benutzer verbessern.
Der Artikel befasst sich mit kritischen Fragen zur optimalen Modellgröße, maximalen Kontextlänge, Inferenzlatenz, Speicherbeschränkungen und Leistungsabwägungen auf mobilen Geräten. Um diese Fragen zu beantworten, wird SlimLM vorgestellt, eine Reihe von kleinen Sprachmodellen, die speziell für die mobile Bereitstellung entwickelt und optimiert wurden. SlimLM wird auf SlimPajama-627B vortrainiert und auf DocAssist feinabgestimmt, einem spezialisierten Datensatz, der auf etwa 83.000 Dokumenten für die Dokumentenunterstützung basiert. Die Modelle reichen von 125 Millionen bis 7 Milliarden Parametern, wodurch das gesamte Spektrum dessen, was auf aktueller mobiler Hardware möglich ist, erforscht werden kann.
Die Suche nach dem optimalen Verhältnis zwischen Modellgröße, Kontextlänge und Inferenzzeit ist entscheidend. Größere Modelle benötigen möglicherweise viel Zeit und Speicherplatz, um geladen zu werden, sodass sie trotz höherer Leistung möglicherweise keine langen Kontexte verarbeiten können. Kleinere Modelle können längere Kontexte in kürzerer Zeit verarbeiten, aber es ist nicht bekannt, wie stark ihre Leistung abnimmt.
Um dieses Gleichgewicht zu finden, wurden verschiedene State-of-the-Art-Modelle (SoTA) von 125 Millionen bis 8 Milliarden Parametern ausgewählt, da die Bereitstellung von Modellen mit mehr als 8 Milliarden Parametern selbst nach der Quantisierung sehr schwierig ist. Für die Quantisierung und Bereitstellung wurde das MLC-LLM-Framework verwendet, da es eine breite Palette von SoTA-Modellen und die GPU-Nutzung auf mobilen Geräten unterstützt. Alle Modelle wurden mit der Gruppenquantisierungsmethode mit einer Gruppengröße von 32 in 4 Bit quantisiert.
Da Aufgaben der Dokumentenunterstützung die Verarbeitung langer Kontexteingabe erfordern, wurden Experimente mit verschiedenen Kontextlängen 𝐿 bis zu 1.000 Token durchgeführt, um die Effizienz der Modelle zu messen, z. B. Eingabe-Token pro Sekunde (ITPS), Ausgabe-Token pro Sekunde (OTPS), Zeit bis zum ersten Token (TTFT) und Gesamtlaufzeit in Sekunden. Ein Dokument wurde tokenisiert und die Token in 𝑁=5 Abschnitte unterteilt, wobei jeder Abschnitt maximal 𝑚𝑎𝑥(𝐿)𝑁=200 Token enthielt. Es wurde ein (𝐿=200), zwei (𝐿=400) und bis zu fünf Abschnitte als Kontexteingabe für die Modelle zur Zusammenfassung vorbereitet.
Die Ergebnisse zeigen einen klaren Kompromiss zwischen Modellgröße und Geschwindigkeit. Kleinere Modelle wie SmolLM oder Qwen2 weisen höhere Inferenzgeschwindigkeiten (IPTS, TTFT) auf, aber möglicherweise eine geringere Genauigkeit im Vergleich zu größeren Modellen (z. B. Gemma-2, Phi-3.5, Mistral oder Llama-3.1). Mit zunehmender Eingabelänge nimmt die Inferenzgeschwindigkeit der meisten Modelle ab, was die Auswirkungen der Promptgröße auf die Effizienz verdeutlicht. Wenn der Eingabekontext ungefähr 1.000 Token (5 Abschnitte) erreicht, haben kleinere Modelle (z. B. SmolLM, Qwen2) Schwierigkeiten, mehrere experimentelle Läufe abzuschließen, während größere Modelle bei diesen langen Eingaben Speicherbeschränkungen ausgesetzt sind. Mittelgroße Modelle wie Qwen2-0.5B-Instruct bieten häufig ein ausgewogenes Verhältnis zwischen Geschwindigkeit, Genauigkeit und Eingabekapazität und stellen möglicherweise den besten Kompromiss für praktische Anwendungen innerhalb bestimmter Eingabelängenbeschränkungen dar.
SlimLM erzielt in Standardmetriken wie BLEU, ROUGE, Semantic Textual Similarity (STS), Self-BLEU für Textdiversität und GEval vergleichbare oder sogar bessere Ergebnisse als vorhandene SLMs ähnlicher Größe. Das kleinste Modell SlimLM-125M zeigt eine effiziente Leistung auf dem S24 und eignet sich daher für eine breite Bereitstellung. Größere Varianten mit bis zu 7 Milliarden Parametern bieten erweiterte Funktionen und arbeiten dennoch innerhalb der mobilen Beschränkungen. Um die praktische Anwendbarkeit zu demonstrieren, wurde eine Android-Anwendung entwickelt, die die Funktionen von SlimLM zur Dokumentenunterstützung präsentiert.
Bibliographie: https://arxiv.org/abs/2411.09944 https://arxiv.org/html/2411.09944v1 https://paperreading.club/page?id=266551 https://shankarkumarasamy.blog/2024/08/30/optimizing-ai-with-small-language-models-slms-for-on-device-applications/ https://cobusgreyling.medium.com/small-language-model-slm-efficiency-performance-potential-ed59c4d48ce9 https://www.xueshuxiangzi.com/ http://arxivdaily.com/thread/61460 https://www.linkedin.com/pulse/small-language-models-making-ai-more-accessible-efficient-sorci-eqgxe http://lonepatient.top/2024/11/18/arxiv_papers_2024-11-18 https://hyperight.com/breaking-barriers-small-language-models-and-accessibility-of-ai-language-processing/