Effizienzsteigerung in der Künstlichen Intelligenz Neuartige Pruning-Methoden für Große Sprachmodelle

Kategorien:
No items found.
Freigegeben:
June 14, 2024

Artikel jetzt als Podcast anhören

Im Bereich der Künstlichen Intelligenz und insbesondere bei Großen Sprachmodellen (Large Language Models, LLMs) werden durch die stetig wachsende Dimension und Komplexität dieser Modelle auch die Anforderungen an Rechenleistung und Speicherplatz immer größer. Eine Methode, um diese Herausforderungen zu bewältigen, ist das so genannte Pruning, bei dem überflüssige Teile eines neuronalen Netzes entfernt werden, um die Effizienz ohne signifikanten Leistungsverlust zu steigern.

Ein neuer Ansatz namens ShortGPT, der auf Twitter durch den Nutzer @_akhaliq vorgestellt wurde, verfolgt eine direkte Methodik des Prunings, indem basierend auf sogenannten BI-Scores redundante Schichten in LLMs gelöscht werden. Diese Vorgehensweise hat in Experimenten gezeigt, dass sie frühere Methoden in Bezug auf die Effizienzsteigerung übertreffen kann.

Die BI-Scores (Bedeutungsindikator-Scores) sind ein Maß dafür, wie wichtig eine bestimmte Schicht oder ein Teil eines neuronalen Netzes ist. Durch die direkte Entfernung weniger wichtiger Schichten können die Modelle schneller und kostengünstiger gemacht werden, ohne die Gesamtleistung erheblich zu beeinträchtigen.

In einem Papier, das von Eldar Kurtic, Elias Frantar und Dan Alistarh verfasst und auf OpenReview.net veröffentlicht wurde, wird ein ähnliches Konzept unter dem Namen ZipLM vorgestellt. Dieser Ansatz zielt darauf ab, strukturierte Kompressionstechniken für LLMs zu entwickeln, die präzise Geschwindigkeitssteigerungen in beliebigen Inferenzumgebungen liefern. ZipLM identifiziert und entfernt iterativ Komponenten mit dem schlechtesten Verlust-Laufzeit-Verhältnis, was zu einem effizienten Rahmenwerk für die Erstellung von komprimierten Modellen führt, die dennoch starke Leistung zeigen.

Während ZipLM eine strukturierte Pruning-Methode ist, die auf der Genauigkeit-Geschwindigkeits-Trade-off basiert, bietet das Konzept von ShortGPT eine direkte und möglicherweise noch effizientere Alternative, indem es gezielt Schichten entfernt, die einen niedrigen BI-Score aufweisen.

In einem weiteren Paper, das auf arXiv.org publiziert wurde, untersuchen Mingjie Sun, Zhuang Liu, Anna Bair und J. Zico Kolter einen anderen Ansatz für das Pruning von LLMs. Ihr Verfahren, genannt Wanda (Pruning by Weights and activations), zielt darauf ab, in vorab trainierten LLMs Sparsamkeit zu induzieren, indem Gewichte mit den kleinsten Magnituden, multipliziert mit den entsprechenden Eingabeaktivierungen, beschnitten werden. Interessanterweise benötigt Wanda kein erneutes Training oder Aktualisierung der Gewichte und das beschnittene LLM kann sofort verwendet werden.

Diese verschiedenen Ansätze demonstrieren die aktive Forschung und Entwicklung in der Domäne des Prunings von LLMs. Sie haben das gemeinsame Ziel, die Effizienz dieser mächtigen Modelle zu verbessern, um sie praktikabler für den Einsatz in realen Anwendungen zu machen. Durch die Reduzierung der benötigten Rechenleistung und des Speicherplatzes können LLMs in einer breiteren Palette von Umgebungen eingesetzt werden, von leistungsstarken Servern bis hin zu Edge-Geräten.

Die Entwicklungen in diesem Bereich sind nicht nur für Forscher und Entwickler von Bedeutung, sondern auch für Unternehmen wie Mindverse, die als deutsche KI-Unternehmen all-in-one Lösungen für Text, Inhalt, Bilder und Forschung anbieten. Für Mindverse, das auch maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr entwickelt, könnten diese Fortschritte im Pruning von LLMs neue Möglichkeiten eröffnen, um effizientere und kostengünstigere KI-Dienste bereitzustellen.

Quellen:
- Twitter-Post von @_akhaliq: https://twitter.com/_akhaliq/status/1765607381520597375
- OpenReview.net Diskussion zu ZipLM: https://openreview.net/forum?id=d8j3lsBWpV¬eId=JibJUCcKH6
- arXiv.org Abstract zu Wanda: https://arxiv.org/abs/2306.11695
- OpenReview.net PDF zu ZipLM: https://openreview.net/pdf?id=tko8Ln5roY

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.