In der Welt der künstlichen Intelligenz (KI) sind Fortschritte in der Effizienz von Modellen von entscheidender Bedeutung, um die Grenzen dessen zu erweitern, was maschinelles Lernen leisten kann. Ein Schlüsselbereich, in dem Innovationen eine große Rolle spielen, ist die Welt der transformer-basierten Sprachmodelle. Diese Modelle, die die Grundlage für einige der fortschrittlichsten KI-Systeme bilden, sind bekannt für ihre Fähigkeit, komplexe Sprachmuster zu erkennen und zu generieren. Allerdings sind sie auch für ihren hohen Rechenaufwand bekannt. Ein neuer Ansatz, bekannt als „Mixture-of-Depths“ (MoD), könnte jedoch eine bedeutende Änderung in der Art und Weise darstellen, wie diese Modelle Rechenleistung zuweisen und verbrauchen.
Die Grundidee hinter MoD ist, dass nicht alle Teile eines Sprachmodells immer die gleiche Rechenleistung benötigen. Ähnlich wie nicht jedes Problem den gleichen Aufwand zur Lösung erfordert, benötigen auch nicht alle Tokens und Sequenzen in einem Sprachmodell den gleichen Aufwand, um eine genaue Vorhersage zu treffen. Trotzdem wenden herkömmliche Transformer-Modelle die gleiche Rechenleistung pro Token in einem Durchlauf auf. Ideal wäre es jedoch, wenn Transformer-Modelle kleinere Gesamtrechenbudgets verwenden würden, indem sie Rechenleistung nicht unnötig ausgeben.
MoD setzt auf ein Verfahren, das es ermöglicht, Rechenleistung dynamisch zu bestimmten Tokenpositionen in einer Sequenz zuzuweisen und die Zuweisung über die verschiedenen Schichten des Modells hinweg zu optimieren. Dies wird erreicht, indem die Anzahl der Tokens begrenzt wird, die an den Selbst-Attention- und MLP-Berechnungen einer gegebenen Schicht teilnehmen können. Die Tokens, die verarbeitet werden sollen, werden vom Netzwerk selbst durch einen Top-k-Routing-Mechanismus bestimmt.
Während in MoE (Mixture of Experts) Transformer-Modellen dynamische Token-Level-Routing-Entscheidungen quer durch die Netztiefe getroffen werden, unterscheidet sich MoD von diesem Ansatz. Statt mehrere Berechnungen durchzuführen, kann bei MoD entschieden werden, einen Token entweder durch eine Standardtransformer-Berechnung zu schicken oder durch eine residuale Verbindung unverändert zu lassen, wodurch Rechenleistung eingespart wird. Dieses Routing wird sowohl auf Forward-MLPs als auch auf Multi-Head-Attention angewendet. Daher trifft das Routing nicht nur Entscheidungen darüber, welche Tokens aktualisiert werden sollen, sondern auch, welche Tokens zur Verfügung stehen, um Beachtung zu finden.
Das Konzept von MoD ermöglicht es auch, Entscheidungen zu treffen, die Leistung gegen Geschwindigkeit abwägen. Einerseits kann ein MoD-Transformer trainiert werden, der die Leistung von herkömmlichen Transformern um bis zu 1,5 % auf dem endgültigen Log-Wahrscheinlichkeitstrainingsziel für äquivalente Trainings-FLOPs (isoFLOP) verbessert. Andererseits kann ein MoD-Transformer trainiert werden, der eine Trainingsverlustparität mit einem isoFLOP-optimalen herkömmlichen Transformer erreicht, aber nur einen Bruchteil der FLOPs pro Durchlauf benötigt und daher schneller abläuft.
Die Forscher hinter MoD haben festgestellt, dass das Routing von 1/8 der Tokens durch jede zweite Schicht am besten funktioniert. Sie beobachteten auch, dass die Kosten der Aufmerksamkeit für diese Schichten quadratisch abnehmen, was eine interessante Möglichkeit sein könnte, extrem lange Kontextlängen wesentlich schneller zu machen. Es gibt keinen Einfluss auf die Trainingszeit, aber die Geschwindigkeit pro Durchlauf könnte "um mehr als 50 % schneller" sein.
Diese Technologie könnte sich als bahnbrechend erweisen, da sie nicht nur die Effizienz von Sprachmodellen verbessern, sondern auch die Zugänglichkeit von KI-basierten Lösungen für eine breitere Palette von Anwendungen und Nutzern erhöhen könnte. Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen wie Chatbots, Voicebots und KI-Suchmaschinen spezialisieren, könnten von solchen Entwicklungen profitieren, indem sie leistungsfähigere und kosteneffizientere Produkte anbieten.
Die Forschung zu MoD ist ein anschauliches Beispiel dafür, wie KI-Entwicklung ständig die Grenzen dessen verschiebt, was möglich ist. Während es immer Herausforderungen geben wird, insbesondere in Bezug auf die Integration neuer Technologien in bestehende Systeme und Infrastrukturen, zeigt der Mixture-of-Depths-Ansatz deutlich, dass die Zukunft der KI von intelligenteren, effizienteren Modellen geprägt sein wird, die in der Lage sind, mit weniger mehr zu erreichen.
Quellen:
- David Raposo, Sam Ritter, Blake Richards, Timothy Lillicrap, Peter Conway Humphreys, Adam Santoro. „Mixture-of-Depths: Dynamically allocating compute in transformer-based language models“. arXiv:2404.02258.
- Diverse Diskussionen und Beiträge auf Plattformen wie Reddit, YouTube, Twitter und LinkedIn.
- Beiträge und Zusammenfassungen von Neuigkeiten und Forschungsergebnissen auf Plattformen wie Emergent Mind und Hacker News.