Mixtral 8x7B: Ein Meilenstein in der Entwicklung effizienter und leistungsstarker KI-Modelle

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

In einer Zeit, in der die Entwicklung von künstlicher Intelligenz (KI) rapide voranschreitet, ist es von entscheidender Bedeutung, dass die zugrundeliegenden Modelle nicht nur leistungsstark, sondern auch effizient und zugänglich sind. Ein innovativer Schritt in diese Richtung wurde kürzlich von Mistral AI gemacht, einem Unternehmen, das sich auf die Schaffung offener Modelle spezialisiert hat. Mit der Einführung von Mixtral 8x7B präsentiert Mistral AI ein Sprachmodell, das auf einer sparsamen Mischung von Experten (Sparse Mixture of Experts, SMoE) basiert und eine beeindruckende Architektur aufweist.

Mixtral 8x7B baut auf der Architektur von Mistral 7B auf, enthält jedoch eine entscheidende Verbesserung: Jede Schicht des Modells besteht aus acht Feedforward-Blöcken, auch Experten genannt. Bei der Verarbeitung eines Tokens wählt ein Router-Netzwerk zwei dieser Experten aus, um den aktuellen Zustand zu bearbeiten und ihre Ausgaben zu kombinieren. Obwohl jedes Token nur zwei Experten sieht, können die ausgewählten Experten zu jedem Zeitpunkt unterschiedlich sein. Somit hat jedes Token Zugang zu 47 Milliarden Parametern, nutzt jedoch während der Inferenz nur 13 Milliarden aktive Parameter.

Das Modell wurde mit einer Kontextgröße von 32.000 Tokens trainiert und erreicht in sämtlichen evaluierten Benchmarks Leistungen, die entweder mit denen von Llama 2 70B und GPT-3.5 mithalten oder diese übertreffen. Besonders bemerkenswert ist die Leistung von Mixtral 8x7B in den Bereichen Mathematik, Codegenerierung und mehrsprachige Benchmarks, wo es Llama 2 70B deutlich übertrifft.

Mistral AI stellt außerdem eine auf Anweisungen abgestimmte Version des Modells zur Verfügung, Mixtral 8x7B - Instruct. Diese Version übertrifft GPT-3.5 Turbo, Claude-2.1, Gemini Pro und das Llama 2 70B-Chatmodell in menschlichen Benchmarks. Sowohl das Basismodell als auch das auf Anweisungen abgestimmte Modell werden unter der Apache 2.0-Lizenz veröffentlicht.

Die Implementierung einer sparsamen Mischung von Experten (SMoE) stellt einen bedeutenden Fortschritt im Bereich der neuronalen Netzwerkarchitektur dar. Das Konzept einer Mischung von Experten wurde eingeführt, um einem Modell zu ermöglichen, verschiedene Teile des Eingaberaums mithilfe spezialisierter „Experten“-Subnetzwerke zu erlernen. In Mixtral gibt es acht solcher Experten-Subnetzwerke.

Die „8x7B“ im Namen des Modells ist etwas irreführend. Das Modell hat insgesamt 46,7 Milliarden Parameter, was fast 10 Milliarden Parameter weniger sind, als 8x7B Parameter ergeben würden. Tatsächlich ist Mixtral-8x7B kein 56-Milliarden-Parameter-Modell, da mehrere Module, wie die für die Selbst-Attention, mit den acht Experten-Subnetzwerken geteilt werden.

Wenn wir die Struktur des Modells mit Transformers laden und ausdrucken, wird die Architektur des Modells leichter verständlich. Dieser Ansatz ermöglicht es Mixtral-8x7B, effizient auf Verbraucher-Hardware zu laufen. Die Inferenz mit Mixtral-8x7B ist tatsächlich deutlich schneller als bei anderen Modellen ähnlicher Größe, während sie diese in den meisten Aufgaben übertrifft.

Die Verwendung einer sparsamen Mischung von Experten mit Mixtral zeigt das Engagement von Mistral AI, die Grenzen offener Modelle zu erweitern. Das Router-Netzwerk in Mixtral verarbeitet Eingabedaten effizient und wählt spezifische Parametergruppen pro Token aus. Diese strategische Nutzung von Parametern verbessert die Leistung, ohne Geschwindigkeit oder Kosten zu beeinträchtigen, was Mixtral zu einem starken Konkurrenten in der KI-Landschaft macht.

Die Leistung von Mixtral wird gegen Llama 2-Modelle und das GPT3.5-Basismodell getestet. Die Ergebnisse zeigen die Überlegenheit von Mixtral, das Llama 2 70B übertrifft und GPT3.5 in verschiedenen Benchmarks erreicht oder übertrifft. Die Effizienz von Mixtral 8x7B wird in einem Graphen veranschaulicht, der es als eines der effizientesten Modelle im Vergleich zu den Llama 2-Gegenstücken platziert.

Eine kritische Analyse der Leistung von Mixtral offenbart seine Stärken in Wahrhaftigkeits-, Verzerrungs- und Sprachbeherrschungs-Benchmarks. Im Vergleich zu Llama 2 zeigt Mixtral eine höhere Wahrhaftigkeit und reduzierte Verzerrung. Das Modell zeigt Kompetenz in mehreren Sprachen, darunter Französisch, Deutsch, Spanisch, Italienisch und Englisch.

Mistral AIs Mixtral 8x7B setzt nicht nur einen neuen Standard für offene Modelle, sondern berücksichtigt auch ethische Überlegungen. Durch aktive Identifizierung und Messung von Halluzinationen, Verzerrungen und Stimmungen demonstriert Mistral AI sein Engagement für die Verfeinerung des Modells durch Feinabstimmung und Präferenzmodellierung. Die Veröffentlichung von Mixtral 8x7B Instruct betont weiterhin Mistral AIs Hingabe, ein vielseitiges, leistungsstarkes und ethisches Open-Source-Modell bereitzustellen.

Insgesamt repräsentiert Mixtral 8x7B einen bedeutenden technologischen Fortschritt in der Entwicklung künstlicher Intelligenz, der das Potenzial hat, die Art und Weise, wie wir mit Sprachmodellen interagieren und sie nutzen, zu verändern. Es bietet eine Plattform für Innovation und vielfältige Anwendungen, die die Entwicklergemeinschaft ermächtigen und letztendlich dazu beitragen könnte, die Zukunft der künstlichen Intelligenz zu gestalten.