Mixtral 8x7B: Spitzenreiter der Open-License KI-Modelle

Kategorien:

No items found.

Freigegeben:

June 14, 2024

Artikel jetzt als Podcast anhören

Die Entwicklung von KI-Modellen schreitet mit beachtlichen Fortschritten voran, und ein herausragendes Beispiel ist das neueste Sprachmodell von Mistral AI, das Mixtral 8x7B, welches in aktuellen Benchmarks beeindruckende Ergebnisse erzielt hat. Es hat sich als das beste Open-License-Modell etabliert und rangiert aktuell auf Platz vier der leistungsstärksten Modelle, wobei es viele andere Modelle in der Leistung übertrifft.

Das Mixtral 8x7B ist ein sogenanntes Sparse Mixture-of-Experts-Modell (SMoE). Es handelt sich um ein Modell, das auf einer Architektur basiert, die darauf ausgelegt ist, eine begrenzte Anzahl von Parametern effizienter zu nutzen. Dies wird erreicht, indem für jede Anfrage lediglich zwei von acht verfügbaren Parametersätzen ausgewählt werden. Diese Technik ermöglicht es, die Zahl der Parameter des Modells zu erhöhen, während Kosten und Latenzzeit kontrolliert werden, da pro Token nur ein Bruchteil der Gesamtzahl der Parameter verwendet wird. Konkret hat Mixtral 45 Milliarden Parameter, nutzt aber nur 12 Milliarden Parameter pro Token für die Inferenz. Dies macht es zum größten bisher von dem Start-up veröffentlichten Modell; zuvor hatte das Unternehmen das relativ leistungsstarke Mistral 7B im September freigegeben.

Die Leistung des Mixtral 8x7B ist bemerkenswert: Es hat eine Kontextfenstergröße von 32.000 Tokens und ist kompatibel mit Englisch, Französisch, Italienisch, Deutsch und Spanisch. Es zeichnet sich durch hervorragende Fähigkeiten in der Codegenerierung aus und kann für ein instruktionsbasiertes Modell feinabgestimmt werden. Darüber hinaus zeigt das Modell weniger Halluzinationen und Verzerrungen im Vergleich zu anderen Modellen. Insbesondere in Bezug auf die Wahrhaftigkeit erreichte es im TruthfulQA-Benchmark 73,9 % gegenüber 50,2 % beim Llama 2 und präsentierte weniger Verzerrungen im BBQ-Benchmark.

Die Veröffentlichung des Mixtral 8x7B unter der permissiven Apache 2.0-Lizenz ist besonders hervorzuheben, da dies bedeutet, dass die Gewichtungen des Modells offenliegen und es von der Gemeinschaft genutzt und weiterentwickelt werden kann. Dies unterscheidet das Modell von einigen geschlossenen Modellen anderer Organisationen, wie zum Beispiel denen von OpenAI.

Mistral AI hat außerdem eine Instruct-Version des Mixtral 8x7B herausgebracht, die für präzise Anweisungen durch überwachte Feinabstimmung und Direct Preference Optimisation (DPO) optimiert wurde. Diese erreicht im MT-Bench eine Punktzahl von 8,30 und ist damit das beste Open-Source-Modell mit einer Leistung, die mit GPT-3.5 vergleichbar ist.

Verfügbar ist das Mixtral-Modell in der Beta-Version auf der Mistral-Plattform. Dort sind auch das kleinere Mistral 7B und ein leistungsstärkeres Prototypmodell, das GPT-3.5 übertrifft, erhältlich. Mistral AI hat sich mit diesem Schritt als innovatives Unternehmen positioniert, das nicht nur die Grenzen von Open-Source-KI-Modellen erweitert, sondern auch den Zugang zu fortschrittlichen Technologien für eine breitere Entwicklergemeinschaft öffnet.

Mit der Freigabe von Mixtral 8x7B und der Instruct-Version zeigt Mistral AI, dass es möglich ist, mit großen, etablierten Akteuren im Bereich der künstlichen Intelligenz zu konkurrieren und gleichzeitig den Entwicklern Werkzeuge an die Hand zu geben, die sowohl leistungsstark als auch zugänglich sind. Das Unternehmen betont die Bedeutung der Gemeinschaft und der offenen Zusammenarbeit für den Fortschritt im Bereich der KI und setzt sich dafür ein, dass neueste Entwicklungen nicht hinter verschlossenen Türen bleiben, sondern der Allgemeinheit zur Verfügung gestellt werden.

Die Resonanz auf das Mixtral 8x7B-Modell ist durchweg positiv, und die Leistung des Modells in verschiedenen Benchmarks unterstreicht die Bedeutung von Open-Source-Initiativen in der KI-Forschung und -Entwicklung. Durch die Kombination von fortschrittlicher Technologie mit einer offenen Lizenzierung bietet Mistral AI einen wertvollen Beitrag zur KI-Gemeinschaft und legt damit den Grundstein für weitere Innovationen und Anwendungen in diesem dynamischen und sich schnell entwickelnden Feld.

Was bedeutet das?