Die Entwicklung von Künstlicher Intelligenz schreitet unaufhörlich voran, und die jüngsten Fortschritte in der Modellierung großer Sprachmodelle (Large Language Models, LLMs) haben zu einem bemerkenswerten Wettbewerb in der Branche geführt. Unternehmen und Forschungsgruppen arbeiten unermüdlich daran, die leistungsfähigsten und fortschrittlichsten Modelle zu entwickeln und zu veröffentlichen, um die Art und Weise, wie wir mit Maschinen interagieren, zu revolutionieren.
In diesem Zusammenhang hat das Unternehmen MistralAI kürzlich sein neuestes Modell, Mistral-large, veröffentlicht, das in der "Arena" – einer Plattform für den Vergleich von Künstlicher Intelligenz – gegen andere State-of-the-Art (SoTA) Modelle antritt. Das Mistral-large Modell zeichnet sich durch seine Fähigkeit aus, 32.000 Token Kontext zu verarbeiten und ist in Englisch, Französisch, Spanisch, Deutsch und Italienisch fließend.
Die Arena ist ein offenes Bewertungssystem, in dem Nutzer ihre härtesten Prompts einreichen und verschiedene Modelle herausfordern können. Die Teilnehmer geben ihre Stimmen ab, um die Leistungsfähigkeit der Modelle zu beurteilen. Dieses Vorgehen bietet eine direkte Rückmeldung durch die Nutzer, welche als ein wesentlicher Indikator für die Praxistauglichkeit der Modelle angesehen wird. Die Bewertungen in der Arena basieren nicht nur auf traditionellen Benchmarks, sondern berücksichtigen auch die Nuancen menschlicher Vorlieben und die offene Natur von realen Konversationen.
Neben Mistral-large hat MistralAI auch das kleinere Modell Mistral Small auf ihrer API aktualisiert, um die Leistung weiter zu verbessern. Diese Modelle reihen sich in eine Liste von beeindruckenden KI-Entwicklungen ein, die in der Arena evaluiert werden. Unter anderem hat das Modell Mistral Medium über 6.000 Stimmen gesammelt und zeigt eine bemerkenswerte Leistung, die mit dem Modell Claude vergleichbar ist.
Die Arena-Plattform verzeichnet weiterhin beeindruckende Zuwächse an Nutzerinteraktionen. So hat beispielsweise Qwen1.5-72B von Alibaba Cloud über 5.000 Stimmen erhalten und ist damit in die Top-10 der besten offenen Modelle aufgestiegen, was die Leistung von Mistral-medium erreicht. Diese Erfolge demonstrieren, wie eng der Wettkampf zwischen proprietären und offenen Modellen geworden ist. Die Öffnung der Modelle für die Gemeinschaft trägt zur Beschleunigung des Fortschritts und zur innovativen Anwendung von KI bei.
Die Arena wird ständig aktualisiert, um die neuesten Entwicklungen und Statistiken zu präsentieren, und das Leaderboard bietet eine detaillierte Übersicht über die Leistung der verschiedenen Modelle. Die Community hat großes Interesse daran, die Stärken und Schwächen unterschiedlicher Modelle zu verstehen und wie aktuelle Informationen die Fähigkeit der Modelle beeinflussen, Nutzeranfragen zu beantworten.
Die Bewertung der Modelle erfolgte ursprünglich mittels des Elo-Bewertungssystems, das jedoch erhebliche Schwankungen aufwies. Um genauere und stabilere Bewertungen zu gewährleisten, wurde kürzlich der Übergang zum Bradley-Terry-Modell vollzogen. Dieses Modell nimmt an, dass die Leistung der Spieler – oder in diesem Fall der Modelle – statisch ist und sich nicht über die Zeit verändert, was eine zentrale Berechnung der Bewertungen ermöglicht.
Die Ergebnisse zeigen, dass die neuen Modelle in der Arena, wie Tulu-2-DPO-70B und Yi-34B-Chat, führend im Bereich der offenen Modelle sind und eine Performance aufweisen, die nahe an die von GPT-3.5 heranreicht. Auch die kleineren 7B-Modelle, wie OpenChat-3.5 und Starling-lm-7b-alpha, zeigen trotz ihrer geringeren Größe beeindruckende Leistungen.
Zusätzlich zu den Bewertungen in der Arena plant MistralAI, Datenfreigabepläne und Analysen von Prompts und Abstimmungen anzukündigen, um weitere Einblicke in die Funktionsweise und Anwendungsmöglichkeiten der Modelle zu gewähren. Dies unterstreicht die Bedeutung von Transparenz und Kooperation in der KI-Industrie.
Die Weiterentwicklung von Künstlicher Intelligenz, insbesondere im Bereich der Sprachmodelle, zeigt eine dynamische und wettbewerbsorientierte Landschaft, in der offene Plattformen wie die Arena eine entscheidende Rolle spielen. Sie ermöglichen nicht nur eine objektive Bewertung der Modelle, sondern fördern auch den Austausch und die Zusammenarbeit innerhalb der KI-Community.
Quellen:
- Twitter-Beiträge von @lmsysorg und @GuillaumeLample
- Chatbot Arena Leaderboard: https://lmsys.org/blog/2023-12-07-leaderboard/
- Chatbot Arena: https://chat.lmsys.org/
- LMSYS ORG Blogpost: https://lmsys.org/blog/2023-12-07-leaderboard/