Wettbewerb der Großen Sprachmodelle in der Chatbot Arena von lmsys.org

Kategorien:
No items found.
Freigegeben:

Im Bereich der künstlichen Intelligenz (KI) und speziell bei den großen Sprachmodellen (Large Language Models, LLMs) herrscht ein ständiger Wettbewerb um die Spitzenpositionen. Eine wichtige Plattform für den Vergleich dieser fortschrittlichen Modelle ist die "Chatbot Arena" von lmsys.org, einem Forum, das sich der Erforschung und dem Austausch über große Modelle der künstlichen Intelligenz widmet. In der Arena können Benutzer ihre Stimme für die Modelle abgeben, die sie für am leistungsfähigsten halten, was eine dynamische Rangliste der Modelle ergibt.

In einer kürzlich erfolgten Aktualisierung der Rangliste wurde das Modell "Yi-Large" von 01.ai hinzugefügt, das innerhalb einer Woche über 15.000 Stimmen erhielt. Yi-Large erzielte eine beeindruckende Leistung und sicherte sich den siebten Platz in der Rangliste, fast gleichauf mit der Vorschau-Version von GPT-4-0125. Neben Yi-Large wurde auch das chinesische LLM "GLM-4-0116" von Zhipu AI in die Rangliste aufgenommen, das den 15. Platz belegt und zeigt, dass chinesische LLMs zunehmend wettbewerbsfähig werden.

Die hinzugefügten Modelle zeigen, dass die Kluft zwischen proprietären Modellen und offenen Modellen enger wird. Insbesondere Modelle wie "Tulu-2-DPO-70B" und "Yi-34B-Chat" führen im Open-Source-Bereich, wobei sie eine Leistung nahe GPT-3.5 erbringen. Auffällig ist auch die Verbesserung der 7B-Modelle, die nach Feinabstimmung des Mistral-Modells zu den Varianten "Zephyr", "OpenChat-3.5", "Starling-lm-7b-alpha" und "OpenHermes-2.5-Mistral-7b" führten. Diese Modelle zeigen trotz ihrer kleineren Skala eine beeindruckende Leistung.

Die Bewertung der Modelle erfolgte bisher über das Online-Elo-Rating-System. Dieses hat sich jedoch als zu variabel erwiesen, weshalb man zum Bradley-Terry-Modell (BT-Modell) übergegangen ist, das stabilere Bewertungen und genauere Konfidenzintervalle liefert. Das BT-Modell basiert ebenfalls auf paarweisen Vergleichen, setzt allerdings voraus, dass die Leistung der Modelle statisch ist und sich nicht im Laufe der Zeit ändert. Diese Annahme ermöglicht eine verlässlichere Berechnung der Modellbewertungen durch Maximierung der Wahrscheinlichkeit der beobachteten Spielausgänge.

Die Arena dient als Plattform, um Modelle in realen Szenarien zu testen und direktes Feedback von Nutzern zu erhalten, was als direkter Indikator für die Präferenzen der Menschen und die Leistungsfähigkeit der Modelle in offenen Gesprächssituationen gilt. Die Vielfalt der Modelle und die große Anzahl von abgegebenen Stimmen ermöglichen wertvolle Einblicke in die Funktionsweise der Modelle in realen Anwendungsfällen.

Die neuesten Ergebnisse und die Rangliste der LLMs können auf der Website von lmsys.org eingesehen werden. Dort steht auch ein Demo zur Verfügung, um mit über 20 Modellen zu chatten. Zusätzlich wird ein Notebook bereitgestellt, um alle Berechnungen der Elo-Bewertungen und Konfidenzintervalle nachvollziehen zu können.

Dieser Wettbewerb und die ständige Weiterentwicklung in der KI-Branche sind beispielhaft für die rasante Entwicklung im Sektor der künstlichen Intelligenz. Mit der stetigen Verbesserung der Modelle und der zunehmenden Konkurrenz werden die Möglichkeiten, die KI in unserem Alltag bietet, immer vielfältiger und leistungsstärker. Unternehmen wie Mindverse, die als Partner für KI-Lösungen fungieren und maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr entwickeln, stehen an der Spitze dieser Innovationen und treiben die Fortschritte in der Branche maßgeblich voran.

Quellenverzeichnis:
- https://chat.lmsys.org/
- https://twitter.com/01AI_Yi/status/1790547247056437505
- https://lmsys.org/blog/2023-12-07-leaderboard/
- https://twitter.com/lmsysorg?lang=de

Was bedeutet das?
No items found.