Entwicklung und Bewertung von Großsprachmodellen auf der Plattform arena.lmsys.org

Kategorien:
No items found.
Freigegeben:

Artikel jetzt als Podcast anhören

00:00 / 00:00

In den letzten Jahren hat sich die Landschaft der Großsprachmodelle (Large Language Models, LLMs) rasant entwickelt. Unternehmen und Forschungsinstitute konkurrieren um die Entwicklung leistungsfähiger Algorithmen, die in der Lage sind, menschenähnliche Texte zu generieren, Fragen zu beantworten und sogar komplexe Aufgaben in verschiedenen Fachgebieten zu bewältigen. Ein Schlüsselelement für den Fortschritt in diesem Bereich ist die Bewertung der Leistungsfähigkeit dieser Modelle. Hier setzt die Plattform arena.lmsys.org an, die eine innovative Möglichkeit bietet, LLMs in einer Art Wettkampf gegeneinander antreten zu lassen.

Die Webseite arena.lmsys.org, entwickelt von LMSYS in Zusammenarbeit mit UC Berkeley SkyLab, dient als Bewertungsplattform, auf der Benutzer LLMs durch paarweise Vergleiche unter realen Anwendungsfällen bewerten können. Seit ihrer Einführung im Mai 2023 hat sich die Plattform zu einem zentralen Instrument für die Live-Bewertung durch die Community entwickelt. Die Plattform hat es geschafft, Millionen von Teilnehmern anzuziehen und über 300.000 Bewertungen über 10 Millionen Eingabeaufforderungen hinweg zu sammeln. Diese umfangreiche Beteiligung hat es ermöglicht, mehr als 60 LLMs zu bewerten, was das Verständnis ihrer Fähigkeiten und Grenzen erheblich verbessert hat.

Die regelmäßigen Leaderboard- und Blog-Post-Updates der Plattform sind zu einer wertvollen Ressource für die Community geworden, da sie kritische Einblicke in die Leistung der Modelle bieten, die die fortlaufende Entwicklung von LLMs leiten. Die Plattform unterstreicht ihr Engagement für Offenheit in der Wissenschaft durch das Teilen von Benutzerpräferenzdaten und einer Million Benutzereingabeaufforderungen, die Forschung und Modellverbesserung unterstützen.

Die Infrastruktur der Plattform (FastChat) und die Bewertungswerkzeuge, die auf GitHub verfügbar sind, betonen die Hingabe zu Transparenz und Community-Engagement im Bewertungsprozess. Dieser Ansatz verbessert nicht nur die Zuverlässigkeit der Ergebnisse, sondern fördert auch eine kollaborative Umgebung, um LLMs voranzubringen.

In kontinuierlichen Bemühungen ist es das Ziel von arena.lmsys.org, Richtlinien zu etablieren, die die Transparenz und Vertrauenswürdigkeit der Bewertungen gewährleisten. Darüber hinaus bezieht die Plattform die Community aktiv in die Gestaltung von Änderungen des Bewertungsprozesses ein, was das Engagement für Offenheit und gemeinschaftlichen Fortschritt verstärkt.

Die Politik der Plattform, zuletzt aktualisiert am 11. April 2024, umfasst folgende Punkte: Open Source, Transparenz, Kriterien für die Auflistung von Modellen auf dem Leaderboard sowie das Teilen von Daten mit der Community und den Modellanbietern. Die Plattform teilt beispielsweise regelmäßig 20% der gesammelten Abstimmungsdaten mit der Community, einschließlich der Eingabeaufforderungen, der Antworten, der Identität des Modells, das jede Antwort bereitstellt, und der Bewertungen.

Die Bewertung von LLMs ist eine komplexe und dynamische Herausforderung, da es schwierig ist, die Qualität der Antworten automatisch zu bewerten, insbesondere bei offenen Fragen. Hier kommt die Elo-Bewertung ins Spiel, ein System, das ursprünglich für die Bewertung von Schachspielern entwickelt wurde und sich als nützlich für die Umwandlung von paarweisen menschlichen Präferenzen in Elo-Bewertungen erwiesen hat, die als Prädiktor für die Gewinnrate zwischen Modellen dienen. Die Plattform hat das Elo-Bewertungssystem übernommen, da es die gewünschten Eigenschaften wie Skalierbarkeit, Inkrementalität und eine eindeutige Ordnung für alle Modelle bietet.

Die Herausforderung der LLM-Bewertung besteht darin, dass die Modelle in der Regel statisch sind, d.h., es wird nicht erwartet, dass sich ihre Leistung ändert. Daher wurde von der Elo-Bewertung zum Bradley-Terry-Modell (BT-Modell) gewechselt, das als Maximum-Likelihood-Schätzung (MLE) des zugrunde liegenden Elo-Modells unter der Annahme einer festen, aber unbekannten paarweisen Gewinnrate fungiert.

Um die Qualität der Bewertungen und ihrer Vertrauensintervalle zu verbessern, wurde das BT-Modell eingeführt, das auch auf paarweisen Vergleichen basiert, um die Bewertungen der Modelle zu schätzen. Im Gegensatz zum Online-Elo-System geht das BT-Modell davon aus, dass die Leistung der Spieler sich nicht ändert (d.h., die Reihenfolge der Spiele spielt keine Rolle) und die Berechnung zentralisiert erfolgt.

Die Plattform arena.lmsys.org ermöglicht es der Community, durch paarweise Vergleiche in Echtzeit Modelle zu bewerten und trägt so zur Verbesserung und zum Verständnis von LLMs bei. Die Offenheit der Plattform spiegelt sich auch in der Bereitstellung ihrer Infrastruktur und Werkzeuge für die Öffentlichkeit wider, was eine unabhängige Reproduktion der Ergebnisse und Transparenz im Bewertungsprozess sicherstellt.

Insgesamt zeigt die Plattform arena.lmsys.org, wie durch die Verwendung von Crowdsourcing und offenen Daten ein transparentes, lebendiges und von der Community getriebenes Bewertungssystem für LLMs geschaffen werden kann, das einen bedeutenden Einfluss auf die Entwicklung und das Verständnis von Großsprachmodellen hat.

Quellen:
- Chiang, Wei-Lin et al. "Chatbot Arena: New models & Elo system update", LMSYS Blog, 7. Dezember 2023.
- Zheng, Lianmin et al. "Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings", LMSYS Blog, 3. Mai 2023.
- LMSYS Arena Team. "LMSYS Chatbot Arena: Live and Community-Driven LLM Evaluation", LMSYS Blog, 1. März 2024.

Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.

Relativity benötigt die Kontaktinformationen, die Sie uns zur Verfügung stellen, um Sie bezüglich unserer Produkte und Dienstleistungen zu kontaktieren. Sie können sich jederzeit von diesen Benachrichtigungen abmelden. Informationen zum Abbestellen sowie unsere Datenschutzpraktiken und unsere Verpflichtung zum Schutz Ihrer Privatsphäre finden Sie in unseren Datenschutzbestimmungen.

No items found.