Die Welt der Künstlichen Intelligenz (KI) wird ständig von neuen Entwicklungen und Innovationen geprägt. Eine der neuesten und bedeutendsten Errungenschaften in diesem Bereich ist das DataComp-LM (DCLM), ein umfassender Rahmen für die Entwicklung und Bewertung großer Sprachmodelle (Large Language Models, LLMs) unter Verwendung diverser Datensätze.
DataComp-LM ist ein Testfeld für kontrollierte Datensatzexperimente mit dem Ziel, die Leistung von Sprachmodellen zu verbessern. Es bietet ein standardisiertes Korpus von 240 Billionen Token, die aus Common Crawl extrahiert wurden, effektive Vorbereitungsrezepte basierend auf dem OpenLM-Framework und eine breite Suite von 53 Downstream-Evaluierungen. Teilnehmer am DCLM-Benchmark können mit Datenkuratierungsstrategien wie Deduplizierung, Filterung und Datenmischung bei Modellskalen von 412 Millionen bis 7 Milliarden Parametern experimentieren.
DataComp-LM bringt mehrere wichtige Innovationen und Vorteile mit sich:
- Standardisiertes Korpus: Über 240 Billionen ungefilterte Token aus Common Crawl. - Effektive Vorbereitungsrezepte: Basierend auf dem OpenLM-Framework. - Breite Suite von Downstream-Evaluierungen: Insgesamt 53 verschiedene Tests. - Experimentiermöglichkeiten: Datenkuratierungsstrategien wie Deduplizierung, Filterung und Datenmischung.Im Gegensatz zu früheren Wettbewerben, die sich auf die Modellarchitektur konzentrierten, legt DataComp-LM den Schwerpunkt auf die Datenqualität und deren Einfluss auf die Leistung von Sprachmodellen. Es wird ein experimentelles Testfeld bereitgestellt, das auf einem neuen Kandidatenpool von 240 Billionen Token aus Common Crawl basiert. Teilnehmer sind dazu angehalten, neue Filtertechniken zu entwickeln oder neue Datenquellen zu kuratieren und diese dann mit einem standardisierten Trainingscode zu evaluieren.
DataComp-LM hat bereits zur Erstellung mehrerer hochwertiger Datensätze geführt, die über verschiedene Skalen hinweg gute Leistungen erbringen und alle offenen Datensätze übertreffen. Diese Datensätze sind entscheidend für die Entwicklung besserer Modelle, die kostengünstiger zu trainieren sind.
Die Baseline-Experimente von DCLM zeigen signifikante Verbesserungen der Modellleistung durch optimiertes Datensetzdesign. Beispielsweise ermöglicht der resultierende Datensatz, DCLM-Baseline, das Training eines 7 Milliarden Parameter umfassenden Sprachmodells von Grund auf mit 64% 5-Shot-Genauigkeit auf MMLU mit nur 2,6 Billionen Trainingstoken.
Im Vergleich zu MAP-Neo, dem bisherigen Spitzenreiter in offenen Datenmodellen, stellt DCLM-Baseline eine Verbesserung um 6,6 Prozentpunkte auf MMLU dar, während 40% weniger Rechenleistung benötigt wird. Das Basismodell ist auch mit Mistral-7B-v0.3 und Llama 3 8B auf MMLU (63% & 66%) vergleichbar und zeigt ähnliche Leistungen bei durchschnittlich 53 Aufgaben des natürlichen Sprachverständnisses, während es mit 6,6-mal weniger Rechenleistung als Llama 3 8B trainiert wurde.
Das DCLM-Benchmark ist auf mehreren Skalen verfügbar, mit verschiedenen Kandidatenpoolgrößen und zugehörigen Rechenbudgets, die von 412 Millionen bis 7 Milliarden Parametern reichen. Diese Multi-Skalen-Design erleichtert das Studium von Skalierungstrends und macht den Benchmark für Forscher mit unterschiedlichen Ressourcen zugänglich.
Der Einreichungsworkflow für Teilnehmer umfasst die Auswahl einer Skala, das Filtern oder Mischen von Daten, das Training eines Sprachmodells und die Bewertung auf 53 Downstream-Aufgaben. Die Ergebnisse werden dann in einer JSON-Datei generiert und können zur Überprüfung und Aufnahme in die Rangliste eingereicht werden.
DataComp-LM stellt einen bedeutenden Fortschritt in der KI-Forschung dar, indem es den Schwerpunkt auf die Datenqualität legt und neue Wege zur Entwicklung und Bewertung von Datensätzen eröffnet. Durch die Bereitstellung eines standardisierten Rahmens und die Förderung von Innovationen in der Datensatzgestaltung trägt DataComp-LM dazu bei, die Grenzen dessen, was Sprachmodelle leisten können, weiter zu verschieben.