Die Technologiewelt blickt gespannt auf die jüngsten Entwicklungen von Apple im Bereich der künstlichen Intelligenz (KI). In einer kürzlich veröffentlichten Ankündigung präsentierte Apple eine neue Familie von Open-Source-KI-Modellen, die in mehreren Benchmarks bemerkenswerte Leistungen erzielen und sogar etablierte Modelle wie Mistral-7B und Hugging Face übertreffen.
Das Forschungsteam von Apple, das im Rahmen des DataComp-Projekts für Sprachmodelle arbeitet, hat kürzlich eine Reihe von Open-Source-Modellen auf Hugging Face veröffentlicht. Diese Familie umfasst zwei Hauptmodelle: eines mit 7 Milliarden Parametern und ein kleineres mit 1,4 Milliarden Parametern. Beide Modelle haben in Benchmarks beeindruckende Ergebnisse erzielt, wobei das größere Modell sogar das Mistral-7B übertraf und sich den führenden offenen Modellen wie Llama 3 und Gemma annäherte.
Das DataComp-Projekt ist ein kollaborativer Ansatz zur Erstellung hochwertiger Datensätze für das Training von KI-Modellen, insbesondere im multimodalen Bereich. Beteiligt sind Forscher von Apple, der University of Washington, der Tel Aviv University und dem Toyota Institute of Research. Das Ziel ist es, ein standardisiertes Framework zu nutzen, um verschiedene Experimente durchzuführen und die besten Datenkurationstechniken für das Training leistungsstarker Modelle zu ermitteln.
Die Experimente des Projekts zeigten, dass das modellbasierte Filtern, bei dem maschinelle Lernmodelle automatisch qualitativ hochwertige Daten aus größeren Datensätzen auswählen, entscheidend für die Zusammenstellung eines hochwertigen Trainingssatzes sein kann. Um die Effektivität dieser Technik zu demonstrieren, wurde der daraus resultierende Datensatz, DCLM-Baseline, verwendet, um die neuen DCLM-Modelle mit 7 Milliarden und 1,4 Milliarden Parametern von Grund auf zu trainieren.
Das DCLM-7B-Modell, das auf 2,5 Billionen Token unter Verwendung von Pretraining-Rezepten auf Basis des OpenLM-Frameworks trainiert wurde, bietet ein 2K-Kontextfenster und erreicht eine 5-Schuss-Genauigkeit von 63,7% auf MMLU. Dies stellt eine Verbesserung von 6,6 Prozentpunkten im Vergleich zu MAP-Neo dar, dem bisherigen Stand der Technik im Bereich der Open-Data-Sprachmodelle, bei 40% weniger Rechenaufwand für das Training.
Wesentlich ist, dass seine Leistung auf MMLU nahe an die führender offener Modelle wie Mistral-7B-v0.3 (62,7%), Llama3 8B (66,2%), Google’s Gemma (64,3%) und Microsoft’s Phi-3 (69,9%) heranreicht. Die Leistung des Modells über verschiedene Benchmarks hinweg verbesserte sich weiter, als die Forscher die Kontextlänge auf 8K erweiterten und zusätzliche 100 Milliarden Trainingseinheiten auf demselben Datensatz durchführten.
Das kleinere Modell, DCLM-1.4B, das gemeinsam mit dem Toyota Research Institute auf 2,6 Billionen Token trainiert wurde, liefert ebenfalls beeindruckende Leistungen in MMLU-, Core- und Extended-Tests. Im 5-Schuss-MMLU-Test erzielte es 41,9%, was deutlich höher ist als bei anderen Modellen in dieser Kategorie, einschließlich SmolLM von Hugging Face, Qwen-1.5B und Phi-1.5B.
Das größere Modell ist derzeit unter der Apple Sample Code License verfügbar, während das kleinere Modell unter Apache 2.0 veröffentlicht wurde, was kommerzielle Nutzung, Verteilung und Modifikation erlaubt. Zudem gibt es eine instruktionstunierte Version des 7B-Parameter-Modells in der Hugging Face-Bibliothek.
Die Veröffentlichung dieser Modelle markiert einen bedeutenden Fortschritt in Apples KI-Forschung und zeigt die Wirksamkeit der Datenkurationstechniken. Auch wenn diese Modelle derzeit nicht für Apple-Geräte bestimmt sind und aufgrund der Test-Trainingsdaten gewisse Verzerrungen oder schädliche Antworten zeigen können, bieten sie eine solide Basis für weitere Forschungsarbeiten im Bereich der Datenkuration und des Trainings von Sprachmodellen.
Die kontinuierliche Weiterentwicklung und Optimierung dieser Modelle könnte Apple in eine führende Position im Bereich der offenen KI-Modelle bringen und die Standards in der Branche neu definieren.