BaichuanSEED: Neue Einblicke in Datensammlung und Deduplikationsstrategien bei Sprachmodellen

Kategorien:
No items found.
Freigegeben:
August 30, 2024
Artikel über BaichuanSEED: Potenzial von umfangreicher Datensammlung und Deduplikation

Einführung in BaichuanSEED: Potenzial von umfangreicher Datensammlung und Deduplikation

Die allgemeinen Fähigkeiten von großen Sprachmodellen (Large Language Models, LLMs) hängen stark von der Zusammensetzung und Auswahl umfangreicher vortrainierter Datensätze ab, die von mehreren Institutionen als Geschäftsgeheimnisse behandelt werden. Um dieses Problem zu mildern, haben Forscher die Details einer universell anwendbaren Datenverarbeitungspipeline offen gelegt und deren Wirksamkeit und Potenzial durch die Einführung eines kompetitiven LLM-Baselines validiert. Im Zentrum dieser Initiative steht das 7B-Modell BaichuanSEED, das auf 3T Tokens vortrainiert wurde.

Modellarchitektur von BaichuanSEED

BaichuanSEED wurde von Grund auf neu vortrainiert und anschließend in einer überwachten Feinabstimmungsphase weiter optimiert. Das Modell folgt einer Transformer-Decoder-Stack-Architektur, die der vorherigen Version, Baichuan2, ähnelt. Es umfasst 32 Schichten mit 32 Aufmerksamkeit-Köpfen, einer versteckten Dimension von 4096 und einer Feed-Forward-Layer-Größe von 11008. Als Aktivierungsfunktion wird SwiGLU verwendet, während RMSNorm die Trainingsstabilität erhöht. Rotary Positional Embedding (RoPE) wird verwendet, um relative Positionsabhängigkeiten zu modellieren.

Vortraining des Modells

Vortrainingsdaten

Die Konstruktion der Vortrainingsdaten für BaichuanSEED basiert auf zwei Prinzipien: Vielfalt und hohe Qualität. In Bezug auf die Vielfalt sollten die Vortrainingsdaten eine breite Palette von Themen, sprachlichen Stilen und Formaten abdecken, um sicherzustellen, dass das Modell sich an unterschiedliche Anwendungsszenarien anpassen kann. Hochwertige Dokumente, die typischerweise nach einem strengen Prozess der menschlichen Überprüfung und Korrektur kuratiert werden, bilden die Basis der Daten.

Um diese Ziele zu erreichen, konzentriert sich der Ansatz sowohl auf die Skalierung als auch auf das Reweighting der Daten. Dabei werden qualitativ hochwertige Daten aus dem Internet gesammelt, während synthetische und spezifische Benchmark-Daten bewusst ausgeschlossen werden, um die Reinheit des Modells zu gewährleisten. Anschließend wird ein globaler Multi-Granularitäts-Deduplikationsalgorithmus verwendet, um das Sampling-Gewicht jedes Datenpunkts während des Trainings anzupassen.

Trainingssetup

Das Training von BaichuanSEED umfasst eine umfangreiche Sammlung hochqualitativer Daten, gefolgt von einer Neugewichtung der Datenpunkte, um die Sampling-Wahrscheinlichkeit während des Vortrainings festzulegen. Diese Methode vermeidet eine feinkörnige Datenauswahl, um die Erreichbarkeit durch Datensammlung und Reweighting zu maximieren.

Feinabstimmung und Bewertung

Nach dem Vortraining wurde BaichuanSEED in einer einfachen, aber effektiven Feinabstimmungsphase weiter optimiert. Diese Feinabstimmung verleiht dem Modell die Fähigkeit zur Befolgung von Anweisungen. In der Bewertung zeigt BaichuanSEED Konsistenz und Vorhersehbarkeit, was auf die Robustheit des Trainingsprozesses hinweist. Konsistenz spiegelt sich in den gleichmäßigen Trends wider, die in den Benchmarks für Vortraining und Feinabstimmung beobachtet werden. Vorhersehbarkeit bezieht sich auf die Fähigkeit, die zukünftige Leistung des Modells basierend auf frühen Kontrollpunkten vorherzusagen.

Experimentelle Ergebnisse und zukünftige Optimierungen

BaichuanSEED wurde gegen eine Reihe von LLMs ähnlicher Größe auf umfassenden Benchmarks und mehreren Downstream-Aufgaben bewertet. Die experimentellen Ergebnisse zeigen, dass das Modell ohne übermäßige Optimierung bereits eine vergleichbare Leistung wie fortschrittliche kommerzielle Modelle wie Llama3 und Qwen-1.5 aufweist. Gleichzeitig gibt es noch Raum für Verbesserungen bei einigen Downstream-Aufgaben, insbesondere in den Bereichen Mathematik und Codierung.

Experimente zur weiteren Optimierung umfassen die Anpassung des Verhältnisses von Daten mit hoher Wissensdichte und die Optimierung der mathematischen und programmierfähigen Fähigkeiten. Diese Optimierungen sollen in zukünftigen Arbeiten in das Modell BaichuanSEED integriert werden, um ein hochgradig robustes LLM zu konstruieren.

Fazit

Die Hauptbeiträge dieser Arbeit sind zweifach: Erstens wird eine Datenverarbeitungspipeline vorgeschlagen, die eine breite Sammlung zur Skalierung und eine Neugewichtung zur Deduplikation und Verbesserung der Datenqualität umfasst. Zweitens wird ein wettbewerbsfähiges 7B LLM-Baseline-Modell von Grund auf mit 3T Daten trainiert, gefolgt von einer einfachen, aber effektiven überwachten Feinabstimmung. Das Modell zeigt Konsistenz und Vorhersehbarkeit und erreicht vergleichbare Leistungen bei umfassenden Benchmarks mit modernen kommerziellen LLMs ohne gezielte Optimierung.

Literaturverzeichnis

- http://www.arxiv.org/abs/2408.15079 - https://arxiv.org/html/2408.15079v1 - https://twitter.com/gm8xx8/status/1828617869334135096 - https://www.alexanderthamm.com/en/blog/large-language-models-a-guide/ - https://www.researchgate.net/publication/361073536_Deduplicating_Training_Data_Makes_Language_Models_Better - https://github.com/RUCAIBox/LLMSurvey - https://fis.uni-bamberg.de/entities/publication/dee21204-b028-4ecb-95b3-8d07122d30b3 - https://www.adesso.de/en/news/blog/open-source-large-language-models.jsp
Was bedeutet das?